O que significa exatamente "esperados pelo acaso"?

É o número médio de coincidências que a sua mesma busca (mesmo termo, mesmo intervalo de saltos, mesmas direções) produziria em um texto do mesmo comprimento cujas letras estivessem ordenadas ao acaso conservando as frequências reais do corpus. Se o encontrado se parece com o esperado, o resultado é aritmética inevitável, não sinal.

Quantas vezes uma palavra típica aparece como ELS na Torá?

Depende quase completamente das frequências de suas letras. Com saltos de 2 a 1000 em ambas as direções, תורה aparece 19.334 vezes (esperadas ≈ 19.554), ישראל 1.190 (esperadas ≈ 1.196) e משיח 6.398 (esperadas ≈ 6.227). Encontrar uma palavra nunca é significativo; a pergunta é se ela aparece mais do que o acaso prevê.

Um valor-p menor que 0,05 demonstra que há um código?

Não. O valor-p só é válido se a busca foi fixada antes de olhar os dados. Quem testa dezenas de termos, livros e intervalos acumula "tentativas", e entre 60 tentativas o normal é que apareça um p ≈ 0,016 sem que haja nada (efeito de busca múltipla, look-elsewhere effect). Além disso, o modelo de contagens não captura a pergunta forte dos códigos — a proximidade entre termos relacionados — que requer testes de permutação como os de WRR 1994.

Por que a contagem real de algumas palavras coincide quase exatamente com o esperado?

Porque no nível das contagens brutas a Torá se comporta como um texto com suas frequências de letras: אהבה dá 2.433 aparições observadas contra 2.432,9 esperadas. Isso valida a calibração do modelo e, ao mesmo tempo, estabelece o ponto científico chave: se algo extraordinário há no texto, não está em quantas vezes uma palavra solta aparece.

Esperados pelo acaso: a estatística honesta por trás de cada busca ELS

Quando você busca um termo no nosso buscador, o painel de resultados mostra dois números: quantas sequências foram encontradas e quantas eram esperadas pelo puro acaso. O primeiro sem o segundo não diz nada — e essa é, provavelmente, a ideia mais importante de todo o fenômeno dos códigos. Este artigo explica com precisão de onde sai o segundo número, o que ele supõe, o que não captura, e como usá-lo para fazer buscas que resistam ao escrutínio.

A Torá como objeto estatístico

O corpus da Torá do nosso buscador (edição Koren — aqui documentamos por quê) tem exatamente N = 304.805 letras. Antes de falar de significância é preciso conhecer a matéria-prima: com que frequência aparece cada letra. Esta é a distribuição real, computada sobre o corpus (formas finais contadas com sua letra base, a convenção do motor):

Letra	Aparições	Frequência	Letra	Aparições	Frequência
י yod	31.531	10,34%	כ kaf	11.968	3,93%
ו vav	30.513	10,01%	ע áyin	11.250	3,69%
ה he	28.056	9,20%	ח chet	7.189	2,36%
א álef	27.059	8,88%	ד dálet	7.032	2,31%
מ mem	25.090	8,23%	פ pê	4.805	1,58%
ל lâmed	21.570	7,08%	ק qof	4.695	1,54%
ר resh	18.125	5,95%	צ tsadi	3.962	1,30%
ת tav	17.950	5,89%	ז záyin	2.198	0,72%
ב bet	16.345	5,36%	ג guímel	2.109	0,69%
ש shin	15.595	5,12%	ס sâmech	1.833	0,60%
נ nun	14.126	4,63%	ט tet	1.804	0,59%

As cinco formas finais (ך ם ן ף ץ) estão contadas com sua letra base — a mesma equivalência que o motor de busca usa em seu modo clássico.

Duas observações com consequências diretas para o ELS. Primeira: a distribuição é muito desigual — a yod é 17 vezes mais frequente que a tet. Segunda: apenas cinco letras (י ו ה א מ) concentram 46,7% do texto. Um termo composto de letras comuns (como תורה ou יהוה) aparecerá como ELS dezenas de milhares de vezes por pura aritmética; um com letras raras (ט, ג, ז) será naturalmente escasso. Comparar contagens brutas entre termos distintos não faz sentido sem esse contexto.

O modelo nulo: quantos ELS produz um texto sem mensagem?

Em estatística, uma hipótese nula é o cenário entediante contra o qual tudo é comparado: aqui, um texto que não contém código algum — uma sequência de 304.805 letras sorteadas independentemente com as frequências da tabela. Se a contagem real da sua busca é indistinguível da que esse texto sem mensagem produz, não há nada a explicar.

Sob esse modelo, a probabilidade de que uma posição inicial n e um salto d específicos soletrem seu termo de k letras é o produto das frequências de suas letras: p = p(c₁)·p(c₂)·…·p(c_k). O número esperado de coincidências soma essa probabilidade sobre todas as posições de início válidas e todos os saltos do intervalo:

E = direções × Σ_{d=d_min..d_max} max(0, N − (k−1)·d) × ∏ p(cᵢ)

Exemplo resolvido com משיח (mem-shin-yod-chet): p = 0,0823 × 0,0512 × 0,1034 × 0,0236 ≈ 1,03 × 10⁻⁵. Parece minúsculo — mas o intervalo de saltos 2–1000 em ambas as direções oferece uns 600 milhões de pares (posição, salto). Multiplicando: E ≈ 6.227 aparições esperadas. Seis mil aparições de "Mashiach" em um texto aleatório. Essa é a força da combinatória, e é a razão pela qual encontrar uma palavra jamais é notícia.

Do esperado ao valor-p: a aproximação de Poisson

O esperado E diz a média; falta saber quanta variação é normal. Quando se somam milhões de eventos individualmente improváveis, a contagem total segue aproximadamente uma distribuição de Poisson com parâmetro λ = E. Isso permite calcular o valor-p: a probabilidade de observar pelo menos tantas coincidências quantas você viu, se o texto fosse ruído — P(X ≥ observado). Um valor-p de 0,5 significa "a coisa mais normal do mundo"; um de 0,000001 significa "isso quase nunca acontece por acaso".

Quatro buscas reais, lidas com o modelo

Tudo o que segue está computado sobre nosso corpus real — você pode reproduzir cada linha no buscador:

Termo	Saltos	Encontrados	Esperados	Leitura
תורה	2–1000, ambas dir.	19.334	≈ 19.554	Nada: o acaso prevê até um pouco mais.
ישראל	2–1000, ambas dir.	1.190	≈ 1.196	Nada: coincidência quase exata com o ruído.
אהבה	2–100, ambas dir.	2.433	≈ 2.433	Acordo de 0,003% — o modelo calibra.
משיח	2–1000, ambas dir.	6.398	≈ 6.227	Excesso de 2,7% (p ≈ 0,016). Ver abaixo.

A terceira linha merece uma pausa: a contagem real de אהבה coincide com a previsão teórica em 2.433 contra 2.432,9. Isso é importante em ambas as direções do debate. Para o entusiasta: confirma que o modelo não está manipulado — ele prevê o texto real com precisão assombrosa. Para o cético: confirma que, no nível das contagens brutas, a Torá se comporta exatamente como um texto com suas frequências de letras. Se há algo extraordinário nela, não está em quantas vezes uma palavra aparece.

Por que um valor-p pequeno tampouco basta

A quarta linha (משיח, p ≈ 0,016) parece interessante. Será? Aqui entra o erro mais comum de toda a literatura dos códigos: o efeito de busca múltipla (look-elsewhere effect). Um p de 0,016 significa que o acaso produz um excesso assim uma a cada ~60 vezes. Mas se você explorou 60 termos — ou um termo em 60 configurações de livro, intervalo e direção — você espera encontrar um assim mesmo que não haja nada. E todo usuário de um buscador explora dezenas de combinações sem perceber que cada uma é uma "tentativa".

O exemplo perfeito é o achado mais famoso: תורה com salto exatamente 50 em Gênesis. Nosso motor reporta 19 aparições onde o modelo espera 9,8 — p ≈ 0,006. Impressionante? Só se o salto 50 tivesse sido fixado antes de olhar. Historicamente foi o contrário: o salto 50 é célebre porque ali se encontrou algo. Testar a posteriori a configuração que você já sabia vencedora invalida o valor-p — é apostar no cavalo depois da corrida. (Sobre o único experimento que tentou resolver isso com um protocolo fixado de antemão — WRR 1994 — e sua refutação, dedicamos um artigo completo.)

O que o modelo não captura (e somos nós que dizemos)

Nosso modelo nulo é deliberadamente simples, e convém declarar seus limites:

As letras reais não são independentes. O hebraico tem morfologia: prefixos (ו, ה, ב, ל), sufixos, padrões de raiz. Duas letras consecutivas não são sorteios independentes. Para saltos grandes o efeito se dilui, mas para saltos muito pequenos (2–5) o modelo é apenas aproximado.
As coincidências se sobrepõem. Dois matches do mesmo termo podem compartilhar letras, o que correlaciona os eventos; Poisson ignora isso. Na prática o efeito é menor, como mostra a calibração da tabela.
Não modela cruzamentos nem proximidade. O número do painel se aplica à contagem de um termo. A significância de dois termos próximos (a pergunta de WRR) exige métodos de permutação que estão fora deste cálculo — por isso não mostramos um esperado na aba de cruzamentos.

Como buscar com rigor: um protocolo em cinco regras

Fixe tudo antes de buscar. Termo, ortografia exata (malê ou chaser?), livro, intervalo de saltos, direções. Cada decisão tomada depois de ver resultados converte sua busca em exploração — legítima, mas sem valor probatório.
Leia sempre o par encontrados/esperados. 19.334 aparições de תורה impressionam até você ver o ≈ 19.554 ao lado. A razão observado/esperado é seu primeiro filtro; a contagem sozinha, nunca.
Desconte suas tentativas. Se você testou 20 variantes, multiplique mentalmente seu valor-p por 20 (correção de Bonferroni). Um p de 0,016 após 60 tentativas é exatamente nada.
Use controles. Repita sua busca em outro livro do Tanach — o buscador o coloca a um clique. Um padrão que aparece igual em qualquer texto do mesmo tamanho é aritmética, não mensagem. É a lição do experimento de Moby Dick.
Distinga explorar de confirmar. Explorar é válido e fascinante — é assim que se geram hipóteses. Mas uma hipótese nascida explorando só se confirma com um teste novo, fixado de antemão, idealmente em dados que você não usou para gerá-la.

O que o buscador faz exatamente

Cada vez que você executa uma busca, o motor computa as frequências reais do corpus carregado (não usa tabelas pré-calculadas: se você carrega só Salmos, usa as frequências de Salmos), avalia a fórmula de E para seu termo, seu intervalo e suas direções, e mostra o resultado arredondado junto à contagem. O cálculo roda no seu navegador, sobre o corpus congelado e verificado por checksums — os mesmos números que qualquer programador pode reproduzir com a fórmula acima.

O número "esperados pelo acaso" não está ali para desanimar ninguém. Está ali porque um buscador de códigos sem ele é um gerador de falsos milagres — e porque a pergunta interessante nunca foi se as palavras aparecem, mas se aparecem mais do que a aritmética obriga. Agora você tem a ferramenta para respondê-la.