Cuando buscas un término en nuestro buscador, el panel de resultados muestra dos números: cuántas secuencias se encontraron y cuántas se esperaban por puro azar. El primero sin el segundo no dice nada — y esa es, probablemente, la idea más importante de todo el fenómeno de los códigos. Este artículo explica con precisión de dónde sale el segundo número, qué supone, qué no captura, y cómo usarlo para hacer búsquedas que resistan escrutinio.
La Torá como objeto estadístico
El corpus de la Torá de nuestro buscador (edición Koren — aquí documentamos por qué) tiene exactamente N = 304,805 letras. Antes de hablar de significancia hay que conocer la materia prima: con qué frecuencia aparece cada letra. Esta es la distribución real, computada sobre el corpus (formas finales contadas con su letra base, la convención del motor):
| Letra | Apariciones | Frecuencia | Letra | Apariciones | Frecuencia |
|---|---|---|---|---|---|
| י yod | 31,531 | 10.34% | כ kaf | 11,968 | 3.93% |
| ו vav | 30,513 | 10.01% | ע ayin | 11,250 | 3.69% |
| ה he | 28,056 | 9.20% | ח jet | 7,189 | 2.36% |
| א alef | 27,059 | 8.88% | ד dálet | 7,032 | 2.31% |
| מ mem | 25,090 | 8.23% | פ pe | 4,805 | 1.58% |
| ל lámed | 21,570 | 7.08% | ק qof | 4,695 | 1.54% |
| ר resh | 18,125 | 5.95% | צ tsadi | 3,962 | 1.30% |
| ת tav | 17,950 | 5.89% | ז zayin | 2,198 | 0.72% |
| ב bet | 16,345 | 5.36% | ג guímel | 2,109 | 0.69% |
| ש shin | 15,595 | 5.12% | ס sámej | 1,833 | 0.60% |
| נ nun | 14,126 | 4.63% | ט tet | 1,804 | 0.59% |
Las cinco formas finales (ך ם ן ף ץ) están contadas con su letra base — la misma equivalencia que usa el motor de búsqueda en su modo clásico.
Dos observaciones con consecuencias directas para el ELS. Primera: la distribución es muy desigual — la yod es 17 veces más frecuente que la tet. Segunda: solo cinco letras (י ו ה א מ) concentran el 46.7% del texto. Un término compuesto de letras comunes (como תורה o יהוה) aparecerá como ELS decenas de miles de veces por pura aritmética; uno con letras raras (ט, ג, ז) será naturalmente escaso. Comparar conteos brutos entre términos distintos no tiene sentido sin este contexto.
El modelo nulo: ¿cuántos ELS produce un texto sin mensaje?
En estadística, una hipótesis nula es el escenario aburrido contra el que se compara todo: aquí, un texto que no contiene ningún código — una secuencia de 304,805 letras sorteadas independientemente con las frecuencias de la tabla. Si el conteo real de tu búsqueda es indistinguible del que produce ese texto sin mensaje, no hay nada que explicar.
Bajo ese modelo, la probabilidad de que una posición inicial n y un salto d concretos deletreen tu término de k letras es el producto de las frecuencias de sus letras: p = p(c₁)·p(c₂)·…·p(c_k). El número esperado de coincidencias suma esa probabilidad sobre todas las posiciones de inicio válidas y todos los saltos del rango:
E = direcciones × Σd=d_min..d_max max(0, N − (k−1)·d) × ∏ p(cᵢ)
Ejemplo trabajado con משיח (mem-shin-yod-jet): p = 0.0823 × 0.0512 × 0.1034 × 0.0236 ≈ 1.03 × 10⁻⁵. Parece minúsculo — pero el rango de saltos 2–1000 en ambas direcciones ofrece unos 600 millones de pares (posición, salto). Multiplicando: E ≈ 6,227 apariciones esperadas. Seis mil apariciones de "Mashíaj" en un texto aleatorio. Esa es la fuerza de la combinatoria, y es la razón por la que encontrar una palabra jamás es noticia.
De esperado a p-value: la aproximación de Poisson
El esperado E dice el promedio; falta saber cuánta variación es normal. Cuando se suman millones de eventos individualmente improbables, el conteo total sigue aproximadamente una distribución de Poisson con parámetro λ = E. Eso permite calcular el p-value: la probabilidad de observar al menos tantas coincidencias como las que viste, si el texto fuera ruido — P(X ≥ observado). Un p-value de 0.5 significa "lo más normal del mundo"; uno de 0.000001 significa "esto casi nunca pasa por azar".
Cuatro búsquedas reales, leídas con el modelo
Todo lo siguiente está computado sobre nuestro corpus real — puedes reproducir cada fila en el buscador:
| Término | Saltos | Encontrados | Esperados | Lectura |
|---|---|---|---|---|
| תורה | 2–1000, ambas dir. | 19,334 | ≈ 19,554 | Nada: el azar predice incluso un poco más. |
| ישראל | 2–1000, ambas dir. | 1,190 | ≈ 1,196 | Nada: coincidencia casi exacta con el ruido. |
| אהבה | 2–100, ambas dir. | 2,433 | ≈ 2,433 | Acuerdo al 0.003% — el modelo calibra. |
| משיח | 2–1000, ambas dir. | 6,398 | ≈ 6,227 | Exceso del 2.7% (p ≈ 0.016). Ver abajo. |
La tercera fila merece pausa: el conteo real de אהבה coincide con la predicción teórica en 2,433 contra 2,432.9. Esto es importante en ambas direcciones del debate. Para el entusiasta: confirma que el modelo no está amañado — predice el texto real con precisión asombrosa. Para el escéptico: confirma que, a nivel de conteos brutos, la Torá se comporta exactamente como un texto con sus frecuencias de letras. Si hay algo extraordinario en ella, no está en cuántas veces aparece una palabra.
Por qué un p-value pequeño tampoco basta
La cuarta fila (משיח, p ≈ 0.016) parece interesante. ¿Lo es? Aquí entra el error más común de toda la literatura de códigos: el efecto de búsqueda múltiple (look-elsewhere effect). Un p de 0.016 significa que el azar produce un exceso así una de cada ~60 veces. Pero si exploraste 60 términos — o un término en 60 configuraciones de libro, rango y dirección — esperas encontrar uno así aunque no haya nada. Y todo usuario de un buscador explora decenas de combinaciones sin darse cuenta de que cada una es un "intento".
El ejemplo perfecto es el hallazgo más famoso: תורה con salto exactamente 50 en Génesis. Nuestro motor reporta 19 apariciones donde el modelo espera 9.8 — p ≈ 0.006. ¿Impresionante? Solo si el salto 50 se hubiera fijado antes de mirar. Históricamente fue al revés: el salto 50 es célebre porque ahí se encontró algo. Probar a posteriori la configuración que ya sabías ganadora invalida el p-value — es apostarle al caballo después de la carrera. (Sobre el único experimento que intentó resolver esto con un protocolo fijado de antemano — WRR 1994 — y su refutación, dedicamos un artículo completo.)
Lo que el modelo no captura (y lo decimos nosotros)
Nuestro modelo nulo es deliberadamente simple, y conviene declarar sus límites:
- Las letras reales no son independientes. El hebreo tiene morfología: prefijos (ו, ה, ב, ל), sufijos, patrones de raíz. Dos letras consecutivas no son sorteos independientes. Para saltos grandes el efecto se diluye, pero para saltos muy pequeños (2–5) el modelo es solo aproximado.
- Las coincidencias se solapan. Dos matches del mismo término pueden compartir letras, lo que correlaciona los eventos; Poisson lo ignora. En la práctica el efecto es menor, como muestra la calibración de la tabla.
- No modela cruces ni proximidad. El número del panel aplica al conteo de un término. La significancia de dos términos cercanos (la pregunta de WRR) exige métodos de permutación que están fuera de este cálculo — por eso no mostramos un esperado en la pestaña de cruces.
Cómo buscar con rigor: un protocolo en cinco reglas
- Fija todo antes de buscar. Término, ortografía exacta (¿malé o jaser?), libro, rango de saltos, direcciones. Cada decisión tomada después de ver resultados convierte tu búsqueda en exploración — legítima, pero sin valor probatorio.
- Lee siempre el par encontrados/esperados. 19,334 apariciones de תורה impresionan hasta que ves el ≈ 19,554 de al lado. La razón observado/esperado es tu primer filtro; el conteo solo, nunca.
- Descuenta tus intentos. Si probaste 20 variantes, multiplica mentalmente tu p-value por 20 (corrección de Bonferroni). Un p de 0.016 tras 60 intentos es exactamente nada.
- Usa controles. Repite tu búsqueda en otro libro del Tanaj — el buscador te lo pone a un clic. Un patrón que aparece igual en cualquier texto del mismo tamaño es aritmética, no mensaje. Es la lección del experimento de Moby Dick.
- Distingue explorar de confirmar. Explorar es válido y fascinante — así se generan hipótesis. Pero una hipótesis nacida explorando solo se confirma con un test nuevo, fijado de antemano, idealmente en datos que no usaste para generarla.
Qué hace exactamente el buscador
Cada vez que ejecutas una búsqueda, el motor computa las frecuencias reales del corpus cargado (no usa tablas precalculadas: si cargas solo Salmos, usa las frecuencias de Salmos), evalúa la fórmula de E para tu término, tu rango y tus direcciones, y muestra el resultado redondeado junto al conteo. El cálculo corre en tu navegador, sobre el corpus congelado y verificado por checksums — los mismos números que cualquier programador puede reproducir con la fórmula de arriba.
El número "esperados por azar" no está ahí para desanimar a nadie. Está ahí porque un buscador de códigos sin él es un generador de falsos milagros — y porque la pregunta interesante nunca fue si las palabras aparecen, sino si aparecen más de lo que la aritmética obliga. Ahora tienes la herramienta para responderla.