כשאתם מחפשים מונח במנוע החיפוש שלנו, לוח התוצאות מציג שני מספרים: כמה רצפים נמצאו וכמה היו צפויים מהמקרה הטהור. הראשון בלי השני אינו אומר דבר — וזה, כנראה, הרעיון החשוב ביותר בכל תופעת הצפנים. המאמר הזה מסביר בדיוק מאיפה מגיע המספר השני, מה הוא מניח, מה הוא אינו לוכד, ואיך להשתמש בו כדי לערוך חיפושים שעומדים בביקורת.
התורה כאובייקט סטטיסטי
קורפוס התורה של מנוע החיפוש שלנו (מהדורת קורן — כאן תיעדנו מדוע) מכיל בדיוק N = 304,805 אותיות. לפני שמדברים על מובהקות צריך להכיר את חומר הגלם: באיזו תדירות מופיעה כל אות. זוהי ההתפלגות האמיתית, מחושבת על הקורפוס (אותיות סופיות נספרות עם אות הבסיס שלהן, המוסכמה של המנוע):
| אות | מופעים | תדירות | אות | מופעים | תדירות |
|---|---|---|---|---|---|
| י יו״ד | 31,531 | 10.34% | כ כ״ף | 11,968 | 3.93% |
| ו וי״ו | 30,513 | 10.01% | ע עי״ן | 11,250 | 3.69% |
| ה ה״א | 28,056 | 9.20% | ח חי״ת | 7,189 | 2.36% |
| א אל״ף | 27,059 | 8.88% | ד דל״ת | 7,032 | 2.31% |
| מ מ״ם | 25,090 | 8.23% | פ פ״א | 4,805 | 1.58% |
| ל למ״ד | 21,570 | 7.08% | ק קו״ף | 4,695 | 1.54% |
| ר רי״ש | 18,125 | 5.95% | צ צד״י | 3,962 | 1.30% |
| ת ת״ו | 17,950 | 5.89% | ז זי״ן | 2,198 | 0.72% |
| ב בי״ת | 16,345 | 5.36% | ג גימ״ל | 2,109 | 0.69% |
| ש שי״ן | 15,595 | 5.12% | ס סמ״ך | 1,833 | 0.60% |
| נ נו״ן | 14,126 | 4.63% | ט טי״ת | 1,804 | 0.59% |
חמש האותיות הסופיות (ך ם ן ף ץ) נספרות עם אות הבסיס שלהן — אותה הקבלה שמנוע החיפוש משתמש בה במצב הקלאסי.
שתי תצפיות עם השלכות ישירות על הדילוגים. הראשונה: ההתפלגות מאוד לא אחידה — היו״ד תדירה פי 17 מהטי״ת. השנייה: חמש אותיות בלבד (י ו ה א מ) מרכזות 46.7% מהטקסט. מונח המורכב מאותיות שכיחות (כמו תורה או יהוה) יופיע כדילוג עשרות אלפי פעמים מאריתמטיקה טהורה; מונח עם אותיות נדירות (ט, ג, ז) יהיה נדיר באופן טבעי. השוואת ספירות גולמיות בין מונחים שונים חסרת משמעות ללא ההקשר הזה.
מודל האפס: כמה דילוגים מפיק טקסט בלי מסר?
בסטטיסטיקה, השערת האפס היא התרחיש המשעמם שמולו משווים הכול: כאן, טקסט שאינו מכיל שום צופן — רצף של 304,805 אותיות שהוגרלו באופן בלתי תלוי לפי התדירויות שבטבלה. אם הספירה האמיתית של החיפוש שלכם אינה ניתנת להבחנה מזו שמפיק הטקסט חסר המסר, אין מה להסביר.
תחת המודל הזה, ההסתברות שמיקום התחלה n ודילוג d מסוימים יאייתו את המונח שלכם בן k האותיות היא מכפלת התדירויות של אותיותיו: p = p(c₁)·p(c₂)·…·p(c_k). מספר ההתאמות הצפוי סוכם את ההסתברות הזו על כל מיקומי ההתחלה התקפים וכל הדילוגים בטווח:
E = כיוונים × Σd=d_min..d_max max(0, N − (k−1)·d) × ∏ p(cᵢ)
דוגמה מחושבת עם משיח (מ״ם-שי״ן-יו״ד-חי״ת): p = 0.0823 × 0.0512 × 0.1034 × 0.0236 ≈ 1.03 × 10⁻⁵. נראה זעיר — אבל טווח הדילוגים 2–1000 בשני הכיוונים מציע כ־600 מיליון זוגות (מיקום, דילוג). מכפילים: E ≈ 6,227 מופעים צפויים. שישה אלפים מופעים של "משיח" בטקסט אקראי. זהו כוחה של הקומבינטוריקה, וזו הסיבה שמציאת מילה לעולם אינה חדשה.
מהצפוי אל ערך ה־p: קירוב פואסון
הצפוי E נותן את הממוצע; נותר לדעת כמה שונוּת היא נורמלית. כשמחברים מיליוני אירועים שכל אחד מהם בלתי סביר בפני עצמו, הספירה הכוללת מתפלגת בקירוב לפי התפלגות פואסון עם פרמטר λ = E. זה מאפשר לחשב את ערך ה־p: ההסתברות לצפות בלפחות כמספר ההתאמות שראיתם, אילו הטקסט היה רעש — P(X ≥ הנצפה). ערך־p של 0.5 פירושו "הדבר הרגיל בעולם"; ערך של 0.000001 פירושו "זה כמעט לא קורה במקרה".
ארבעה חיפושים אמיתיים, נקראים דרך המודל
כל מה שלהלן מחושב על הקורפוס האמיתי שלנו — תוכלו לשחזר כל שורה במנוע החיפוש:
| מונח | דילוגים | נמצאו | צפויות | קריאה |
|---|---|---|---|---|
| תורה | 2–1000, שני הכיוונים | 19,334 | ≈ 19,554 | כלום: המקרה חוזה אפילו קצת יותר. |
| ישראל | 2–1000, שני הכיוונים | 1,190 | ≈ 1,196 | כלום: התאמה כמעט מדויקת לרעש. |
| אהבה | 2–100, שני הכיוונים | 2,433 | ≈ 2,433 | הסכמה ברמת 0.003% — המודל מכויל. |
| משיח | 2–1000, שני הכיוונים | 6,398 | ≈ 6,227 | עודף של 2.7% (p ≈ 0.016). ראו בהמשך. |
השורה השלישית ראויה לעצירה: הספירה האמיתית של אהבה תואמת את התחזית התאורטית — 2,433 מול 2,432.9. זה חשוב לשני צדי הוויכוח. לנלהב: זה מאשר שהמודל אינו מכור מראש — הוא חוזה את הטקסט האמיתי בדיוק מדהים. לספקן: זה מאשר שברמת הספירות הגולמיות, התורה מתנהגת בדיוק כמו טקסט עם תדירויות האותיות שלה. אם יש בה משהו יוצא דופן, הוא אינו במספר הפעמים שמילה מופיעה.
למה גם ערך־p קטן אינו מספיק
השורה הרביעית (משיח, p ≈ 0.016) נראית מעניינת. האומנם? כאן נכנסת הטעות הנפוצה ביותר בכל ספרות הצפנים: אפקט החיפוש המרובה (look-elsewhere effect). ערך p של 0.016 פירושו שהמקרה מפיק עודף כזה בערך פעם אחת מכל ~60. אבל אם חקרתם 60 מונחים — או מונח אחד ב־60 תצורות של ספר, טווח וכיוון — אתם מצפים למצוא אחד כזה גם כשאין כלום. וכל משתמש במנוע חיפוש חוקר עשרות צירופים בלי לשים לב שכל אחד מהם הוא "ניסיון".
הדוגמה המושלמת היא הממצא המפורסם מכולם: תורה בדילוג של בדיוק 50 בבראשית. המנוע שלנו מדווח על 19 מופעים היכן שהמודל צופה 9.8 — p ≈ 0.006. מרשים? רק אם הדילוג 50 היה נקבע לפני שהסתכלו. היסטורית זה היה הפוך: הדילוג 50 מפורסם מפני ששם נמצא משהו. בדיקה בדיעבד של התצורה שכבר ידעתם שהיא מנצחת מבטלת את תוקפו של ערך ה־p — זה להמר על הסוס אחרי המרוץ. (לניסוי היחיד שניסה לפתור זאת בפרוטוקול שנקבע מראש — WRR 1994 — ולהפרכתו, הקדשנו מאמר שלם.)
מה המודל אינו לוכד (ואנחנו אומרים זאת בעצמנו)
מודל האפס שלנו פשוט במכוון, וראוי להצהיר על גבולותיו:
- האותיות האמיתיות אינן בלתי תלויות. לעברית יש מורפולוגיה: תחיליות (ו, ה, ב, ל), סופיות, משקלי שורש. שתי אותיות עוקבות אינן הגרלות בלתי תלויות. בדילוגים גדולים האפקט מתמוסס, אבל בדילוגים קטנים מאוד (2–5) המודל מקורב בלבד.
- ההתאמות חופפות זו לזו. שני מופעים של אותו מונח יכולים לחלוק אותיות, מה שמתאם בין האירועים; פואסון מתעלם מכך. בפועל האפקט זניח, כפי שמראה הכיול שבטבלה.
- הוא אינו ממדל הצלבות או קרבה. המספר שבלוח חל על ספירה של מונח אחד. המובהקות של שני מונחים קרובים (השאלה של WRR) דורשת שיטות תמורה שנמצאות מחוץ לחישוב הזה — לכן איננו מציגים ערך צפוי בלשונית ההצלבות.
איך לחפש בקפדנות: פרוטוקול בחמישה כללים
- קבעו הכול לפני החיפוש. מונח, כתיב מדויק (מלא או חסר?), ספר, טווח דילוגים, כיוונים. כל החלטה שמתקבלת אחרי שרואים תוצאות הופכת את החיפוש לחקירה חופשית — לגיטימית, אך ללא ערך ראייתי.
- קראו תמיד את הצמד נמצאו/צפויות. 19,334 מופעים של תורה מרשימים עד שרואים את ה־≈ 19,554 שלידם. היחס נצפה/צפוי הוא המסנן הראשון שלכם; הספירה לבדה — לעולם לא.
- נכו את הניסיונות שלכם. אם ניסיתם 20 גרסאות, הכפילו בראש את ערך ה־p שלכם ב־20 (תיקון בונפרוני). ערך p של 0.016 אחרי 60 ניסיונות הוא בדיוק כלום.
- השתמשו בבקרות. חזרו על החיפוש בספר אחר בתנ״ך — המנוע מעמיד זאת במרחק קליק. תבנית שמופיעה באותה מידה בכל טקסט באותו גודל היא אריתמטיקה, לא מסר. זה הלקח של ניסוי מובי דיק.
- הבחינו בין חקירה לאישוש. לחקור זה לגיטימי ומרתק — כך נולדות השערות. אבל השערה שנולדה מחקירה מתאששת רק במבחן חדש, שנקבע מראש, רצוי על נתונים שלא שימשו ליצירתה.
מה בדיוק עושה מנוע החיפוש
בכל פעם שאתם מריצים חיפוש, המנוע מחשב את התדירויות האמיתיות של הקורפוס הטעון (אין טבלאות מחושבות מראש: אם טענתם רק את תהלים, הוא משתמש בתדירויות של תהלים), מעריך את הנוסחה של E עבור המונח, הטווח והכיוונים שלכם, ומציג את התוצאה המעוגלת ליד הספירה. החישוב רץ בדפדפן שלכם, על הקורפוס המוקפא והמאומת בסכומי ביקורת — אותם מספרים שכל מתכנת יכול לשחזר עם הנוסחה שלמעלה.
המספר "צפויות במקרה" אינו שם כדי לייאש אף אחד. הוא שם מפני שמנוע חיפוש צפנים בלעדיו הוא מחולל של נסים כוזבים — ומפני שהשאלה המעניינת מעולם לא הייתה אם המילים מופיעות, אלא אם הן מופיעות יותר ממה שהאריתמטיקה מחייבת. עכשיו יש בידיכם הכלי לענות עליה.