כל מחקר כמותי של התנ״ך — ודילוגי אותיות הם בדיוק כזה — עומד או נופל על שאלה מקדימה: איזה טקסט בדיוק אתם מודדים? העמוד הזה עונה על השאלה ברמת דיוק של אות בודדת: אנו מתעדים את שרשרת המקור המלאה, מצהירים על כללי הספירה, מפרסמים את הטבלה המלאה של 39 הספרים, ומאמתים את הסכום מול המספר שהסופרים שומרים מדורי דורות.

המקור, מתועד חוליה אחר חוליה

מנוע החיפוש שלנו אינו משתמש ב"איזה טקסט עברי מהאינטרנט". הוא משתמש במהדורה מוגדרת, בעלת היסטוריה עריכתית גלויה:

  • המהדורה: מקרא על פי המסורה (MAM) — מהדורה דיגיטלית של התנ״ך המבוססת על כתר ארם צובא (כתב היד המסורתי הסמכותי ביותר, שניקד אהרן בן אשר, המאה הע׳) ועל כתבי יד קרובים לחלקים החסרים. כל החלטה עריכתית במהדורה מתועדת בפומבי.
  • היכן היא חיה: המהדורה מפותחת ומתוחזקת בויקיטקסט העברי, ברישיון פתוח CC-BY-SA.
  • איך היא מגיעה אלינו: ספריא מפיצה את MAM כגרסת העברית הסטנדרטית שלה לתנ״ך. זו אינה השערה: ה־API של ספריא מצהיר על כך במטא־נתונים (heVersionTitle: "Miqra according to the Masorah" ו־heVersionSource המפנה לדף הפרויקט בוויקיטקסט). כל אחד יכול לבדוק את תשובת ה־API הגולמית.
  • מנוע החיפוש שלנו טוען את הטקסט הזה, ספר אחר ספר, ישירות מה־API של ספריא — אותה שרשרת מקצה לקצה.

מתודולוגיית הספירה (הכללים המדויקים)

ספירות תנ״ך ניתנות להשוואה רק כשהכללים מוצהרים. אלה שלנו, מיושמים זהה בטבלה הזו ובקורפוס של המנוע:

  • אות: כל תו באלף־בית העברי (יוניקוד U+05D0 עד U+05EA: 22 האותיות ו־5 הצורות הסופיות ך ם ן ף ץ). ניקוד וטעמים אינם אותיות ואינם נספרים.
  • כתיב, לא קרי: במקומות שבהם המסורה מציינת מילה הנכתבת בצורה אחת ונקראת באחרת, אנו סופרים אך ורק את הכתיב — מה שכתוב פיזית בספר. זו המוסכמה של מחקר הדילוגים הקלאסי.
  • ללא אפרט עריכתי: הערות השוליים של המהדורה (חילופי כתבי יד), סימוני הפרשיות {פ}/{ס} וכל רכיב סימון — בחוץ: הם אינם אותיות התנ״ך.
  • מילה: רצף אותיות עבריות התחום ברווח או במקף (־). כלומר, מילים המחוברות במקף נספרות בנפרד.
  • פסוק: כל פסוק על פי חלוקת המסורה הסטנדרטית של המהדורה.

הטבלה המלאה

#ספרפסוקיםמיליםאותיות
1בראשית1,53320,61278,063
2שמות1,21016,71363,527
3ויקרא85911,95044,790
4במדבר1,28816,40863,529
5דברים95614,29454,892
תורה — 5 ספרים5,84679,977304,801
6יהושע65610,03139,730
7שופטים6189,88538,952
8שמואל א81113,26151,357
9שמואל ב69511,03342,179
10מלכים א81713,14050,625
11מלכים ב71912,27347,822
12ישעיהו1,29116,92566,874
13ירמיהו1,36421,83184,899
14יחזקאל1,27318,73074,511
15הושע1972,3819,389
16יואל739573,872
17עמוס1462,0428,034
18עובדיה212911,119
19יונה486882,700
20מיכה1051,3965,571
21נחום475582,255
22חבקוק566712,596
23צפניה537672,995
24חגי386002,336
25זכריה2113,12712,433
26מלאכי558763,450
נביאים — 21 ספרים9,294141,463553,699
27תהלים2,52719,58378,822
28משלי9156,91526,500
29איוב1,0708,34031,851
30שיר השירים1171,2505,141
31רות851,2944,949
32איכה1541,5425,974
33קהלת2222,98710,968
34אסתר1673,04512,110
35דניאל3575,92324,280
36עזרא2803,75415,762
37נחמיה4055,31222,507
38דברי הימים א94310,74044,559
39דברי הימים ב82213,31554,917
כתובים — 13 ספרים8,06484,000338,340
תנ"ך שלם — 39 ספרים23,204305,4401,196,840

האימות: מדוע המספרים האלה אמינים

כל טבלה אפשר להעתיק; טבלה מדעית מאמתים. מסורת הסופרים — המעתיקים ספרי תורה אות באות — שומרת מדורות את מניין אותיות ספר התורה: 304,805. הספירה המחושבת שלנו לתורה נותנת 304,801. הפרש של 4 אותיות בדיוק, כ־0.0013%.

וכאן הנקודה המכרעת: ההפרש הזה אינו טעות — הוא חתימת אותנטיות. המספר 304,805 משקף את כתיב ספרי התורה הסטנדרטיים של ימינו (מסורת שהתגבשה בדפוסים המאוחרים), ואילו כתר ארם צובא של בן אשר שונה מהם בקומץ מקרים מתועדים של מלא/חסר. טקסט דיגיטלי משובש היה סוטה במאות או באלפי אותיות; מהדורה ביקורתית נאמנה לכתר סוטה מספר התורה הסטנדרטי בדיוק בסדר הגודל הזעיר והמוסבר הזה. האימותים מתכנסים:

  • אותיות התורה: 304,801 (כתר/MAM) מול 304,805 (ספרים סטנדרטיים) — הפרש 4 אותיות, עקבי עם הבדלי המלא/חסר המתועדים בין המסורות.
  • מילות התורה: 79,977 — המניין המקובל המצוטט הוא 79,976 (הפרש 1, מיוחס למקרה גבול של חלוקת מילה בין מהדורות).
  • פסוקי התורה: 5,846 — בדיוק מניין המהדורות המסורתיות המודרניות.
  • פסוקי התנ״ך: 23,204 — בתוך הטווח המסורתי המקובל (כ־23,200).

למה אתרים אחרים מפרסמים מספרים שונים?

השוו טבלאות "מניין אותיות התנ״ך" ברשת ותמצאו שונוּת. כמעט תמיד היא מוסברת בארבעה גורמים שכמעט אף פעם לא מוצהרים: המהדורה הבסיסית (כתר, לנינגרד, קורן, דפוסים — נבדלים במלא/חסר), הטיפול בכתיב/קרי (סופרים את הכתוב, את הנקרא, או את שניהם?), כלל המילה (מקף מחבר או מפריד?), וזיהום שקט (הערות עריכה, סימונים ותווי עיצוב שנספרו כטקסט). הטבלה שלנו מצהירה על ארבע ההחלטות — ולכן כל מספר בה ניתן להגנה ולשחזור.

למעשה, הכנת המחקר הזה הביאה אותנו לשפר את המנוע עצמו: גילינו שהערות השוליים של MAM והקרי הכפול ניפחו את הקורפוס בכ־5,600 אותיות (כ־0.5%) — ותיקנו. הקורפוס הנוכחי הוא בדיוק הטקסט הכתוב — המספרים שבטבלה.

שחזרו בעצמכם

אל תאמינו לנו: פתחו את מנוע החיפוש, טענו כל ספר (או את התנ״ך כולו) והשוו את סך האותיות בלוח המידע לטבלה הזו. הם זהים, כי זו אותה ספירה על אותו טקסט. הנוהל המלא — מקור, ניקוי, כללים — מתואר לעיל, וכל מתכנת יכול לשחזרו מול ה־API הציבורי של ספריא בתוך אחר צהריים.

הערה: הספירות תואמות את מהדורת MAM כפי שה־API של ספריא מפיץ אותה בתאריך פרסום המאמר. MAM היא מהדורה חיה עם תיקוני עריכה מתועדים; שינויים עתידיים יהיו בסדר גודל של אותיות בודדות.