Toute étude quantitative du Tanakh — et les séquences de lettres équidistantes en sont une — repose sur une question préalable : quel texte mesurez-vous exactement ? Cette page répond à cette question pour notre moteur avec une précision d'une lettre : nous documentons la chaîne complète de la source, déclarons les règles de comptage, publions la table intégrale des 39 livres et validons le total contre le nombre que les soferim gardent depuis des siècles.
La source, documentée maillon par maillon
Notre moteur n'utilise pas « un texte hébreu trouvé sur internet ». Il utilise une édition précise, à l'histoire éditoriale publique :
- Édition : Miqra According to the Masorah (MAM, מקרא על פי המסורה) — édition numérique du Tanakh fondée sur le Codex d'Alep (כתר ארם צובא, le manuscrit massorétique le plus autorisé, vocalisé par Aharon ben Asher, Xe s.) et sur des manuscrits apparentés pour les parties manquantes. Chaque décision éditoriale de MAM est documentée publiquement.
- Où elle vit : MAM est développée et maintenue sur Wikisource hébreu, sous licence ouverte CC-BY-SA.
- Comment elle nous parvient : Sefaria distribue MAM comme sa version hébraïque standard du Tanakh. Ce n'est pas une supposition : l'API de Sefaria le déclare dans ses métadonnées (
heVersionTitle: "Miqra according to the Masorah"etheVersionSourcepointant vers la page du projet sur Wikisource). Chacun peut vérifier la réponse brute de l'API. - Notre moteur charge ce texte, livre par livre, directement depuis l'API de Sefaria — la même chaîne de bout en bout.
Méthodologie de comptage (les règles exactes)
Les comptages du Tanakh ne sont comparables que si les règles sont déclarées. Les nôtres, appliquées à l'identique dans cette table et dans le corpus du moteur :
- Lettre : tout caractère de l'alphabet hébreu (Unicode U+05D0 à U+05EA : les 22 lettres plus les 5 formes finales ך ם ן ף ץ). Les signes de vocalisation (nikoud) et de cantillation (te'amim) ne sont pas des lettres et ne sont pas comptés.
- Texte écrit (ketiv), non lu (qeré) : là où la Massore enregistre un mot écrit d'une façon et lu d'une autre, nous comptons exclusivement le ketiv — ce qui est physiquement écrit dans le rouleau. C'est la convention de la recherche ELS classique.
- Sans appareil éditorial : les notes de bas de page de MAM (variantes de manuscrits), les marqueurs de section {פ}/{ס} et tout élément de signalisation sont exclus : ce ne sont pas des lettres du Tanakh.
- Mot : séquence de lettres hébraïques délimitée par une espace ou un maqaf (־). Les mots unis par maqaf comptent donc séparément.
- Verset : chaque verset de la division massorétique standard de l'édition.
La table complète
| # | Livre | Versets | Mots | Lettres |
|---|---|---|---|---|
| 1 | Genèse בראשית | 1 533 | 20 612 | 78 063 |
| 2 | Exode שמות | 1 210 | 16 713 | 63 527 |
| 3 | Lévitique ויקרא | 859 | 11 950 | 44 790 |
| 4 | Nombres במדבר | 1 288 | 16 408 | 63 529 |
| 5 | Deutéronome דברים | 956 | 14 294 | 54 892 |
| Torah — 5 livres | 5 846 | 79 977 | 304 801 | |
| 6 | Josué יהושע | 656 | 10 031 | 39 730 |
| 7 | Juges שופטים | 618 | 9 885 | 38 952 |
| 8 | I Samuel שמואל א | 811 | 13 261 | 51 357 |
| 9 | II Samuel שמואל ב | 695 | 11 033 | 42 179 |
| 10 | I Rois מלכים א | 817 | 13 140 | 50 625 |
| 11 | II Rois מלכים ב | 719 | 12 273 | 47 822 |
| 12 | Isaïe ישעיהו | 1 291 | 16 925 | 66 874 |
| 13 | Jérémie ירמיהו | 1 364 | 21 831 | 84 899 |
| 14 | Ézéchiel יחזקאל | 1 273 | 18 730 | 74 511 |
| 15 | Osée הושע | 197 | 2 381 | 9 389 |
| 16 | Joël יואל | 73 | 957 | 3 872 |
| 17 | Amos עמוס | 146 | 2 042 | 8 034 |
| 18 | Abdias עובדיה | 21 | 291 | 1 119 |
| 19 | Jonas יונה | 48 | 688 | 2 700 |
| 20 | Michée מיכה | 105 | 1 396 | 5 571 |
| 21 | Nahoum נחום | 47 | 558 | 2 255 |
| 22 | Habacuc חבקוק | 56 | 671 | 2 596 |
| 23 | Sophonie צפניה | 53 | 767 | 2 995 |
| 24 | Aggée חגי | 38 | 600 | 2 336 |
| 25 | Zacharie זכריה | 211 | 3 127 | 12 433 |
| 26 | Malachie מלאכי | 55 | 876 | 3 450 |
| Neviʼim (Prophètes) — 21 livres | 9 294 | 141 463 | 553 699 | |
| 27 | Psaumes תהלים | 2 527 | 19 583 | 78 822 |
| 28 | Proverbes משלי | 915 | 6 915 | 26 500 |
| 29 | Job איוב | 1 070 | 8 340 | 31 851 |
| 30 | Cantique des Cantiques שיר השירים | 117 | 1 250 | 5 141 |
| 31 | Ruth רות | 85 | 1 294 | 4 949 |
| 32 | Lamentations איכה | 154 | 1 542 | 5 974 |
| 33 | Ecclésiaste קהלת | 222 | 2 987 | 10 968 |
| 34 | Esther אסתר | 167 | 3 045 | 12 110 |
| 35 | Daniel דניאל | 357 | 5 923 | 24 280 |
| 36 | Esdras עזרא | 280 | 3 754 | 15 762 |
| 37 | Néhémie נחמיה | 405 | 5 312 | 22 507 |
| 38 | I Chroniques דברי הימים א | 943 | 10 740 | 44 559 |
| 39 | II Chroniques דברי הימים ב | 822 | 13 315 | 54 917 |
| Ketouvim (Écrits) — 13 livres | 8 064 | 84 000 | 338 340 | |
| TANAKH COMPLET — 39 livres | 23 204 | 305 440 | 1 196 840 |
La validation : pourquoi ces nombres sont fiables
N'importe quelle table se copie ; une table scientifique se valide. La tradition des soferim — les scribes qui copient les rouleaux lettre par lettre — garde depuis des siècles le compte du Séfer Torah : 304 805 lettres. Notre comptage calculé de la Torah donne 304 801. Une différence d'exactement 4 lettres, ~0,0013 %.
Et voici le point décisif : cette différence n'est pas une erreur — c'est une signature d'authenticité. Le nombre 304 805 correspond à l'orthographe des rouleaux standard actuels (tradition consolidée par les éditions imprimées tardives), tandis que le Codex d'Alep de Ben Asher s'en écarte dans une poignée de cas documentés d'écriture pleine/défective (מלא/חסר). Un texte numérique corrompu dériverait de centaines ou de milliers de lettres ; une édition critique fidèle au Codex d'Alep s'écarte du rouleau standard exactement dans cet ordre de grandeur minuscule et explicable. Les validations convergent :
- Lettres de la Torah : 304 801 (MAM/Alep) contre 304 805 (rouleaux standard) — Δ de 4 lettres, cohérent avec les différences pleine/défective documentées entre traditions.
- Mots de la Torah : 79 977 — le compte de référence cité est 79 976 (Δ = 1, attribuable à un cas limite de division de mot entre éditions).
- Versets de la Torah : 5 846 — exactement le compte des éditions massorétiques modernes.
- Versets du Tanakh : 23 204 — dans la fourchette massorétique transmise (~23 200).
Pourquoi d'autres sites publient-ils des nombres différents ?
Comparez les tables de « lettres de la Bible » en ligne et vous trouverez des variations. Elles s'expliquent presque toujours par quatre facteurs rarement déclarés : l'édition de base (Alep, Léningrad, Koren, éditions imprimées — qui diffèrent en écriture pleine/défective), le traitement du ketiv/qeré (compte-t-on l'écrit, le lu, ou les deux ?), la règle du mot (le maqaf unit-il ou sépare-t-il ?), et la contamination silencieuse (notes éditoriales, marqueurs et caractères de mise en forme comptés comme texte). Notre table déclare ces quatre décisions — c'est pourquoi chaque nombre est défendable et reproductible.
De fait, la préparation de cette étude nous a conduits à améliorer le moteur lui-même : nous avons détecté que les notes éditoriales de MAM et le qeré dupliqué gonflaient le corpus d'environ 5 600 lettres (~0,5 %), et nous l'avons corrigé. Le corpus actuel est exactement le texte écrit — les chiffres de cette table.
Reproduisez-le vous-même
Ne nous croyez pas sur parole : ouvrez le moteur, chargez n'importe quel livre (ou le Tanakh complet) et comparez le total de lettres affiché dans le panneau d'informations avec cette table. Ils coïncident, car c'est le même comptage sur le même texte. La procédure complète — source, nettoyage, règles — est décrite ci-dessus, et tout programmeur peut la répliquer contre l'API publique de Sefaria en un après-midi.
Note : les comptages correspondent à l'édition MAM telle que distribuée par l'API de Sefaria à la date de publication de cet article. MAM est une édition vivante, aux corrections éditoriales documentées ; les changements futurs seraient de l'ordre de lettres individuelles.