Toute étude quantitative du Tanakh — et les séquences de lettres équidistantes en sont une — repose sur une question préalable : quel texte mesurez-vous exactement ? Cette page répond à cette question pour notre moteur avec une précision d'une lettre : nous documentons la chaîne complète de la source, déclarons les règles de comptage, publions la table intégrale des 39 livres et validons le total contre le nombre que les soferim gardent depuis des siècles.

La source, documentée maillon par maillon

Notre moteur n'utilise pas « un texte hébreu trouvé sur internet ». Il utilise une édition précise, à l'histoire éditoriale publique :

  • Édition : Miqra According to the Masorah (MAM, מקרא על פי המסורה) — édition numérique du Tanakh fondée sur le Codex d'Alep (כתר ארם צובא, le manuscrit massorétique le plus autorisé, vocalisé par Aharon ben Asher, Xe s.) et sur des manuscrits apparentés pour les parties manquantes. Chaque décision éditoriale de MAM est documentée publiquement.
  • Où elle vit : MAM est développée et maintenue sur Wikisource hébreu, sous licence ouverte CC-BY-SA.
  • Comment elle nous parvient : Sefaria distribue MAM comme sa version hébraïque standard du Tanakh. Ce n'est pas une supposition : l'API de Sefaria le déclare dans ses métadonnées (heVersionTitle: "Miqra according to the Masorah" et heVersionSource pointant vers la page du projet sur Wikisource). Chacun peut vérifier la réponse brute de l'API.
  • Notre moteur charge ce texte, livre par livre, directement depuis l'API de Sefaria — la même chaîne de bout en bout.

Méthodologie de comptage (les règles exactes)

Les comptages du Tanakh ne sont comparables que si les règles sont déclarées. Les nôtres, appliquées à l'identique dans cette table et dans le corpus du moteur :

  • Lettre : tout caractère de l'alphabet hébreu (Unicode U+05D0 à U+05EA : les 22 lettres plus les 5 formes finales ך ם ן ף ץ). Les signes de vocalisation (nikoud) et de cantillation (te'amim) ne sont pas des lettres et ne sont pas comptés.
  • Texte écrit (ketiv), non lu (qeré) : là où la Massore enregistre un mot écrit d'une façon et lu d'une autre, nous comptons exclusivement le ketiv — ce qui est physiquement écrit dans le rouleau. C'est la convention de la recherche ELS classique.
  • Sans appareil éditorial : les notes de bas de page de MAM (variantes de manuscrits), les marqueurs de section {פ}/{ס} et tout élément de signalisation sont exclus : ce ne sont pas des lettres du Tanakh.
  • Mot : séquence de lettres hébraïques délimitée par une espace ou un maqaf (־). Les mots unis par maqaf comptent donc séparément.
  • Verset : chaque verset de la division massorétique standard de l'édition.

La table complète

#LivreVersetsMotsLettres
1Genèse בראשית1 53320 61278 063
2Exode שמות1 21016 71363 527
3Lévitique ויקרא85911 95044 790
4Nombres במדבר1 28816 40863 529
5Deutéronome דברים95614 29454 892
Torah — 5 livres5 84679 977304 801
6Josué יהושע65610 03139 730
7Juges שופטים6189 88538 952
8I Samuel שמואל א81113 26151 357
9II Samuel שמואל ב69511 03342 179
10I Rois מלכים א81713 14050 625
11II Rois מלכים ב71912 27347 822
12Isaïe ישעיהו1 29116 92566 874
13Jérémie ירמיהו1 36421 83184 899
14Ézéchiel יחזקאל1 27318 73074 511
15Osée הושע1972 3819 389
16Joël יואל739573 872
17Amos עמוס1462 0428 034
18Abdias עובדיה212911 119
19Jonas יונה486882 700
20Michée מיכה1051 3965 571
21Nahoum נחום475582 255
22Habacuc חבקוק566712 596
23Sophonie צפניה537672 995
24Aggée חגי386002 336
25Zacharie זכריה2113 12712 433
26Malachie מלאכי558763 450
Neviʼim (Prophètes) — 21 livres9 294141 463553 699
27Psaumes תהלים2 52719 58378 822
28Proverbes משלי9156 91526 500
29Job איוב1 0708 34031 851
30Cantique des Cantiques שיר השירים1171 2505 141
31Ruth רות851 2944 949
32Lamentations איכה1541 5425 974
33Ecclésiaste קהלת2222 98710 968
34Esther אסתר1673 04512 110
35Daniel דניאל3575 92324 280
36Esdras עזרא2803 75415 762
37Néhémie נחמיה4055 31222 507
38I Chroniques דברי הימים א94310 74044 559
39II Chroniques דברי הימים ב82213 31554 917
Ketouvim (Écrits) — 13 livres8 06484 000338 340
TANAKH COMPLET — 39 livres23 204305 4401 196 840

La validation : pourquoi ces nombres sont fiables

N'importe quelle table se copie ; une table scientifique se valide. La tradition des soferim — les scribes qui copient les rouleaux lettre par lettre — garde depuis des siècles le compte du Séfer Torah : 304 805 lettres. Notre comptage calculé de la Torah donne 304 801. Une différence d'exactement 4 lettres, ~0,0013 %.

Et voici le point décisif : cette différence n'est pas une erreur — c'est une signature d'authenticité. Le nombre 304 805 correspond à l'orthographe des rouleaux standard actuels (tradition consolidée par les éditions imprimées tardives), tandis que le Codex d'Alep de Ben Asher s'en écarte dans une poignée de cas documentés d'écriture pleine/défective (מלא/חסר). Un texte numérique corrompu dériverait de centaines ou de milliers de lettres ; une édition critique fidèle au Codex d'Alep s'écarte du rouleau standard exactement dans cet ordre de grandeur minuscule et explicable. Les validations convergent :

  • Lettres de la Torah : 304 801 (MAM/Alep) contre 304 805 (rouleaux standard) — Δ de 4 lettres, cohérent avec les différences pleine/défective documentées entre traditions.
  • Mots de la Torah : 79 977 — le compte de référence cité est 79 976 (Δ = 1, attribuable à un cas limite de division de mot entre éditions).
  • Versets de la Torah : 5 846 — exactement le compte des éditions massorétiques modernes.
  • Versets du Tanakh : 23 204 — dans la fourchette massorétique transmise (~23 200).

Pourquoi d'autres sites publient-ils des nombres différents ?

Comparez les tables de « lettres de la Bible » en ligne et vous trouverez des variations. Elles s'expliquent presque toujours par quatre facteurs rarement déclarés : l'édition de base (Alep, Léningrad, Koren, éditions imprimées — qui diffèrent en écriture pleine/défective), le traitement du ketiv/qeré (compte-t-on l'écrit, le lu, ou les deux ?), la règle du mot (le maqaf unit-il ou sépare-t-il ?), et la contamination silencieuse (notes éditoriales, marqueurs et caractères de mise en forme comptés comme texte). Notre table déclare ces quatre décisions — c'est pourquoi chaque nombre est défendable et reproductible.

De fait, la préparation de cette étude nous a conduits à améliorer le moteur lui-même : nous avons détecté que les notes éditoriales de MAM et le qeré dupliqué gonflaient le corpus d'environ 5 600 lettres (~0,5 %), et nous l'avons corrigé. Le corpus actuel est exactement le texte écrit — les chiffres de cette table.

Reproduisez-le vous-même

Ne nous croyez pas sur parole : ouvrez le moteur, chargez n'importe quel livre (ou le Tanakh complet) et comparez le total de lettres affiché dans le panneau d'informations avec cette table. Ils coïncident, car c'est le même comptage sur le même texte. La procédure complète — source, nettoyage, règles — est décrite ci-dessus, et tout programmeur peut la répliquer contre l'API publique de Sefaria en un après-midi.

Note : les comptages correspondent à l'édition MAM telle que distribuée par l'API de Sefaria à la date de publication de cet article. MAM est une édition vivante, aux corrections éditoriales documentées ; les changements futurs seraient de l'ordre de lettres individuelles.