Peut-on apprendre aux ordinateurs à déchiffrer les écritures cunéiformes ?

Les historiens et archéologues de l’antiquité ont de plus en plus recours aux humanités numériques pour archiver, organiser et interroger leurs données. Et si les ordinateurs pouvaient faire le travail des assyriologues et déchiffrer les écritures cunéiformes ? Plusieurs projets tendent vers ce but en Europe et en Amérique.

Le défi est d’ampleur. En effet, les écritures cunéiformes proposent trois systèmes différents, logographique (un signe pour un mot), syllabique (un signe pour une syllabe) et alphabétique, avec, pour la grande majorité des textes, un mélange de signes syllabiques et logographiques. Par ailleurs, elles ont été utilisées pendant plus de trois mille ans par une douzaine de langues appartenant à diffiérentes familles linguistiques.

Les assyriologues sont loin d’avoir déchiffré toutes les tablettes cunéiformes exhumées à ce jour, plus d’un million, et de nouveaux textes apparaissent régulièrement, que ce soit au cours de fouilles archéologiques ou par le marché illicite des antiquités.

Selon les périodes, les régions et les contextes, les tablettes cunéiformes présentent une grande variété d’écritures selon : le nombre de signes utilisés, leur forme standardisée ou non, le langage transcrit, le genre du texte… Les études paléographiques se sont multipliées, les assyriologues tentant de reconnaître les différentes mains de scribes.

Les chercheurs apprivoisent les nouvelles technologies pour les aider dans leur travail. La photographie numérique a peu à peu remplacé les copies de tablettes à la main et depuis quelques années les scanners 3D et autres techniques d’imagerie permettent un meilleur rendu de cette écriture imprimée « en creux » et de son support, la tablette d’argile, écrite sur toutes ses faces.

Plusieurs projets ont vu le jour pour apprendre à l’ordinateur, d’une part à reconnaître les caractères cunéiformes sur les tablettes, et d’autre part à traduire automatiquement un texte à partir de la translittération des caractères cunéiformes. Parmi ceux-ci, figurent le projet allemand dirigé par G. Müller, et celui transatlantique coordonné depuis Toronto par H. Baker.

Le premier, « Computer-unterstützte Keilschriftanalyse », repose sur une modélisation en 3D des tablettes et des signes cunéiformes et des programmes de traitement de données permettant une analyse bi- et tri-dimensionnelles pour une reconnaissance automatique des signes et des mots. Il a pour but de dresser une liste la plus complète possible des différents signes et de leurs variantes, d’identifier les auteurs des textes, et de rejoindre des fragments de tablettes présentant la même écriture. L’expérience est menée à partir des textes hittites (Turquie, 2ème moitié du 2ème millénaire avant notre ère). Il s’agit de grandes tablettes, souvent fragmentaires, aux surfaces assez planes et aux signes réguliers. Une telle technique serait bien plus difficile à mener sur les tablettes d’autres périodes, plus bombées, écrites sur toutes les tranches et avec des signes très irréguliers.

Le deuxième projet, « Machine Translation and Automated Analysis of Cuneiform Languages », porte sur l’apprentissage automatique par la machine des séquences de signes en translittération grâce aux technologies de traduction automatique. L’expérimentation porte sur 67 000 textes courts et très normalisés produits par l’administration de la Troisième Dynastie d’Ur (21e siècle avant notre ère). Le vocabulaire sumérien utilisé dans ces textes déjà translittérés sur la base de la Cuneiform Digital Library Initiative (CDLI) est très limité et répétitif, et les chercheurs qui les étudient n’ont pas pour habitude d’en publier une traduction. Le projet a donc pour objectif de proposer en libre accès une traduction de ce textes obtenue par ordinateur et de fournir des outils (Linked Open Data) pour pouvoir les exploiter de manière plus systématique.

Ces deux projets, ainsi que beaucoup d’autres, ont ciblé des corpus de textes cunéiformes qui permettent l’utilisation de telles technologies, soit par leur aspect physique, soit par leur caractère très régulier et répétitif. Mais cela ne représente qu’une petite partie de la documentation connue et il faudra attendre encore de nombreuses années avant que l’intelligence artificielle puisse effectuer le déchiffrement des textes cunéiformes à la place des assyriologues.

Publier un commentaire