Un regard scientifique sur les monothéismes depuis les origines jusqu’à l’époque moderne


Accueil > Ressources

La TEI (Text Encoding Initiative)

par claire - publié le , mis à jour le

Ressources

Il existe un outil que le chercheur peut utiliser pour structurer les textes sur lesquels il travaille : cet outil s’appelle la TEI (il s’agit d’un langage XML permettant de structurer des données et des métadonnées textuelles). À partir du "balisage" du texte, dans lequel le chercheur aura mis en valeur les éléments importants, l’informaticien que je suis pourra créer (ou reprendre) un "script" qui permettra de traduire sous forme de site web (ou autre) les fichiers traités. Et les possibilités de traitement de l’information sont impressionnantes.

Voir la page de présentation de la TEI sur le Wiki Caf’E.PHE qui propose définitions et tutoriels.

QU’EST-CE QUE LA TEI ?

 

La TEI est une grammaire XML écrite par des chercheurs, un outil informatique écrit en XML (extensible Markup Language) qui est un métalangage informatique pour le balisage du texte, un ensemble de conventions et de balises pour annoter un texte. La TEI permet de baliser le texte, pour annoter ses particularités en les décrivant. Les ordinateurs sont alors capables d’extraire des informations du texte. La difficulté est qu’il y a une séparation entre la description du contenu et sa forme, qui peut être multiple. Ce XML est utilisé partout en informatique aujourd’hui. Il permet d’identifier la structure d’un texte et de rendre accessibles les informations implicites et explicites.

Point important, les documents XML sont de bons candidats pour l’archivage pérenne. Le document structuré en langage XML peut être diffusé sous forme imprimé (pdf, par exemple), électronique (e-book, site Internet...). Une même source en XML peut devenir html, pdf et txt. La finalité est de faciliter l’échange et l’intégration des travaux des chercheurs, de concevoir et faire vivre un modèle international standart, applicable à tous les textes, modèle souple et adaptable.

La structuration du XML repose sur du balisage. Autrement dit, chaque élément du texte qui doit être mis en valeur le sera par des balises qui l’entoureront.
Il s’agit d’un système d’emboîtement des différentes balises, de poupées russes : les
éléments peuvent contenir d’autres éléments, du texte des images, du son... Les relations entre les éléments sont hiérarchiques ou ordinales, comme un sorte d’arbre généalogique.
La TEI permet de structurer l’information, mais aussi de descendre très loin dans les descriptions (ainsi, on peut différencier les différentes mains qui sont intervenues sur un texte, juxtaposer les différents témoins d’un manuscrit, mettre en valeur les ajouts, superpositions et substitutions, les inscriptions dans la marge, relier les textes et les images, indexer les documents, indiquer qui a établi le texte de référence...).

Le projet « Catena aurea electronica »

Ainsi, le projet « Catena aurea electronica » a pour finalité l’identification critique des sources, établissement d’un texte corrigé à partir de manuscrits de référence (sélection) et publication en ligne d’une édition provisoire de la plus importante chaîne exégétique latine des quatre évangiles (environ 12 300 citations, plus de 2 500 ont été identifiées et analysées à ce jour). Le portail glossae.net a pour but d’être un portail d’information et de documentation sur les gloses et commentaires de la Bible au Moyen Âge, donnant accès à des ressources numériques déjà disponibles sur Internet ou spécialement créées par une équipe de chercheurs et de collaborateurs français, américains, italiens et anglais.

Le projet COLEMON

Le Projet Col&mon
Issu de la convergence des programmes de recherche Collégiales et Monastères, COL&MON a pour objectif de constituer et d’analyser le corpus des monastères et des collégiales de l’espace français entre 816 et 1563 afin de comprendre, par une analyse spatiale du phénomène religieux, les ressorts de l’implantation et de l’évolution de ce réseau d’établissements qui sont des éléments majeurs de la géographie ecclésiastique médiévale. L’objectif est de renouveler la géographie ecclésiastique médiévale en proposant, de manière dynamique, des représentations cartographiques et de la data-visualisation des données spatio-temporelles.

 

COL&MON tire ses données de deux bases de données préexistantes :
 Collégiales : base de données des collégiales séculières de France (816 – 1563). Cette base de données a été réalisée et est alimentée dans le cadre du LAMOP sous la direction d’Anne Massoni.
 Monastères : base de données qui rassemble le corpus des établissements monastiques français au Moyen Âge (Ve-XVe s.)
Ce corpus est réalisé dans le cadre du Centre européen de recherches sur les congrégations et les ordres religieux (CERCOR, UMR 8584 LEM) sous la direction de Noëlle Deflou-Leca.

D’autres exemples de projets

D’autres projets, développés par d’autres institutions, plus tournés vers les recherches en littérature, ouvrent des horizons insoupçonnés. Voici quelques exemples :
Le site Le Berlin intellectuel des années 1800 (qui s’intéresse à la correspondance des intellectuels berlinois entre 1800 et 1830) met ainsi en parallèle le manuscrit d’une lettre avec sa transcription dont il existe une version diplomatique et une version de lecture, à la demande. Des liens hypertextes ont été créés avec certains noms ou mots-clés, qui renvoient à des pages explicatives, des notes ou des plans, offrant des parcours différents selon les usages.


Le site vangoghletters.org a pour objet l’édition des lettres de Van Gogh et propose, à propos de chaque lettre, une image du manuscrit, une transcription en néerlandais, et la traduction sur la même page.
Des onglets proposent le texte d’origine, associé ou non avec les numéros de ligne, le fac-simile du manuscrit, la traduction, les notes, les œuvres peintes à cette époque (et un lien vers les ouvrages publiés). Il est ainsi possible de mettre en relation tous ces éléments sur une même page web.


Le site Le Petit Thalamus qui édite scientifiquement sous forme électronique le manuscrit AA9 des Archives municipales de Montpellier, exécuté à partir des années 1320, est le dernier en date d’un série dont sept exemplaires sont conservés. Le site propose donc de comparer le manuscrit AA9 avec les autres témoins.
L’écran est divisé en quatre colonnes. Dans la première apparaît une image du manuscrit, dans la deuxième une transcription, dans la troisième une traduction. Dans la dernière colonne apparaît un commentaire historique. En haut de chaque colonne des onglets proposent le nom des témoins (de A à H). Il est ainsi possible de comparer les différentes versions sur une même page web, en ayant le commentaire historique sous les yeux si on le souhaite. Ce qui autorise toutes sortes de croisement des témoins, des possibilités de combinaisons et appariements, chacun se construisant son propre cheminement scientifique.


Le site sur « Les Chroniques latines » présente un corpus de textes latins consacrés à l’histoire des origines du Mont Saint-Michel en Normandie autour de deux textes majeurs, qui se trouvent dans les manuscrits montois déposés à la bibliothèque municipale d’Avranches. L’édition du manuscrit Avranches, BM, ms. 211, fol. 156-161 met sur une même page la transcription, les notes et l’apparat critique, ainsi que des images du manuscrit.
D’autres pages du site vont mettre en relation sur une même page la transcription, la traduction, les notes et l’apparat des deux manuscrits du Roman du Mont Saint-Michel conservés à Londres à la British Library.