Anne Garcia Fernandez (11 avril 2023)

XSLT, un outil clef pour manipuler les données textuelles

Intervenante

Après une thèse en traitement automatique des langues, Anne Garcia Fernandez est devenue ingénieure de recherche CNRS au sein de laboratoires SHS et travaille actuellement à l'UMR Litt&Arts (Univ. Grenoble-Alpes, CNRS). Elle pratique les Humanités Numériques depuis 2012 et au sein de l'équipe d'ingénieur.e.s ELAN (l'élan littératures et arts numériques), elle est spécialiste du traitement et de l'analyse de données. Elle participe ou a participé à de nombreux projets d'édition numérique et s'intéresse en particulier à la conception de solutions non génériques, permettant d'explorer et d'exploiter les données selon les objectifs scientifiques propres au projet. Depuis 2017, elle travaille sur des projets en littérature et en arts, et elle a collaboré entre 2013 et 2017 à des projets en anthropologie. Un point commun à tous ces projets : l'usage du format XML. Elle s'est donc spécialisée dans la manipulation de ce format.

Résumé

L'encodage de données textuelles passe bien souvent par l'utilisation du standard XML-TEI. Ce format "pivot" permet une richesse de représentation des données qui n'est plus à démontrer, tout en cochant nombre de cases de la Science ouverte et des principes FAIR. Mais que fait-on des données une fois encodées ? L'exploitation des données (manipulation, enrichissement, visualisation, fouille…) passe bien souvent par nombre d'outils dont les formats d'entrée varient. Passer de la TEI au format attendu par ces outils n'est pas toujours aisé et même quand ceux-ci acceptent de la TEI en entrée, les choix d'encodage (le sous-ensemble d'éléments et d'attributs TEI utilisé) peuvent ne pas être pris en compte par l'outil, ou pire être mal pris en compte. Il faut donc bien souvent transformer ses données pour les adapter à l'utilisation que l'on souhaite en faire. Pour ce faire, XSLT est un langage très intéressant : lui-même en XML, il peut être pris en main relativement facilement, sans passer par l'apprentissage d'un langage de programmation, d'un nouveau format et souvent même dans le même logiciel que celui utilisé pour constituer ses données en TEI. La présentation présentera de nombreux exemples et l'intérêt de développer des compétences en XSLT.