Relier les sources |
Modération: Joana CASENAVE (Geriico, Université de Lille)
Quand l'herméneutique se fait hermétique :
la philologie sanskrite face aux corps électroniques
par Michaël MEYER (Doctorant, Université Paris Diderot, École pratique des hautes études)
Les philologues disposent aujourd’hui d’un nombre considérable de textes sanskrits numériques. Pour la plupart disponibles en accès libre, ces documents sont encodés dans des formats variables, plus ou moins standardisés, et peuvent être notés dans une écriture indienne ou dans l’un des nombreux systèmes de translittération élaborés en Occident.
En dépit de leur difficulté d’exploitation, ces documents sont devenus essentiels pour la philologie sanskrite. En effet, les emprunts textuels abondent dans la littérature sanskrite, dès une date ancienne. Dans ce cadre, le travail philologique requiert de découvrir des parallèles textuels et de les interpréter. Les philologues des siècles derniers menaient déjà ce type d’enquête, en s’appuyant sur des index compilés manuellement ; ceux d’aujourd’hui le poursuivent avec des outils de recherche plein texte, à une échelle bien plus large.
L’amplification du volume d’informations disponibles a considérablement accru l’érudition et la complexité des travaux de recherche. L’exercice de la pensée devient de moins en moins aisé, car il est dorénavant nécessaire d’assimiler et de synthétiser un nombre important de textes et d’idées, sans pour autant disposer d’outils spécialisés pour faciliter ce travail. Si donc l’herméneutique est théoriquement facilitée par la disponibilité de corpus électroniques, la philologie sanskrite, en tant que pratique, devient paradoxalement de plus en plus hermétique.
Constitution d'un corpus pour l'archivage de la mémoire minière : enjeux conceptuels et ontologie
par Amélie DALOZ (Doctorante, Université de Lille)
La communication s’inscrit dans le cadre du projet ANR Mémo-Mines qui se donne comme objectif d’améliorer la visibilité du patrimoine minier des Hauts-de-France en tenant compte de sa dimension mémorielle. Dans ce contexte, l’une des solutions retenues pour la sauvegarde des mémoires est de concevoir une ontologie du domaine minier. Les ontologies s’inscrivent dans les technologies du web sémantique qui sont désormais utilisées dans le cadre de la sauvegarde du patrimoine culturel et industriel et participent à la préservation et la valorisation du patrimoine, en particulier le patrimoine proche de la disparition.
Le modèle conceptuel de référence est le CIDOC CRM qui est un modèle de représentation de données qui doit permettre l’interopérabilité des référencements des objets de musées puis, par extension, de tout objet du patrimoine culturel matériel ou immatériel, selon la définition proposée par l’UNESCO. Pour définir le modèle ontologique et pour le peupler, la démarche s’appuie sur la constitution de deux types de corpus. Nous présentons dans un premier temps les étapes de constitution d’un corpus presse sur le domaine minier puis dans un deuxième temps, celles de la constitution d’un corpus audiovisuel à partir de vidéos témoignage d’anciens mineurs. Suite à la présentation de notre démarche d’analyse de chacun de ces corpus, nous tentons de montrer ce que le numérique apporte aux corpus d’archives patrimoniaux dans le champ de l’organisation des connaissances.
Deux siècles de sources disparates sur l'industrie textile en France :
comment automatiser les traitements d'un corpus non-uniforme ?
par Alix CHAGUÉ (Ingénieure, Université Paris Diderot et INRIA), Eric VILLEMONTE DE LA CLERGERIE (Chercheur, INRIA Paris), Manuela MARTINI (Professeur, Université Lumière Lyon 2)
Le projet ANR TIME-US ambitionne de créer un corpus permettant d’analyser les rémunérations et budgets-temps des hommes et femmes travaillant dans l'industrie du textile dans les régions de Lille, Paris, Lyon et Marseille. Il s'agit de collecter et analyser des données couvrant une période longue, allant de la fin du XVIIe au début du XXe siècle. Pour mener cette recherche, le projet rassemble les expertises d'historien·nes, de sociologues, de spécialistes du TAL et du traitement numérique des documents historiques. Outre l'analyse classique des sources, le projet entend créer des séries comparables de données sur les rémunérations et le temps alloué à l'emploi des travailleur·ses du textile. Le traitement du corpus tire profit de la variété des méthodologies en jeu dans cette approche pluridisciplinaire tout en visant à correspondre aux attentes de chacun·e.
En deux ans, de nombreux fonds d’archives ont été dépouillés et numérisés, aboutissant à la création d’un corpus disparate de 18 000 images qui mêlent imprimés et manuscrits. La diversité de ces documents a conduit à l'élaboration de plusieurs stratégies pour traiter et unifier le corpus ; celles-ci se sont avérées, jusqu'à un certain point, généralisables entre type de documents. Nous présentons les stratégies mises en œuvre pour l’acquisition des doubles numériques, l’extraction du texte et des données, ainsi que leurs transversalités et limites.
Organisation :
Maison Européenne des Sciences de l'Homme et de la Société (MESHS)
Cette manifestation est soutenue par l'Etat et le Conseil Régional Hauts-de-France dans le cadre du CPER ISI-MESHS. |
URI/Permalink: