Programme des journées des 18 et 19 décembre 2025

Jeudi 18 décembre

13h30-14h00 : Roxane Bertrand & Béatrice Priego-Valverde. Introduction des journées. Historique du CID

14h00-14h30 : Philippe Blache. Standardisation et formalisation du schéma d’annotation: l’expérience de OTIM avec le CID

14h30-15h00 : Brigitte Bigi. Transcription orthographique et alignement phonétique

15h00-15h30 : Stéphane Rauzy. Annotations automatiques : le tagger MarsaTag et les sourires de SMAD

16h00-16h30 : PAUSE

16h30-17h15 : Manon Lelandais. Vers l’automatisation de l’analyse des frontières prosodiques et des gestes manuels qui les accompagnent

Vendredi 19 décembre

9h30-10h15 : Marion Dohen. Enregistrer des corpus de données multimodales : un compromis entre contrôle expérimental et validité écologique

10h15-10h30 : PAUSE

10h30-11h00 : Béatrice Priego-Valverde. Nouveaux corpus (PACO, CHEESE, COMON2)

11h00-11h30 : Auriane Boudin. SMYLE

11h30-12h00 : Laurent Prévot. Manual and Automatic Discourse Segmentation : from CID to SUMMRE

12h00-14h00 : Déjeuner

14h00-15h30 : Table ronde. Nouvelles perspectives pour l’analyse des corpus (questionnement, outils, méthodes) à l’ère de l’IA

15h30-16h00 : Petit happening

16h00-17h00 : Session Posters

Ces journées sont ouvertes aux collègues membres du laboratoire, aux étudiants et à tous ceux qui ont de près ou de loin travaillé sur ces questions de corpus et qui souhaitent présenter et partager leur propre expérience.

Afficher la présentation

Présentation

Il y a 20 ans, le CID (Corpus of Interactional Data) naît d’un souhait commun entre deux chercheuses de rendre compte du fonctionnement de l’interaction naturelle entre deux individus en tenant compte de l’ensemble des niveaux linguistiques impliqués dans l’élaboration et l’échange du sens. Pour la plupart, les corpus existants alors en français spontané sont soit produits de manière confidentielle par les chercheur(e)s dans la sphère privée (interaction familiale, entre amis, etc), soit dans des situations spécifiques (situation de travail, interaction à la poste, etc). Malgré l’intérêt de ces données qui permettent de rendre compte des dialogues dans leur complexité écologique, plusieurs difficultés se conjuguent et entravent l’analyse complète des interactions considérées.

Le CID se présente donc comme une ressource précieuse visant à pallier le manque de données interactionnelles exploitables à tous les niveaux linguistiques (des aspects phonétiques aux aspects gestuels, en passant par les niveaux prosodique, morphosyntaxique, syntaxique, pragmatique et discursif). La constitution d’une telle ressource est motivée par la conception théorique sous-jacente selon laquelle la prise en compte de tous les niveaux et l’examen de leur relation, permettra la compréhension des mécanismes interactionnels à l’œuvre pour rendre compte du sens.

Ceci passe par la mise au point d’un dispositif expérimental original d’abord caractérisé par un enregistrement des données audio et vidéo d’une qualité optimale, mais surtout de leur synchronisation, étape qui est loin d’être triviale à l’époque. Le dispositif expérimental du CID est également pensé pour que l’interaction soit étudiée de la manière la plus exhaustive en évitant d’exclure certaines séquences qui ne seraient pas exploitables. L’équipement des participants par des micros individuels permettant de capter les voix isolément mais aussi l’enregistrement global vise à préserver les séquences de chevauchements de parole qui sont habituellement ignorées dans l’analyse car inexploitables, alors que l’on sait l’importance qu’elles revêtent dans l’analyse des tours de parole notamment. Enfin, le design expérimental et le lieu d’enregistrement requis (en chambre sourde) est conçu en tenant compte des connaissances issues des analyses interactionnelles menées par ailleurs. Le CID est donc conçu comme un corpus semi-écologique dans la mesure où il est produit en situation de laboratoire tout en préservant différents aspects cruciaux inhérents à la conversation. Les participants sont installés similairement à une interaction naturelle (proximité calculée, orientation spatiale). Par ailleurs, chaque dyade a été constituée en fonction du degré de connaissance des participants (ils étaient amis ou avaient au moins l’habitude de discuter ensemble). La durée d’enregistrement de chaque interaction (une heure) a également été choisie pour leur permettre de digresser de la consigne qui leur a été initialement donnée pour s’engager dans des moments plus conversationnels. Enfin, les participants n’avaient aucune idée de ce qui était recherché, pas plus qu’un arbitre/tiers pour leur attribuer la parole (ils négociaient eux-mêmes leurs prises de parole).

Bien que les consignes données aux participants ont été pensées pour éliciter deux pratiques conversationnelles précises (le discours rapporté et l’humour), le dispositif de recueil a également été élaboré pour obtenir un corpus d’une grande richesse permettant d’analyser la conversation dans toute son hétérogénéité.

C’est dans le projet ANR OTIM (Outils de Traitement de l’Information Multimodale, Grant Number ANR-08-BLAN-0239) que les différentes étapes préalables à l’exploitation des données ont été conçues et mises en œuvre. De la transcription manuelle aux étapes de phonétisation et d’alignement avec le signal audio et vidéo ; de l’étape de formalisation à l’élaboration d’un schéma d’annotation global homogène pour chaque niveau considéré aux annotations concrètes ; de l’utilisation d’outils existants alors au développement d’outils internes, un collectif de membres du laboratoire (chacun spécialiste d’un domaine particulier) a œuvré pour permettre de répondre aux différentes étapes et résoudre au mieux les difficultés de pré-traitement des données constituées. Parallèlement, nous avons contribué très activement à la question de l’archivage et de la mutualisation des données (cf. https://www.ortolang.fr) qui s’inscrit pleinement dans le programme actuel de la Science Ouverte.

Cet anniversaire est donc l’occasion de retracer ces différentes étapes, en évoquant les principales difficultés que nous avons dû surmonter mais surtout, en montrant les résultats obtenus. Ces résultats se traduisent notamment par la création de nouveaux corpus au LPL, qui ont bénéficié de tout ce travail en amont. De plus, et grâce aux progrès techniques en matière d’enregistrement, ces nouveaux corpus interactionnels sont dorénavant et pour la plupart multimodaux. Ils permettent ainsi d’appréhender cette question cruciale de la multimodalité de l’interaction en bénéficiant d’une approche semi-automatique (développement d’outils d’aide à l’annotation notamment) qui permet un gain de temps considérable tout en favorisant une perspective d’analyse double combinant des études tout autant qualitatives (encore largement nécessaires pour permettre l’émergence de nouveaux objets, constructions, patrons, etc.) que quantitatives. Ces différents corpus constituent par ailleurs une base de données riche de phénomènes susceptibles d’être appréhendés autrement, notamment dans le cadre de nouveaux dispositifs expérimentaux.

Les journées autour du CID qui auront lieu les 18 et 19 décembre 2025 sur le site du LPL ont pour objectif de retracer l’historique de la constitution et de l’exploitation des corpus d’interactions multimodaux au LPL et de présenter les « CID » d’aujourd’hui (CHEESE !, PACO, SMYLE entre autres) et leurs nouvelles potentialités en termes de questionnements, d’outils et d’analyse. Sur ce point précis, ces journées seront l’occasion de discuter également des nouveaux enjeux de l’analyse des interactions à l’ère de l’intelligence artificielle.

18 Dec 202519 Dec 2025

Ajouter au calendrier

LPL

Le Corpus of Interactional Data (CID) fête ses 20 ans !

Programme des journées des 18 et 19 décembre 2025

Jeudi 18 décembre

Vendredi 19 décembre

Présentation

Prochains évènements

10e Rencontre Sciendwich du LPL

Séminaire Héloïse Baglione