Les disfluences regroupent des phénomènes variés tels que les pauses silencieuses, les hésitations ou les auto-corrections. Elles peuvent également avoir diverses causes sous-jacentes. Dans ce séminaire, je développerai deux axes de recherche visant à mieux comprendre la production de disfluences: (i) d’où proviennent-elles, au sein du système de production verbale? (ii) Quels autres facteurs (non langagiers) peuvent être responsables de la production de disfluences? Pour cela, je présenterai des travaux antérieurs ainsi que des perspectives de recherche portant sur des populations variées, allant du participant “jeune” à des situations de vieillissement typique et pathologique.
Le séminaire de l’équipe Systus aura lieu ce vendredi 11 juin en mode « hybride », donc en présentiel en salle B011 pour ceux qui le souhaitent et distanciel pour les autres. Si vous souhaitez assister en mode présentiel (membres du LPL) – dans la limite de la jauge actuelle de 26 personnes – merci de contacter Frédéric Sabio, co-responsable de l’équipe : frederic.sabio@univ-amu.fr.
14h-14h50 – J. Deulofeu – Conférencier invité (AMU, laboratoire LIF)
Le statut de périphérique et les limites de l’organisation grammaticale en français
14h50-15h30 – D. Lewis& S. Herment, L. Leonarduzzi, C. Portes, L. Prévot, F. Sabio, G. Turcsan (équipe Systus)
Périphéries gauche et droite, en français et en anglais
15h30-16h10 – C.Aslanov (équipe Systus)
Le tokharien A (Agni), périphérie de la périphérie des langues indo-européennes
16h10-16h50 – M. Gasquet-Cyrus (équipe Systus)
Langues et variétés « périphériques » : questions théoriques et idéologiques
15h30 – 16h30 : Amelia Pettirossi (Laboratoire de Phonétique et Phonologie, Paris)
La dysphonie chez les professeures des écoles : perception et représentations
Cette recherche s’intéresse à l’impact de la dysphonie à travers trois grands axes : la représentation de sa propre voix, la transmission du message et la perception d’autrui. Nous nous basons sur une population de 61 femmes professeures des écoles (PE) enregistrées en conditions contrôlées. À partir d’une évaluation perceptive experte sur l’échelle GRBAS, nos locutrices ont été catégorisées en deux groupes de 37 témoins et 24 dysphoniques légères. D’importantes plaintes vocales sont observées chez les locutrices dysphoniques comme témoins avec pour conséquence une altération de leur qualité de vie. L’analyse des productions de nos locutrices en lecture « calme » ou « face à une classe bruyante » suggère que les PE utilisent des stratégies d’adaptation pour palier un environnement de classe bruyant et que cette capacité d’adaptation est partiellement bridée chez les locutrices dysphoniques. La dysphonie semble également impacter la transmission de l’information à destination d’élèves de 7 à 10 ans puisque des temps de réaction plus longs sont relevés lors du décodage du contraste de voisement dans une tâche d’identification de mot lorsque la consigne est produite par une locutrice dysphonique. Enfin, suite à une première tâche de catégorisation libre, l’attribution de traits de personnalité par un panel d’auditeurs naïfs se basant uniquement sur la voix des PE met en évidence des profils vocaux associés à des représentations plus ou moins positives. Un accord modéré est constaté entre l’évaluation experte de la dysphonie et le degré de trouble vocal perçu par les naïfs puisque ces derniers ont une perception positive de la raucité vocale. En effet, les mesures acoustiques qui rendent le mieux compte de l’évaluation perceptive experte ne sont pas les mêmes que celles utilisées par les naïfs lors de l’attribution de traits de personnalité.
16h30 – 17h00 : Alexia Mattei (LPL) et Annabelle Capel (Hôpital La Conception, Marseille)
Les professionnels de la voix : bilan vocal adapté. L’exemple des enseignants
De nombreuses professions impliquent une sollicitation vocale majeure et donc la nécessité d’une fonction vocale tout aussi efficace qu’endurante : enseignants, comédiens, commerciaux, employés de centres d’appels téléphoniques, etc. Parmi celles-ci, le corps enseignant constitue un exemple de choix du fait du nombre de patients concernés et de la littérature abondante les concernant. Nous nous baserons donc sur ces professionnels de la voix pour justifier et détailler un bilan vocal adapté.
Le bilan vocal d’un professionnel de la voix doit en effet prendre en compte les spécificités liées à sa profession pour mieux identifier les facteurs individuels et environnementaux de forçage vocal et ainsi cibler par la suite les axes rééducatifs.
L’interrogatoire classique doit être complété chez l’enseignant par un interrogatoire plus spécifique : historique vocal, parcours professionnel et conditions d’exercice. L’examen laryngoscopique recherchera en particulier des nodules, pathologie la plus fréquente dans ce corps de métier. Le bilan vocal classique sera enrichi de mesures propres à la problématique du corps enseignant (enregistrement en situation écologique, étude de la posture, de la prosodie, etc.).
L’interaction sociale est le lieu prioritaire de l’exercice du langage –sur les plans tant phylogénétique qu’ontogénétique. Se basant sur ce constat, la linguistique interactionnelle (voir récemment Couper-Kuhlen et Selting 2018) part du principe que « some of the most fundamental features of natural language are shaped in accordance with their home environment in co-present interaction » (Schegloff 1996 : 54) – certains des traits les plus fondamentaux du langage sont configurés en rapport à leur habitat naturel, à savoir l’interaction sociale. A ce jour, un nombre important d’études empiriques attestent de la manière dont les structures linguistiques sont mises en opération à des fins interactives, participant p.ex. à la gestion de l’alternance des tours de paroles ou à la projection de trajectoires actionnelles. Toutefois, la question de savoir comment les structures linguistiques émergent de leur usage interactionnel ou se routinisent en tant que ressources pour organiser l’interaction sociale est à ce jour largement restée inexplorée (mais voir Laury 1997, Couper-Kuhlen 2011, forthc., Pekarek Doehler forthc., Pekarek Doehler & Balaman 2021).
Dans cette présentation, je rapporte les résultats préliminaires de deux études en cours, documentant la trajectoire développementale des ‘je sais pas’ et ‘comment on dit’ auprès de locuteurs d’une langue seconde (L2). Les études se fondent sur un corpus de ca. 30h de conversations ordinaires, impliquant des locuteurs de divers niveaux de compétences enregistrés sur une période de 6 à 9 mois. L’analyse interactionnelle et multimodale montre comment chacune des constructions cibles, d’abord utilisée au sens littéral (p.ex. ‘je sais pas’ comme revendication de non-savoir), acquiert progressivement des fonctionnalités interactionnelles : Pour ‘je sais pas’ on observe une routinisation en tant que préface à une réaction dispréférée (p.ex. projetant un désaccord) et moyen pour clore un tour de parole ; pour ‘comment on dit’ on observe la routinisation en tant que marqueur de recherche cognitive (caractérisé de manière notable par un regard du locuteur dans le vide) qui sert également de moyen pour garder le tour de parole. Dans ces usages interactionnels, les deux constructions cibles montrent une réduction morphologique et sémantique ainsi qu’une réduction de leur proéminence prosodique, ce qui suggère qu’elles sont en voie de grammaticalisation, fonctionnant comme des marqueurs discursifs, voire interactifs ; et ces emplois convergent avec ce qui a été attesté pour les locuteurs de L1. Les résultats témoignent d’une routinisation d’une « grammaire-pour-l’interaction en L2 » (Pekarek Doehler 2018) en tant que partie intégrante la compétence interactive en développement.
11h30 – 12h00 : Marco Cappellini, LPL
Alignement des procédés d’étayage dans un télétandem
Dans le télétandem, deux apprenants de deux langues maternelles différentes et apprenant chacun la langue de l’autre interagissent par visioconférence pour s’entraider dans les apprentissages respectifs. L’étayage est un concept élaboré par Bruner et ses collègues (Wood et al., 1976 ; Bruner, 1983) pour décrire comment un expert peut aider un apprenant à développer son savoir-faire. Dans le cas du télétandem, l’étayage peut être conçu par le prisme des séquences conversationnelles latérales où l’usager expert (qui n’a souvent pas d’expertise métalinguistique ni pédagogique) aide l’alloglotte à participer à la communication. Les études sur la communication exolingue ont identifiée différents types de ces séquences latérales, que j’ai pu articuler dans des recherches précédentes (Cappellini & Pescheux, 2015 ; Cappellini, 2016).
Dans cette étude, je me propose d’identifier les séquences latérales d’un binôme télétandem sur l’arc de cinq sessions de visioconférence, et d’analyser comment les stratégies discursives et multimodales évoluent pendant ces sessions. Mon hypothèse est que les interlocuteurs alignent (Atkinson et al., 2007) leurs procédés interactionnels multimodaux en sélectionnant, parmi les procédés possibles et actualisés lors des premières sessions, des procédés qui vont se répandre et devenir quantitativement prépondérants (Wagner et al., 2018). Je discuterai comment ces observations peuvent être interprétées (ou pas) en termes de développement d’une compétence interactionnelle (Hall & Pekarek Doehler, 2011).
From lip- to script-reading: An integrative view of Audio-Visual Associations in language processing (AVA)
During the talk, I will present the general idea of our new ANR project that proposes to explore the relationships between the two main forms of audio-visual association in language processing, i.e., the associations between speech and articulatory gestures and between speech and orthography. Given their distinct properties, these natural and artificial audio-visual associations have been considered as two cognitive processes that are explained by different theoretical models. The present proposal adopts a novel perspective that seeks to establish the missing link between them. The aim is to elaborate a unified framework explaining how different inputs jointly contribute to forming coherent language representations. A new study that we conducted to address this issue will be presented.
11h10-11h50: Amie Fairs
Can we successfully carry out speech production experiments online?
In this age of COVID, more and more psychological experiments need to be carried out online so that data can still be collected. While much research has shown that typical language comprehension studies, such as lexical decision, can be carried out online, to our knowledge there are no online language production studies. Anecdotally, many language production researchers are skeptical about whether online production data are reliable. We sought in this experiment to carry out a typical production study – picture naming – online, and to determine a) whether we could replicate the well-known production effect of word frequency, b) whether the response patterns were similar to a lab-based experiment, and c) whether online-related parameters, such as internet speed, would have an effect on response times or errors. Preliminary data analysis suggests that we can replicate the word frequency effect, yet the distributions of responses and amount of errors are different to lab based experiments. While this analysis is preliminary, this suggests that online production studies are valuable and find similar sized effects to the lab. In addition, in the course of testing this experiment we have learnt a lot of practical information useful for online production studies, which I will discuss.
Listeners use both semantic and prosodic information to infer speakers’ emotional states. Although
this fact has been widely confirmed, the relative influence of prosody and semantics on emotion
processing is still debated. We report the first study comparing the effects of emotional semantics,
emotional prosody and their interaction on skin conductance responses (SCRs). We also explored
whether women have higher sensitivity to threatening stimuli, reflected in larger SCRs than men. A
corpus of 28 utterances was produced by a professional actress who rendered the emotions through
semantics only, through prosody only and through the combination of semantic and prosodic cues.
Seventy-seven native French listeners judged the arousal and valence of the utterances while their
SCRs were collected. Angry prosody triggered the highest SCRs, while there was no effect of
emotional semantics. This supports the hypothesis that prosody is ontogenetically older and more
relevant for adaptative functions than semantics. These effects were limited to women, confirming
that women have a lower threshold for detecting signals of danger, probably as a consequence of sex
specific evolutionary pressures. We aim to expand the study by testing how listeners’ personality
traits (i.e., differences in degree of empathy) modulate emotional evaluation and interact with
listeners’ sex.
Speech intelligibility depends on a joint action of spectral and temporal cues and is carried by energy fluctuations across different frequency bands over time, usually represented as “amplitude envelope” or “speech envelope” (Rosen, 1992). This presentation is concerned with the Modulation Power Spectrum (MPS), a speech signal representation derived from the well-known spectrogram that emphasizes—and allows to quantify—the energy corresponding to these fluctuations. Previous studies have shown that energy concentrated in selected spectral-temporal modulation zones is associated with specific speech dimensions and phonetic constructs, such as articulatory gestures corresponding to speech sounds (16 – 32 Hz rate), syllabic rhythm (4 – 8 Hz rate) or prosodic contour (1 – 2 Hz rate, Giraud & Poeppel, 2012). The instrument has been successfully used in hearing research and, more recently, in auditory cortical lateralization studies (Flinker et al, 2019; Albouy et al., 2020).
There is evidence that processes in brain areas involved in speech motor control can alter similar speech dimensions to those captured by spectral-temporal representations. In this presentation we will present our findings on MPS construct and concurrent validity in intelligibility analyses on three speech corpora a) aging speech, b) Parkinson disease and c) speech impairments due to head and neck cancer. This will allow us to discuss the theoretical underpinnings of amplitude envelope analyses and present the advantages that this method of acoustical analysis offers for phonetic research, particularly for filtering speech signals. Finally, we will discuss in some detail which phonetic fields could potentially benefit from the MPS analyses (e.g. forensic phonetics). Although necessary details about MPS computation will be provided, the seminar is designed to allow discussion from a multidisciplinary perspective and does not require technical expertise.
The seminar is a follow up to an earlier presentation by Etienne Thoret (January 2020).
Une introduction à la documentation des langues assistée par la machine: illustration par le projet BULB
Par Laurent Besacier du Laboratoire d'Informatique de Grenoble (LIG)
In this talk, I will introduce computational language documentation which is an emerging interdisciplinary field where linguistics leverage machine learning in order to help language documentation. First contributions on this topic were done during the BULB* project which addressed oral Bantu languages. I will present some insights of BULB in this talk: (1) how to ease or speed up speech data collection using mobile apps (2) how to leverage neural sequence-to-sequence models for automatic data processing and analysis.
*BULB: Breaking the Unwritten Language Barrier