Listeners use both semantic and prosodic information to infer speakers’ emotional states. Although
this fact has been widely confirmed, the relative influence of prosody and semantics on emotion
processing is still debated. We report the first study comparing the effects of emotional semantics,
emotional prosody and their interaction on skin conductance responses (SCRs). We also explored
whether women have higher sensitivity to threatening stimuli, reflected in larger SCRs than men. A
corpus of 28 utterances was produced by a professional actress who rendered the emotions through
semantics only, through prosody only and through the combination of semantic and prosodic cues.
Seventy-seven native French listeners judged the arousal and valence of the utterances while their
SCRs were collected. Angry prosody triggered the highest SCRs, while there was no effect of
emotional semantics. This supports the hypothesis that prosody is ontogenetically older and more
relevant for adaptative functions than semantics. These effects were limited to women, confirming
that women have a lower threshold for detecting signals of danger, probably as a consequence of sex
specific evolutionary pressures. We aim to expand the study by testing how listeners’ personality
traits (i.e., differences in degree of empathy) modulate emotional evaluation and interact with
listeners’ sex.
Speech intelligibility depends on a joint action of spectral and temporal cues and is carried by energy fluctuations across different frequency bands over time, usually represented as “amplitude envelope” or “speech envelope” (Rosen, 1992). This presentation is concerned with the Modulation Power Spectrum (MPS), a speech signal representation derived from the well-known spectrogram that emphasizes—and allows to quantify—the energy corresponding to these fluctuations. Previous studies have shown that energy concentrated in selected spectral-temporal modulation zones is associated with specific speech dimensions and phonetic constructs, such as articulatory gestures corresponding to speech sounds (16 – 32 Hz rate), syllabic rhythm (4 – 8 Hz rate) or prosodic contour (1 – 2 Hz rate, Giraud & Poeppel, 2012). The instrument has been successfully used in hearing research and, more recently, in auditory cortical lateralization studies (Flinker et al, 2019; Albouy et al., 2020).
There is evidence that processes in brain areas involved in speech motor control can alter similar speech dimensions to those captured by spectral-temporal representations. In this presentation we will present our findings on MPS construct and concurrent validity in intelligibility analyses on three speech corpora a) aging speech, b) Parkinson disease and c) speech impairments due to head and neck cancer. This will allow us to discuss the theoretical underpinnings of amplitude envelope analyses and present the advantages that this method of acoustical analysis offers for phonetic research, particularly for filtering speech signals. Finally, we will discuss in some detail which phonetic fields could potentially benefit from the MPS analyses (e.g. forensic phonetics). Although necessary details about MPS computation will be provided, the seminar is designed to allow discussion from a multidisciplinary perspective and does not require technical expertise.
The seminar is a follow up to an earlier presentation by Etienne Thoret (January 2020).
Une introduction à la documentation des langues assistée par la machine: illustration par le projet BULB
Par Laurent Besacier du Laboratoire d'Informatique de Grenoble (LIG)
In this talk, I will introduce computational language documentation which is an emerging interdisciplinary field where linguistics leverage machine learning in order to help language documentation. First contributions on this topic were done during the BULB* project which addressed oral Bantu languages. I will present some insights of BULB in this talk: (1) how to ease or speed up speech data collection using mobile apps (2) how to leverage neural sequence-to-sequence models for automatic data processing and analysis.
*BULB: Breaking the Unwritten Language Barrier
Although extensively studied for years, defining the timbre of sounds remain unclear and controversial. Unraveling what makes musical and speech sounds timbre so special and expressive remains unclear. I hereby address these questions by using representations of sounds inspired by hearing processes - so-called spectro-temporal modulation representations - as front-end representations to machine learning techniques - interpretable - used to model specific auditory tasks or acoustic classifications. In this presentation, I will present two specific studies: (1) a meta-analysis of 17 former experiments on the auditory perception of musical instruments timbre showing that humans use both generic and context-driven acoustical cues when hearing musical sounds (2) a study on the impact of sleep deprivation on speech acoustic properties stressing the crucial interest to interpret machine learning classifiers. The results of these two studies support that modelling sounds needs the development of adequate - data-driven - representations.
Titre et résumé en FR :
Les différentes facettes du timbre : vers une modélisation des sons basée sur les données
Bien que largement étudiée pendant des années, la définition du timbre des sons reste peu claire et controversée. Il est difficile de comprendre ce qui rend le timbre des sons musicaux et vocaux si spécial et expressif. J'aborde par la présente ces questions en utilisant des représentations de sons inspirées des processus auditifs - des représentations dites de modulation spectro-temporelle - comme paramétrisation de techniques d'apprentissage automatique - interprétables - utilisées pour modéliser des tâches auditives spécifiques ou des classifications acoustiques. Dans cette présentation, je présenterai deux études spécifiques: (1) une méta-analyse de 17 expériences antérieures sur la perception auditive du timbre d'instruments de musique montrant que les humains utilisent à la fois des signaux acoustiques génériques et contextuels lorsqu'ils entendent des sons musicaux (2) une étude sur l'impact de la privation de sommeil sur les propriétés acoustiques de la parole soulignant l'intérêt crucial d'interpréter les classificateurs d'apprentissage automatique. Les résultats de ces deux études soutiennent que la modélisation des sons nécessite le développement de représentations adéquates et basées sur les données.
(Jeune docteur en sciences du langage, EHESS-CREDO, Marseille)
Narrer une nabol : La production des textes nisvais en fonction de l’âge et de la situation d’énonciation, Malekula, Vanuatu
Résumé :
Cette présentation portera sur la production des nabol, des pratiques narratives de la communauté linguistique nisvaie, située dans le sud-est de Malekula, au Vanuatu. S’appuyant sur la demande de locuteurs nisvais afin que des ressources langagières soient produites pour l’école locale, un corpus de textes oraux a été constitué pour montrer que les nabol sont produites en fonction de la situation d’énonciation et d’enjeux sociaux locaux liés à la classe d’âge de l’orateur.
Le corpus de textes oraux annotés résulte de séjours de recherche réalisés entre 2011 et 2015, totalisant 14 mois de terrain au sein de la communauté nisvaie. Les nabol sont étudiées d’une part, à l’aide des concepts issus de la linguistique textuelle afin de décrire les procédés discursifs employés par les locuteurs nisvais. À partir de ces procédés, il a été possible de comparer l’organisation des nabol et de mettre en évidence des variations significatives en fonction de la situation d’énonciation. D’autre part, l’observation participante et des entretiens dirigés ont permis d’identifier des enjeux sociaux que les locuteurs nisvais associent à leurs pratiques narratives. L’emploi des noms propres de personnages ou de lieux lors de la narration répond à un régime de vérité. En fonction de sa classe d’âge, l’orateur doit nommer ou non les personnages qui prennent part à l’intrigue au risque de se faire critiquer par ses pairs.
Les pratiques et normes issues du programme de documentation des langues à travers le monde et du traitement automatique des langues ont fourni des outils pour élaborer des ressources langagières pertinentes à l’étude des narrations et à son utilisation par la communauté nisvaie. Deux ressources papier ont été produites dans cette optique : un lexique bilingue nisvai- français et un recueil bilingue des textes du corpus, conçues pour les locuteurs nisvais et leur école francophone. De plus, deux ressources accessibles en ligne, une interface de lecture-écoute des textes et une interface de consultation des annotations ont été développées pour communiquer les travaux aux chercheurs travaillant sur des pratiques narratives orales ou les langues du Vanuatu.
A l’occasion de sa prochaine réunion lundi 7 octobre, l’équipe POP accueillera Thibault Cattelain du Gipsa-Lab pour une conférence à partir de 16h.
Cette rencontre est ouverte à toutes et à tous, venez nombreux !
Thibault Cattelain
(Gipsa-Lab, Grenoble)
Une nouvelle technique pour analyser les signaux électromyographiques pendant une tâche de perception émotionnelle
Résumé :
L’électromyographie de surface (EMG) est une technique de mesure physiologique classique en production de parole et de mouvements orofaciaux. En revanche, lorsque l’on parle de mouvements induits par la perception d’émotion, les patrons d’activation musculaire sont d’amplitudes très faibles (i.e micro-activations). Nous proposons une nouvelle technique, simple et statistique, pour analyser les signaux EMGs acquis sur les muscles orofaciaux au cours de la perception de la joie et de la tristesse.