Résumé :
Lors d’une conversation, les participants ont la tendance à accorder, consciemment ou non, leur production communicative par rapport à leur interlocuteur. Il est généralement admis que dans des circonstances normales, ce phénomène entraîne une convergence des paramètres de parole des deux participants.
Alors que ces études impliquent souvent des conditions de laboratoire contrôlées, les mécanismes qui régissent le phénomène dans les conversations naturelles sont moins connus, en raison du flux spontané des conversants et de la grande variabilité des paramètres suivis. En outre, on ne sait pas encore très bien comment les participants modifient leur style de parole (la dynamique c’est-à-dire) au cours de la conversation et quels sont les facteurs qui influencent ces modifications. Cette thèse présente une nouvelle méthodologie pour aborder ces aspects, ce qui donne lieu aux contributions suivantes :
Dans la première partie, nous effectuons une étude de réplication pour le speech rate dans le dataset Switchboard, confirmant que, à l’ensemble du niveau de la conversation, les locuteurs convergent vers la ligne de base du speech rate de leur interlocuteur. Dans le prolongement de l’étude initiale, nous soulignons la fragilité relative des effets de convergence lorsque l’on réduit la taille de l’ensemble de données.
Ensuite, au-delà des conversations entières, nous explorons la dynamique des effets de convergence en comparant les caractéristiques acoustiques-prosodiques des deux moitiés d’une conversation en termes de tours. Les résultats montrent que l’énergie et le speech rate ont tendance à converger dans la seconde moitié d’une conversation par rapport à leurs valeurs dans la première moitié.
Afin de mieux comprendre l’impact des speech activities sur la convergence, nous avons répété le même expérience avec une restriction aux actes de dialogue de type statement, opinion et back channel, sous l’hypothèse que ces grandes classes d’activités devraient conduir à des dynamiques de convergence spécifiques. Des effets de convergence plus forts sont observés au sein des classes, même si la taille de l’échantillon est beaucoup plus petite que pour l’ensemble de données non contrôlé.
Dans l’hypothèse où la dynamique de convergence pourrait être le résultat d’effets non linéaires, nous proposons de formuler le problème comme la prévision de la direction de la variation des paramètres acoustiques-prosodiques dans la seconde moitié d’une conversation, compte tenu des valeurs de la première moitié et des métadonnées du locuteur. Nous formons un classificateur de forêt aléatoire et étudions l’effet des caractéristiques d’entrée sur la précision de la prédiction de la dynamique de convergence.
Enfin, nous approfondissons l’étude de la dynamique de la convergence avec une segmentation plus fine des conversations au niveau des tours. Un classificateur est utilisé pour prédire la moyenne de l’énergie, F0 range et le speech rate dans le tour à venir en utilisant les informations de l’historique des tours précédents. Un classificateur LSTM hiérarchique conçu pour la tâche est alimenté par des embeddings lexicaux, des actes de dialogue et des caractéristiques acoustiques et prosodiques. L’inclusion de fonctions d’interlocuteur, par rapport à la restriction de l’entrée au locuteur actuel, montre une meilleure prévisibilité des paramètres de la parole, ce qui montre indirectement que la dynamique de convergence peut être suivie au sein d’une conversation au niveau du tour.
Ces résultats approfondissent la compréhension des effets de convergence dans les ensembles de données non contrôlées et offrent des approches et des méthodes nouvelles pour mieux contrôler la variabilité des conversations naturelles dans le cadre d’un paradigme de tâche de prédiction.