Publié le 20 juillet 2020 | Mis à jour le 20 juillet 2020

Linguistic complexity and information : quantitative approaches

par Yoon Mi Oh, sous la direction de François Pellegrino

La communication humaine vise principalement à transmettre de l'information par le biais de l'utilisation de langues. Plusieurs chercheurs ont soutenu l'hypothèse selon laquelle les limites de la capacité du canal de transmission amènent les locuteurs de chaque langue à encoder l'information de manière à obtenir une répartition uniforme de l'information entre les unités linguistiques utilisées. Dans nos recherches, la stratégie d'encodage de l'information en communication parlée est connue comme résultant de l'interaction complexe de facteurs neuro-cognitifs, linguistiques, et sociolinguistiques et nos travaux s'inscrivent donc dans le cadre des systèmes adaptatifs complexes. Plus précisément, cette thèse vise à mettre en évidence les tendances générales, translinguistiques, guidant l'encodage de l'information en tenant compte de la structure des langues à trois niveaux d'analyse (macrosystémique, mésosystémique, et microsystémique). Notre étude s'appuie ainsi sur des corpus oraux et textuels multilingues dans une double perspective quantitative et typologique. Dans cette recherche, la langue est définie comme un système adaptatif complexe, régulé par le phénomène d'auto-organisation, qui motive une première question de recherche : "Comment les langues présentant des débits de parole et des densités d'information variés transmettent-elles les informations en moyenne ?". L'hypothèse défendue propose que la densité moyenne d'information par unité linguistique varie au cours de la communication, mais est compensée par le débit moyen de la parole. Plusieurs notions issues de la théorie de l'information ont inspiré notre manière de quantifier le contenu de l'information et le résultat de la première étude montre que le débit moyen d'information (i.e. la quantité moyenne d'information transmise par seconde) est relativement stable dans une fourchette limitée de variation parmi les 18 langues étudiées. Alors que la première étude propose une analyse de l'auto-organisation au niveau macro- systémique, la deuxième étude porte sur des sous-systèmes linguistiques tels que la phonologie et la morphologie : elle relève donc d'une analyse au niveau mésosystémique. Elle porte sur les interactions entre les modules morphologique et phonologique en utilisant les mesures de la complexité linguistique de ces modules. L'objectif est de tester l'hypothèse d'uniformité de la complexité globale au niveau mésosystémique. Les résultats révèlent une corrélation négative entre la complexité morphologique et la complexité phonologique dans les 14 langues et vont dans le sens de l'hypothèse de l'uniformité de la complexité globale d'un point de vue typologique holistique. La troisième étude analyse l'organisation interne des sous-systèmes phonologiques au moyen de la notion de charge fonctionnelle (FL) au niveau microsystémique. Les contributions relatives des sous-systèmes phonologiques (segments, accents, et tons) sont évaluées quantitativement en estimant leur rôle dans les stratégies lexicales. Elles sont aussi comparées entre 2 langues tonales et 7 langues non-tonales. En outre, la distribution interne de la charge fonctionnelle à travers les sous-systèmes vocaliques et consonantiques est analysée de façon translinguistique dans les 9 langues. Les résultats soulignent l'importance du système tonal dans les distinctions lexicales et indiquent que seuls quelques contrastes dotés d'une charge fonctionnelle élevée sont observés dans les distributions inégales de charge fonctionnelle des sous-systèmes dans les 9 langues. Cette thèse présente donc des études empiriques et quantitatives réalisées à trois niveaux d'analyse, qui permettent de décrire des tendances générales parmi les langues et apportent des éclaircissements sur le phénomène d'auto-organisation.