Vous êtes ici : Version française > Quelles sont les recherches menées par ASLAN ? > Ressources matérielles > La Cellule Corpus Complexes

Ressources ICAR - La Cellule Corpus Complexes

La Cellule Corpus Complexes (CCC) est une structure transversale du laboratoire ICAR. Ses activités s’articulent autour de la constitution et de l’exploitation de corpus multimédia, qualifiés de « complexes », c’est-à-dire mêlant contenus vidéo, audio, textuels, images, etc. Ces activités nécessitent une réflexion théorique et/ou méthodologique spécifiques, caractéristique de l’expertise de la CCC. Par ailleurs, la CCC contribue à mutualiser et développer les pratiques et savoir-faire présents au sein du laboratoire par le biais d’échanges scientifiques, de formations et de séminaires thématiques.

L'équipe

Le bureau, point d’entrée de la CCC, est constitué des personnels permanents rattachés à la CCC. Il est composé de Justine Lascar, Matthieu Quignard et de Daniel Valero (responsable). La CCC fait également appel à des personnels contractuels pour couvrir différents besoins tels que les développements de logiciels, transcriptions, la confection de corpus, le montage audio/vidéo, etc. En particulier, Laurie Boyer contribue à la prise de données audiovisuelles, à la transcription, et à l’analyse des données.

Les questions soulevées par la production et le traitement des corpus ne se limitent pas à des problèmes méthodologiques mais impliquent une réflexion sur l’articulation entre le travail de recueil des données et les exigences de l’analyse. Dans le champ de l’analyse linguistique de l’interaction, cela se traduit notamment dans une attention pour les détails linguistiques et multimodaux produits, mobilisés, interprétés par les participants et rendus disponibles par des techniques adéquates d’enregistrement, de transcription et d’analyse.
Autrement dit, l’exigence d’accessibilité continuelle des détails pertinents de l’interaction gouverne toutes les étapes de la constitution et de l'analyse des corpus : du recueil sur le terrain à la phase de « confection », qui comporte aussi bien le montage audiovisuel, la transcription, l’alignement, l’annotation, jusqu’à la phase d’analyse proprement dite.


Recueil de corpus multimodaux

La première étape du travail d'analyse d'interaction est la collecte des données en situation. Loin de constituer une étape préliminaire, secondaire et marginale, que l'on pourrait concevoir indépendamment des objectifs analytiques, le recueil des données est une partie intégrante du processus global de l'analyse. De la qualité de sa réalisation dépendent non seulement celle des corpus qui seront confectionnés à partir des données primaires recueillies et celle des analyses qui pourront être faites, mais aussi les possibilités de diffusion des unes et des autres.
Recueillir les données n'est donc pas une étape ponctuelle et purement technique, c'est une entreprise qui fait intervenir la connaissance du terrain et les relations des collecteurs avec les différents acteurs concernés, les dimensions pratiques et techniques de l'enregistrement ainsi que différentes préoccupations éthiques et juridiques.
L’enregistrement des corpus est une opération matérielle et technique qui doit être conçue et réalisée en fonction d'objectifs et d'objets d'analyse. Cette opération vise à capturer des données audio/vidéo afin de rendre disponibles, et donc analysables, les détails linguistiques, multimodaux et situationnels (regards, gestes, mouvements, actions, objets, cadre physique) pertinents pour l'interaction enregistrée.
L’enregistrement des corpus est une opération matérielle et technique, et la CCC accompagne les chercheur·es en sciences du langage, sciences de l'éducation, etc. dans ce processus.

Transfert, montage – appui et formation


La phase de montage est tout aussi importante pour rendre disponibles et intelligibles les données. La Cellule Corpus Complexes, structure transversale de soutien à la recherche au laboratoire ICAR, met son expertise à profit dans le traitement des données en post-production (synchronisation des différentes sources, anonymisation, montage audio et vidéo…), la gestion des formats multimédia, les problématiques d’archivage et de diffusion des données. Elle a en charge la formation des membres du laboratoire et des doctorants sur ces aspects méthodologiques et techniques.

Exploitation des corpus



Après la confection des données audiovisuelles, une étape de séquençage des interactions et de transcription fine des phénomènes oraux est nécessaire. Ce matériau de base pour les analyses implique une opération longue et minutieuse (environ une heure de travail pour une minute de signal). Les transcriptions sont souvent réalisées avec des logiciels spécifiques permettant d’aligner le signal audio-vidéo avec l’écrit (ex: ELAN), et pour certains de réaliser des requêtes sur le lexique. (CAQDAS)

Matériel

- Micros HF
- Enregistreur (Edirol, Marantz, Zoom, Tascam..)
- Caméra 4K
- Action Cam (Go Pro, Sony)
- Camera 360°
- Salle corpus
- Ordinateurs

Site de Réservation Audio Visuelle Icar (RAVI) Accéder

Logiciels

Logiciels de transcription et d’analyse
- ELAN
- Praat
- Transcriber
- TransICOR
- Transana
- Nvivo

Montage audiovisuel:

- Audacity
- Handbrake
- Quicktime Pro
- Imovie
- Final Cut