banniere

L'annotation des données

 

À l’aide du logiciel Transcriber, les enregistrements audio sont segmentés en plus petites unités (propositions, phrases, unités intonatives). Les transcriptions en format texte sont ensuite jumelées à l’audio. On obtient ainsi un document audio avec sa transcription en innu dans un même fichier au format Transcriber (.trs). Chaque unité audio segmentée est associée à une unité de temps dans le ficher de transcription.

transcriber

Cliquez pour agrandir

Les fichiers de transcription sont ensuite importés dans le logiciel Toolbox. Toolbox est un logiciel développé par le Summer Institute of Linguistics (SIL) et permet  d’éditer du texte, d’aligner l’analyse linguistique avec les données audio et de créer un lexique de la langue. Voici une illustration ci-dessous.

toolbox

Cliquez pour agrandir

 La première ligne de l’analyse est la transcription des données audio (\tx). La transcription doit refléter le plus fidèlement possible ce qui est dit dans l’enregistrement, incluant les pauses, les erreurs, les reprises, les répétitions et toute autre information prosodique. Il est aussi recommandé de transcrire tel quel ce qui est inintelligible – un « x » pour chaque syllabe inaudible – plutôt que de deviner ce qui est dit. La transcription est en orthographe standardisée mais reflète la variété dialectale de Pessamit. La seconde ligne présente le découpage des mots en morphèmes (\morph), suivie d’une ligne phonétique (\phonP). Cette étape nécessite d’avoir au préalable décidé quelles sont les plus petites unités de sens. Ce découpage est en lien avec les lignes suivantes, où sont indiquées les gloses (\gl.FR pour les gloses en français et \gl.EN pour les gloses en anglais), puisqu’il détermine toutes les unités à gloser. Il existe des conventions de glosage qu’il est recommandé de suivre, par exemple le Leipzig Glossing Rules. Les deux dernières lignes sont les traductions en français (\tr.FR) et en anglais (\tr.EN). On note qu’à la fin de chaque segment se trouve la référence du fichier audio (\wav), suivi des unités de temps du segment audio correspondant. Ceci permet pour chacun des segments de jouer le fichier audio dans le logiciel Toolbox.

end innu