Skip to main content

Transcription automatique du flux audio des séances plénières et des réunions des commissions

Brésil - Sénat

ID de scénario d'utilisation : 071

Auteur : Sénat fédéral du Brésil

Date : 15 octobre 2024 

 

Objectif :  

Transcrire automatiquement le flux audio des événements législatifs, par exemple les séances plénières et les réunions des commissions, en utilisant des modèles d'intelligence artificielle (IA). Les données audio peuvent également être soumises à un processus de diarisation et, par la suite, de classification des locuteurs. 

Acteurs : 

  • Analystes chargés du contenu éditorial et des archives parlementaires,
  • Escriba : système d'information gérant les activités quotidiennes du Secrétariat chargé du contenu éditorial et des archives parlementaires, par exemple les tâches de transcription du flux audio et de relecture de textes.

Prérequis : 

  • intégration avec Escriba,
  • modèles d'IA pour la reconnaissance vocale,
  • modèles d'IA pour la diarisation audio,
  • modèles d'IA entraînés pour la classification des locuteurs à l'aide des enregistrements audio des 81 sénateurs en poste,
  • robots d'IA collectant les enregistrements audio et contrôlant les processus de transcription, de diarisation et de classification des locuteurs.

Scénario : 

  1. Côté robot d'IA :
    1. Un ensemble d’enregistrements audio est placé dans un dossier distant selon une hiérarchie prédéfinie.
    2. Chaque robot d'IA surveillant ce dossier distant recueille un enregistrement audio et commence sa transcription.
    3. Après la transcription, le robot peut également effectuer la diarisation et la classification des locuteurs, selon les configurations du système définies par un administrateur.
    4. Le texte transcrit résultant du traitement par IA est correctement formaté sous forme d’un fichier JSON et placé dans un autre dossier distant.
    5. Escriba lit le dossier distant contenant les fichiers JSON, comme cela est demandé par l'utilisateur.
  2. Côté utilisateur :
    1. Un utilisateur accède à Escriba.
    2. L'utilisateur visualise les séquences audio qui lui sont associées.
    3. L'utilisateur lance le processus d'écoute et de transcription des enregistrements audio.
    4. L'utilisateur choisit l’option de recourir aux textes transcrits précédemment produits par les robots d'IA.
    5. L'utilisateur consulte et, si nécessaire, ajuste les textes transcrits renvoyés par les robots d'IA.

Autres flux :  

  • Un utilisateur accède à Escriba pour voir les séquences audio qui lui sont associées.
  • L'utilisateur lance le processus d'écoute et de transcription des enregistrements audio.
  • L'utilisateur choisit l’option de recourir aux textes transcrits précédemment produits par les robots d'IA.
  • L'utilisateur remarque qu'aucun texte transcrit n'est disponible ou que les résultats sont de mauvaise qualité.
  • L'utilisateur rejette les textes transcrits produits par le modèle d'IA et effectue la tâche de transcription comme d'habitude.

Résultats attendus : 

  • accélération du processus global de transcription effectué par les analystes de la législation,
  • transcription, diarisation et classification des locuteurs efficaces, fournissant des résultats en temps opportun de sorte que l'analyste de la législation puisse effectuer ses tâches quotidiennes,
  • transcription, diarisation et classification des locuteurs efficaces, avec des résultats de haute qualité. 

Problèmes potentiels : 

  • Les modèles de reconnaissance vocale et de diarisation de pointe nécessitent une infrastructure informatique robuste (RAM et GPU) pour être correctement utilisés, c'est-à-dire pour fournir des résultats efficaces.
  • Les modèles d'IA pour la reconnaissance vocale peuvent être imprécis dans certaines circonstances. Par exemple, lors de la transcription du nom d'un sénateur, les résultats peuvent ne pas être ceux escomptés.
  • Les modèles d'IA pour la reconnaissance vocale, en particulier les modèles génératifs multimodaux, peuvent renvoyer des résultats de transcription différents à chaque fois qu'ils sont sollicités, manquant ainsi de cohérence.
  • Les modèles d'IA pour la reconnaissance vocale, en particulier les modèles génératifs multimodaux, peuvent bloquer les résultats renvoyés s'ils détectent un contenu préjudiciable dans le flux audio soumis.
  • Les modèles d'IA génératifs multimodaux pour la reconnaissance vocale nécessitent de bonnes invites pour améliorer les résultats de la transcription.
  • Il est difficile de détecter des événements intéressants dans l’enregistrement audio, par exemple les bruits de fond et les sonneries. 

Exigences relatives aux données : 

  • Extraits audio de tous les membres du Sénat fédéral. 

Intégrations avec d'autres systèmes : 

  • Escriba.

Indicateurs de réussite : 

  • qualité de la transcription mesurée par le taux d'erreur de mots,
  • temps moyen de transcription.

 

La collection Scénarios d'utilisation pour l'IA dans les parlements est publiée par le Centre pour l'innovation au parlement de l'UIP, dans le cadre du projet Pôle parlementaire sur la science des données, afin de créer des lignes directrices pour la gouvernance de l'IA dans les parlements.

Ce document est soumis à une licence Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International. Il peut être librement partagé et réutilisé en mentionnant l'auteur et l'UIP. 

Le scénario d'utilisation décrit la manière dont un système doit fonctionner. Il sert à planifier, organiser et mesurer la mise en œuvre. Le scénario d'utilisation est différent de l'étude de cas, qui est un texte descriptif sur la mise en œuvre d'un projet réel. Veuillez noter que le présent scénario d'utilisation est proposé “tel quel” et que ni l'UIP ni l'auteur n'acceptent de responsabilité quant à son utilisation.

Pour plus d'informations sur les travaux de l'UIP en matière d'intelligence artificielle, veuillez consulter le site www.ipu.org/fr/AI ou contacter [email protected]