Ingestion d’audio

, par Bertrand Degoy

L’ingestion de textes extraits de fichier audio contenant de la parole est une possibilité offerte par la bibliothèque LlamaIndex. Celle-ci s’appuie sur Whisper : il faut donc disposer des bibliothèques de code nécessaires dans l’environnement.

Exemple : réponse fondée sur un contenu audio

L’exemple suivant a été généré avec ChattyBot :

Écouter le document audio à l’origine de cette réponse : seq1.mp3.

Préparation de l’environnement

Des modules sont nécessaires à deux niveaux : Whisper dans l’environnement virtuel Python et ffmpeg dans le PATH.

Les aspects techniques sont développés dans la suite :
 Installation de ffmpeg dans le PATH
 Installation de Whisper dans l’environnement virtuel Python

Accès réservé : connectez vous pour en savoir plus.