Ingestion d’audio

mercredi 20 novembre 2024, par Bertrand Degoy

L’ingestion de textes extraits de fichier audio contenant de la parole est une possibilité offerte par la bibliothèque LlamaIndex. Celle-ci s’appuie sur Whisper : il faut donc disposer des bibliothèques de code nécessaires dans l’environnement.

Exemple : réponse fondée sur un contenu audio

L’exemple suivant a été généré avec ChattyBot :

Écouter le document audio à l’origine de cette réponse : seq1.mp3.

Préparation de l’environnement

Des modules sont nécessaires à deux niveaux : Whisper dans l’environnement virtuel Python et ffmpeg dans le PATH.

Les aspects techniques sont développés dans la suite :
– Installation de ffmpeg dans le PATH
– Installation de Whisper dans l’environnement virtuel Python

Les services IA de DnC L’intelligence de vos données

Ingestion d’audio

Exemple : réponse fondée sur un contenu audio

Préparation de l’environnement

Accès réservé : connectez vous pour en savoir plus.

Dans la même rubrique