AudioSeal : un nouveau modèle de Meta pour détecter les voix générées par IA

Découvrez AudioSeal de Meta : la solution pour ajouter des filigranes invisibles aux enregistrements audio et garantir leur authenticité.

par Fanny Gastaldi

30 juin 2024 0

Face à la montée des deepfakes et des imitations vocales, la question de l’authenticité des voix et fichiers audio se pose de plus en plus. AudioSeal, développé par Meta, propose une solution pour ajouter des filigranes invisibles aux enregistrements audio générés par IA. Voici ce qu’il faut savoir à son sujet.

Qu’est-ce que AudioSeal ?

AudioSeal est la première technique de filigrane audio spécifiquement conçue pour la détection de voix générées par l’IA et le watermarking de sons sans altération du son d’origine.

Contrairement aux méthodes traditionnelles, qui utilisent des algorithmes de décodage complexes, AudioSeal utilise la détection localisée.

Cette technique permet d’identifier les segments audio générés par l’IA dans un enregistrement plus long. Le modèle est également conçu pour pouvoir détecter si un enregistrement audio a été modifié ou édité en post production.

Quelles sont ses principales caractéristiques ?

AudioSeal améliore la vitesse de détection jusqu’à 485 fois par rapport aux méthodes précédentes. Ce modèle est donc surtout destiné à des usages nécessitant la détection en temps réel et à grande échelle.

Avec une architecture générateur / détecteur entraînée conjointement, AudioSeal utilise une perte de localisation pour identifier les filigranes au niveau de l’échantillon (résolution 1/16k seconde).

La perte de localisation serait comme une fonction qui pénalise le modèle lorsque la position des filigranes dans l’échantillon audio est incorrectement prédite. Cela signifie que le modèle est entraîné non seulement à détecter la présence d’un filigrane, mais aussi à localiser précisément où il se trouve dans l’échantillon audio.

Aussi, AudioSeal utilise une fonction de coût basée sur le masquage auditif pour s’assurer que les filigranes ajoutés à l’audio restent imperceptibles pour les auditeurs tout en étant suffisamment robustes pour résister aux manipulations audio.

Installer et utiliser AudioSeal pour ajouter une watermark sur un audio

AudioSeal est un outil puissant pour ajouter une marque invisible (watermark) sur les audios générés ou non par IA. Voici un aperçu du fonctionnement pour installer et utiliser AudioSeal (source).

Installation d’AudioSeal

Pré-requis : pour correctement fonctionner, AudioSeal a besoin de Python en version 3.8 ou supérieure, Pytorch en version 1.13.0 ou supérieure, omegaconf, julius et numpy.
Installer AudioSeal via PyPI : Utilisez la commande suivante dans votre terminal pour installer AudioSeal :

pip install audioseal

Installer à partir des sources : Si vous préférez, vous pouvez cloner le dépôt et installer depuis les sources :

git clone https://github.com/facebookresearch/audioseal
cd audioseal
pip install -e .

Utilisation par API

AudioSeal propose une API permettant aux développeurs d’ajouter une watermark à des sons de leur choix mais aussi de pouvoir détecter les filigranes créés auparavant par la solution.

Pour obtenir un aperçu complet du fonctionnement de ce nouveau modèle de Meta, vous pouvez vous rendre sur sa page officielle sur Github.

Entrainer son propre modèle de génération de filigranes

Pour les utilisateurs avancés, les concepteurs du modèle permettent également aux utilisateurs de créer leur propre système de Watermarking grâce à AudioSeal (les détails techniques se trouvent ici).

Avant de se quitter…

Si cet article sur AudioSeal, le nouveau modèle de Meta qui détecte les voix générées par IA vous a plu, n’hésitez pas à le partager sur les réseaux sociaux, à vous abonner à notre newsletter digitale et/ou à nous suivre sur Google Actualités pour recevoir nos prochains articles.

Vous pouvez également suivre nos meilleurs articles via notre flux RSS : https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (il vous suffit de l’insérer dans votre lecteur de flux RSS préféré (ex : Feedly)).

Nous sommes aussi actifs sur LinkedIn, X, Facebook, Threads et YouTube. On s’y retrouve ?

Un avis ? post

Fanny Gastaldi

À l’heure actuelle, je me consacre au journalisme avec une spécialisation en cybersécurité, intelligence artificielle et culture internet, tout en nourrissant un vif intérêt pour les domaines relatifs aux sciences humaines. Mon objectif principal est d’éclaircir et rendre accessible des sujets fréquemment perçus comme obscures ou complexes. Pour me contacter : [email protected]

Newsletter Veille Digitale