Informaticien - Avec Stable Audio, l'IA crée la musique

L'IA générative est désormais entrée dans nos vies, et vous êtes sûrement désormais habitués aux textes ou images créés par des outils tels que ChatGPT, Midjourney , Stable Diffusion ou d'autres modèles d'intelligence artificielle. Mais la musique ? En réalité , la génération de musique n'est pas quelque chose de nouveau : par exemple, Amazon (AWS DeepComposer) propose depuis des années un outil qui utilise un GAN (Generative Adversarial Network), dans lequel un modèle d'IA s'oppose pratiquement au C'est une autre façon de créer du contenu. , mais il ne vous permet pas de créer de la musique à partir d'une invite de texte et génère du contenu MIDI. C'est pourquoi Stable Audio , de Stability AI (le même développeur que Stable Diffusion), peut être une solution simple et abordable pour créer de courts clips audio. Voyons voir comment ça fonctionne.

Comme Stable Diffusion, Stable Audio est un modèle qui utilise un modèle de diffusion, mais formé sur l'audio plutôt que sur les images, évidemment parce que nous voulons générer de nouveaux clips audio. La technologie vous permet de décrire la musique que vous souhaitez créer avec des mots simples et en quelques secondes seulement , Stable Audio vous proposera un clip audio gratuit d'une durée de 45 secondes, en stéréo et à 44,1 kHz. Comme nous l'avons dit, les modèles d'apprentissage automatique capables de créer de la musique existent depuis des années, mais ils créent des fichiers MIDI (Musical Instrument Digital Interface) beaucoup plus simples , tandis que Stable Audio permet aux utilisateurs de créer une nouvelle musique qui va au-delà de la répétition de notes. Mais comment ça marche exactement ? Ceci est décrit par Ed Newton-Rex, vice-président audio de Stability AI , qui a créé en 2011 une startup appelée Jukedeck, vendue plus tard à TikTok 2019. Stable Audio possède 1,2 milliard de paramètres (comme le premier Stable Diffusion) et a été formé sur plus de 800 000 musiques sous licence . pistes de la bibliothèque audio AudioSparks. Cela lui permet de créer des échantillons audio de meilleure qualité.

Il y a évidemment des limites. Vous ne pouvez pas demander au modèle de créer un riff de style Knockin' On Heaven's Door comme vous le feriez avec un outil de génération d'images lorsque vous lui demandez de créer un visage de style cubiste (à la Picasso, pour ainsi dire). Newton-Rex explique que ce n'était pas ce que les gens voulaient, mais plutôt la créativité. Et c’est pourquoi l’ invite textuelle est cruciale. Développé par Stability AI, le modèle utilise une technique connue sous le nom de Contrastive Language Audio Pretraining (CLAP), mais vous n'avez pas besoin de le considérer comme un texte conversationnel, et en fait, les développeurs proposent des conseils. Voyons rapidement comment l'utiliser.

Stable Audio propose trois types de forfaits, Free, qui vous permet de créer 20 pistes audio de 45 secondes par mois, et que vous ne pouvez pas utiliser pour des projets commerciaux. Professional, qui atteint 500 morceaux de 90 secondes par mois et que vous pouvez utiliser pour des projets commerciaux, au prix de 11,99 $ par mois, et Enterprise, pour les entreprises. Pour utiliser Stable Audio, rendez-vous sur le site Web du projet et cliquez sur Essayez-le gratuitement en haut à droite . Connectez-vous, éventuellement avec votre compte Google, et vous vous retrouverez face à une interface très simple . En haut à gauche, saisissez l'invite de texte, en bas à gauche vous trouverez les pistes créées et à droite le lecteur pour les lire. Mais créer une invite n’est pas si simple. C'est pourquoi Stability AI a créé un guide qui recommande d'ajouter des détails, de créer une atmosphère, de choisir des instruments et de régler le BPM. Les résultats sont tout à fait satisfaisants, mais il faut prendre le coup.

Lien: https://www.stableaudio.com/

Auteur: Nic007