Meta MusicGen AI verwendet ein Open-Source-Skript, um Mashups von Song-Genres zu erstellen

Meta MusicGen AI verwendet ein Open-Source-Skript, um Mashups von Song-Genres zu erstellen

Das Forschungsteam von Meta Audiocraft hat es gerade veröffentlicht Musikein Open-Source-Deep-Learning-Sprachmodell, das auf der Grundlage von Textaufforderungen neue Musik generieren und sogar zu einem vorhandenen Lied passen kann, Decoder genannt. Es ist ChatGPT für Audio sehr ähnlich und ermöglicht es Ihnen, den gewünschten Musikstil zu beschreiben, eine vorhandene Melodie einzufügen (optional) und auf „Erstellen“ zu klicken. Nach einiger Zeit (in meinem Fall etwa 160 Sekunden) spuckt es einen kurzen Clip mit brandneuer Musik basierend auf Text- und Melodieansagen aus.

In einer Demo auf Facebooks Hugging Face AI können Sie Ihre Musik beschreiben und einige Beispiele wie „80er-Jahre-Popsong mit schwerem Schlagzeug und Synthesizer-Pads im Hintergrund“ liefern. Sie können es dann 30 Sekunden lang auf ein bestimmtes Lied „konditionieren“, wobei Sie mit den Steuerelementen einen bestimmten Teil davon auswählen können. Dann klicken Sie auf „Erstellen“ und es wird ein hochwertiges Beispiel angezeigt, das 12 Sekunden lang ist.

Das Team nutzte für das Training 20.000 Stunden lizenzierte Musik, darunter 10.000 hochwertige Titel aus einem internen Datensatz sowie Titel von Shutterstock und Pond5. Um es noch schneller zu machen, verwendeten sie die Audiosignatur Meta 32Khz EnCodec, um kleinere Musikstücke zu erstellen, die parallel verarbeitet werden konnten. Im Gegensatz zu bestehenden Methoden wie MusicLM erfordert MusicGen keine selbstüberwachte semantische Darstellung. [and has] Nur 50 automatische Rückgängig-Schritte pro Sekunde Audio“, schreibt Ahsan Khaliq, Hugging Face ML Engineer in einem twittern.

Siehe auch  Das Linux-Kernel-Team lehnt die Entschuldigung von Forschern der University of Minnesota ab

Letzten Monat hat Google einen ähnlichen Musikgenerator namens MusicLM veröffentlicht, aber MusicGen scheint etwas bessere Ergebnisse zu erzielen. Auf einer Beispielseite verglichen die Forscher die Ausgabe von MusicGen mit MusicLM und zwei anderen Modellen, Riffusion und Musai, um dies zu beweisen. Es kann lokal ausgeführt werden (eine GPU mit mindestens 16 GB RAM wird empfohlen) und ist in vier Modellgrößen erhältlich, von klein (300 Millionen Parameter) bis groß (3,3 Milliarden Parameter) – wobei letzteres das größte Potenzial für die Produktion komplexer Musik bietet . .

Wie bereits erwähnt, ist MusicGen Open Source und kann sogar zum Erstellen kommerzieller Musik verwendet werden (ich habe es mit „Ode to Joy“ und mehreren vorgeschlagenen Genres versucht und die obigen Ergebnisse waren … gemischt). Es ist jedoch das jüngste Beispiel für die schwindelerregende Geschwindigkeit der KI-Entwicklung im letzten halben Jahr, da Deep-Learning-Modelle drohen, in ein anderes Genre vorzudringen.

Alle von Engadget empfohlenen Produkte werden von unserem Redaktionsteam unabhängig von unserer Muttergesellschaft ausgewählt. Einige unserer Geschichten enthalten Affiliate-Links. Wenn Sie über einen dieser Links etwas kaufen, erhalten wir möglicherweise eine Affiliate-Provision. Alle Preise gelten zum Zeitpunkt der Veröffentlichung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert