Meta Voicebox AI ist ein Dall-E für Text-to-Speech
Heute sind wir der zeitlosen Promi-Zukunft, die uns immer versprochen wurde (seit April), einen Schritt näher gekommen. Meta hat Voicebox vorgestellt, sein Text-to-Speech-Konfigurationsmodell, das verspricht, für gesprochenes Wort das zu tun, was ChatGPT und Dall-E respektvoll für die Text- und Bildgenerierung getan haben.
Im Grunde handelt es sich um einen Text-zu-Ausgabe-Generator, genau wie GPT oder Dall-E – nur dass er statt schöner Texte oder Bilder Audioclips ausspuckt. Meta definiert das System als „ein nicht regressives automatisches Flow-Matching-Modell, das darauf trainiert ist, Sprache bei gegebenem Audio- und Textkontext auszufüllen.“ Es wurde mit über 50.000 Stunden ungefiltertem Audio trainiert. Insbesondere verwendete Meta aufgezeichnete Sprache und Text aus einer Reihe gemeinfreier Hörbücher in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch.
Dieser vielfältige Datensatz ermöglicht es dem System, mehr Konversationssprache zu erzeugen, unabhängig von den von den einzelnen Parteien gesprochenen Sprachen, so die Forscher. „Unsere Ergebnisse zeigen, dass Spracherkennungsmodelle, die auf künstlicher Sprache trainiert wurden, die von Voiceboxen erzeugt wurde, fast genauso gut funktionieren wie Modelle, die auf echter Sprache trainiert wurden.“ Darüber hinaus wurde die computergenerierte Sprache mit einer reduzierten Fehlerquote von nur 1 Prozent durchgeführt, verglichen mit einer Reduzierung von 45 bis 70 Prozent bei aktuellen Text-to-Speech-Modellen.
Dem System wurde zunächst beigebracht, Sprachsilben auf der Grundlage der sie umgebenden Silben sowie des Silbentextes vorherzusagen. „Nachdem das Modell gelernt hat, Sprache aus dem Kontext zu ergänzen, kann es dies auf Sprachgenerierungsaufgaben anwenden, einschließlich der Erstellung von Fragmenten mitten in einer Audioaufnahme, ohne die Eingabe vollständig neu erstellen zu müssen“, erklärten die Meta-Forscher.
Berichten zufolge ist Voicebox auch in der Lage, Audioclips aktiv zu bearbeiten, Sprachgeräusche zu eliminieren und sogar falsch ausgesprochene Wörter zu ersetzen. „Eine Person kann jeden Anfangsteil einer Sprache identifizieren, der durch Lärm verfälscht ist (z. B. das Bellen eines Hundes), ihn ausschneiden und das Modell anweisen, diese Passage neu zu erstellen“, indem er beispielsweise eine Bildbearbeitungssoftware verwendet, um die Bilder zu bereinigen. sagten die Forscher.
Text-zu-Sprache-Generatoren gibt es schon seit einer Minute – so konnten Ihre TomToms-Eltern Ihnen mit Morgan Freemans Stimme schwer fassbare Wegbeschreibungen geben. Moderne Iterationen wie Hat eine Rede gehalten oder AI Voice Prime von Elevenlab Sie sind viel leistungsfähiger, benötigen aber immer noch ziemlich viele Quellenmaterial, um ihr Thema richtig nachzubilden – und dann noch einen weiteren Berg unterschiedlicher Daten für jeden. Junggeselle. zuletzt. Das Thema, zu dem Sie üben möchten.
Voicebox kommt dank einer neuen TTS-Trainingsmethode ohne Clipping aus. Die Benchmark-Ergebnisse liegen nicht einmal annähernd da, da die KI des Meta angeblich den aktuellen Stand der Technik übertrifft, und zwar sowohl hinsichtlich der Klarheit (1,9 Prozent Fehlerrate gegenüber 5,9 Prozent) als auch der „Audioähnlichkeit“ (ein zusammengesetzter Wert von 0,681 bis 0,580 in SOA). Dabei läuft es bis zu 20-mal schneller als die heutigen Top-Text-to-Speech-Systeme.
Aber bringen Sie Ihre Promi-Navigatoren noch nicht auf Trab, weder die Voicebox-App noch ihr Quellcode wurden zu diesem Zeitpunkt der Öffentlichkeit zugänglich gemacht, bestätigte die Meta am Freitag und verwies auf „potenzielle Missbrauchsrisiken“ trotz „beeindruckender Nutzung“. Cases for Generative Speech Models.“ Stattdessen hat das Unternehmen zusätzlich zum ersten Forschungspapier des Programms eine Reihe von Audiobeispielen (siehe oben/unten) veröffentlicht. Das Forschungsteam hofft, dass die Technologie in Zukunft Eingang in die Prothetik finden wird für Patienten mit Stimmbandschäden sowie NPCs und digitale Assistenten im Spiel.
„Lebenslanger Social-Media-Liebhaber. Fällt oft hin. Schöpfer. Leidenschaftlicher Feinschmecker. Entdecker. Typischer Unruhestifter.“