KI und Sprechen

(Ko-)Kreation mit ElevenLabs: Die Vertonung

Zun?chst geht es darum, die richtige Stimme für meine Protagonistin zu w?hlen. Sie sollte weich und flie?end klingen, wie für eine humanoide KI angemessen. Wichtig ist es, sie weder zu jung noch zu alt klingen zu lassen, sondern alterslos.

Das Programm ElevenLabs bietet hier viele M?glichkeiten an, aus denen man ausw?hlen kann. Dabei unterscheiden sich die Stimmen nach Geschlecht, Alter, Nationalit?t bzw. Akzent, aber auch nach den Eigenschaften, wie ?sexy‘, ?deep‘, ?vibrant‘, ?confident‘; weitere Merkmale stehen auch noch zur Auswahl. Zus?tzlich ist es m?glich, sich seine eigene Stimme zu erstellen. Ich entscheide mich aber dafür, mich aus dem Pool der bereits generierten Stimmen zu bedienen und etwas Angemessenes herauszusuchen. Die Stimme sollte etwas Tiefe besitzen, damit es angenehm ist, ihr zuzuh?ren. Zu hohe oder zu flache T?ne w?ren hierfür eher ungeeignet. Gleichzeitig sollte sie nicht zu aufgeregt oder überschw?nglich sprechen, da das dem Thema meiner Geschichte nicht entsprechen würde.

Meine Wahl beschr?nkt sich zun?chst auf drei Stimmen, die alle weiblich, jung und amerikanisch sind. Letztendlich f?llt meine Wahl auf Joanne, die eine sehr beruhigende, tiefe und weiche Stimme hat. Zun?chst gebe ich meinen Text so ein, wie ich ihn geschrieben hatte, merke aber schon nach ein paar Sekunden, dass es hier mehrerer spezifischer Eingaben bedarf. Denn die Stimme liest den Text recht emotionslos vor, ohne dabei Pausen zu setzen, wo sie angebracht w?ren, oder die Stimme zu erheben, wenn es emotional oder laut wird. Natürlich h?ngt es auch vom Autor selbst ab, wann eine Pause oder Betonung als wichtig angesehen wird. Einzig die Fragezeichen scheint die Stimme zu beachten, da sie sich am Ende der Frage hebt.

Meinem Text füge ich also Pausen mit Hilfe von ?break time‘ und Betonungen mit Anführungszeichen ein. Nach dem Generieren der Audio merke ich allerdings schnell, dass die angegebene Pause zwischen den S?tzen mit 1,5 Sekunden doch zu lange ist. Auff?llig ist vor allem auch, dass die Stimme den Einstieg besonders schnell vorliest. Ich denke zun?chst, dass dies ein Generierungsfehler ist, kann aber nach erneutem Generieren hier keine ?nderung feststellen. Warum die Stimme hier schneller ist, als beim Rest der Geschichte, ist mir unklar, da sich keine Geschwindigkeiten einstellen lassen und ich sogar Pausen eingefügt habe.

Nach dem zweiten Generieren mit Anpassung der Pausenzeiten werden zus?tzlich noch W?rter anders ausgesprochen oder betont, obwohl ich an diesen Stellen keine ?nderungen vorgenommen habe. Nach dem insgesamt vierten Generieren der Audios schleichen sich noch mehr Fehler ein: Nun werden die Pausen-Eingaben teilweise vorgelesen und W?rter mit eingebaut, die im geschriebenen Text nicht existieren. Da ich für dieses Experiment nur die kostenlose Version nutze, die ein monatliches Zeichenlimit enth?lt, kann ich keine weiteren Optimierungen und Versuche durchführen. Für eine wirkliche Buchver?ffentlichung h?tte ich mir natürlich eine kostenpflichtige Version mit mehr Freiheiten gekauft, um das bestm?gliche Ergebnis für meine Vertonung zu erhalten.

Unter diesen Umst?nden und zum jetzigen Stand l?sst sich nur feststellen, dass ElevenLabs keine optimale Unterstützung ist, um meine Geschichte als H?rbuch einsprechen zu lassen. Der Autor bzw. Urheber w?re in dem Fall, meiner Meinung nach, eher die KI, da wenig Modellierung in der Prompteingabe m?glich ist. In Zukunft sind vielleicht mehr Optionen m?glich, sodass die Stimmen mehr bearbeitet und geleitet werden k?nnen. Dann w?re auch mehr Input von meiner Seite aus gefragt, wodurch auch mein Anteil an der Kreation gr??er w?re und wirklich zu einer Ko-Kreation führen würde.

Momentan sehe ich die KI allerdings als alleinigen Creator und würde das Vertonungs-Projekt eher nicht als eine Ko-Kreation einsch?tzen. Die Emotionen der Geschichte werden mangelhaft bis ausreichend transportiert, was sich wahrscheinlich verbessern würde, wenn mehr Optionen für die Eingabe der Prompts bzw. Modellierungen m?glich w?ren. Ein Mensch h?tte beim Vertonen wohl mehr Gefühl vermittelt. Da die Protagonistin meiner Geschichte aber selbst eine KI ist, ist der Outcome in diesem Beispiel wahrscheinlich angemessen. Auch wenn nur recht wenige Prompts zur Eingabe m?glich sind, ist die letztere dafür schnell und einfach. Die kostenlose Version von ElevenLabs bietet in diesem Test dennoch wenig M?glichkeiten, und das Programm müsste in Zukunft weiter optimiert werden – was sicherlich auch geplant ist.

 

>> Weiter zu "Texteingabe in und Sprachausgabe durch ElevenLabs"