KI und Sprechen

Erkenntnisse aus der Forschung

Vorab muss ich betonen, dass sich zum Thema Text-to-Speech-KI wenig bis keine Literatur finden lie?. Vor allem zum Programm ElevenLabs, mit welchem ich für diese Arbeit die Vertonung meiner Geschichte generieren m?chte, kann ich keine grundlegenden Forschungsergebnisse ausfindig machen.

Auf der Webseite von ElevenLabs entdecke ich jedoch einige Tipps für die Texteingabe bzw. Sprachausgabe. So steht es dort geschrieben, dass der Kontext wichtig für die Erzeugung bestimmter Emotionen sei. Würde man beispielsweise einen lustigen Text eingeben, würde man m?glicherweise eine fr?hliche Audioausgabe erhalten. ?hnlich sei es bei Traurigkeit, Wut und anderen Emotionen. Zum Thema Betonung empfiehlt die Seite, relevante S?tze oder W?rter in Anführungszeichen zu setzen, um sie hervorzuheben. Ferner wird darauf hingewiesen, dass der Sprechstil der Stimme in der Audioausgabe reproduziert wird und daher monotone Stimmen Schwierigkeiten damit haben, eine ausdrucksstarke Audioausgabe zu generieren.[i]

Um Pausen oder Unterbrechungen in den Text mit einzubauen, g?be es gleich mehrere M?glichkeiten. Auch der Rhythmus des Sprechers k?nne so ver?ndert werden. Mit der Verwendung der Syntax `<break time="1.5s" />` wird eine exakte und natürliche Pause in der Rede erzeugt, die die KI wirklich versteht und nicht nur reproduziert. Hierbei sollte beachtet werden, dass die Pausenl?nge nur in Sekunden angegeben werden sollte und maximal drei Sekunden betragen kann. In manchen F?llen kann es vorkommen, dass die Stimme ein ??h‘ oder ?ah‘ in die Pause miteinfügt, wenn sie darauf trainiert wurde. Andere Alternativen, die scheinbar nicht immer funktionieren würden, seien ein einfacher Bindestrich `-` oder mehrere Bindestriche`-- --` für einen l?ngeren Satz. Das Zeichen `...` k?nne manchmal ebenfalls eine Pause zwischen W?rtern einfügen, würde aber ?Z?gern‘ oder ?Nervosit?t‘ in die Stimme einbauen.[ii]  Features, wie die Geschwindigkeit der Stimme, die Erzeugung von Lachen oder auch ?bersicht von m?glichen Eingaben, seien momentan noch nicht verfügbar und für die Zukunft geplant.[iii]

 


[i] ElevenLabs: ?How to produce emotions”, https://help.elevenlabs.io/hc/en-us/articles/14187482972689-How-to-produce-emotions [Zuletzt aufgerufen am 03.10.2023].

[ii]  ElevenLabs: “How Can I add pauses”, https://help.elevenlabs.io/hc/en-us/articles/13416374683665-How-can-I-add-pauses [Zuletzt aufgerufen am 03.10.2023].

[iii] ElevenLabs: ?Audio: Guides, tips, emotions & pauses”, https://help.elevenlabs.io/hc/en-us/sections/13415989887889-Audio [Zuletzt aufgerufen am 03.10.2023].

 

>> Weiter zu "(Ko-)Kreation mit ElevenLabs: Die Vertonung"