Ein Roboter, welcher repräsentativ für einen Voice-Over-Generator steht

“Hey Siri”, “Okay Google” – in unserem Alltag sind wir längst daran gewöhnt, uns mit künstlich generierten Stimmen zu unterhalten. Und es ist erschreckend, wie realistisch diese Stimmen klingen können.

Warum solche künstlich generierten Stimmen also nicht für die eigenen Videos nutzen? Deine Videos mit einer KI-basierten Sprecherstimme zum Leben zu erwecken klingt doch erstmal spannend.
Ein sogenanntes Text-to-Speech-(TTS)-Programm, bzw. ein Voice-Over-Generator, bietet genau diese Möglichkeit. Mit wenigen Klicks lassen sich damit individuelle Texte von einer Auswahl an unterschiedlichen Stimmen einsprechen. 

Vorteile von Voice-Over-Generatoren für Unternehmen

Vor allem für Unternehmen, die E-Learnings, Erklär- oder Produktvideos erstellen, können Voice-Over-Generatoren sehr nützlich sein. Die Vorteile der Generatoren liegen vor allem in der

  • Zeitersparnis: Innerhalb weniger Sekunden lassen sich lange Texte in Audio-Dateien verwandeln
  • Kosteneffizienz: Viele Programme bieten kostenfreie Versionen an, (welche jedoch meist in Worten oder Minuten limitiert sind bzw. keinen Download möglich machen)
  • einfachen Lokalisierung: Anstatt Sprecher*innen aus aller Welt zu beauftragen, bieten die Tools meist gleich mehrere Sprachen an

Der beste Voice-Over-Generator im Praxistest

Ich – als Voice-Over Artist – habe verschiedene Generatoren für dich getestet. Einer der besten Generatoren, der mir in meiner Recherche immer wieder über den Weg lief, war der Voice-Over-Generator von Murf.ai.
Vorweg lässt sich sagen, dass die Generatoren vor allem für die englische Sprache optimiert sind. Nicht alle Programme halten deutsche Stimmen bereit und auch die Arbeitsoberfläche ist oftmals englisch.

Die Oberfläche in Murf.ai ist, wie auch in anderen TTS-Programmen, recht simpel gehalten und die Arbeitsschritte sind intuitiv: In weniger als fünf Minuten hatte ich mir mit meinem Google-Konto einen kostenlosen Account erstellt und konnte meinen Text einsprechen lassen.

Die Arbeitsoberfläche vom Voice-Over-Generator Murph.ai

Gerade, wenn man Voice-Over für Videos erstellt, eignet sich der Generator von Murf.ai sehr gut, weil sich darin direkt Videos einfügen lassen.

Der Umfang und die Möglichkeiten sind abhängig vom gewählten Paket beim Anbieter. Bei Murf.ai sind beispielsweise in der Pro-Version über 120 Stimmen verfügbar und 20 Sprachen. Deutsche Stimmen gibt es insgesamt sieben (vier männliche, drei weibliche). Hat man keine Pro-Version, reduzieren sich die deutschen Stimmen auf vier. Bei der Pro-Version belaufen sich die Kosten auf 39$ monatlich (im Jahresabo auf 26$ monatlich).

Die Preismodelle vom besten Voice-Over-Generator von Murph.ai

Die kostenlose Version von Murf.ai macht es möglich, bis zu 10 Minuten Voice-Over zu generieren. Diese können jedoch erst ab der Basic-Version für 19$ pro Monat (bzw. 13$ im Jahresabo) auch heruntergeladen werden. Du solltest also abwägen, welches Modell sich für dich oder dein Unternehmen am besten eignet und bezahlbar ist. Meiner Meinung nach reicht für den Anfang das Basis-Modell völlig aus.

Bevor ich zu den Nachteilen von Voice-Over-Generatoren komme, höre doch einmal selbst in die Audiodatei rein, welche ich mithilfe von Murf.ai erstellt habe:

0:00 / 0:00
Murph.ai Beispieltext

“Das ist ein Beispiel-Text, der dir zeigt, wie dieses TTS-Programm klingt.
TTS-Programme, wie Murf, Speechify und Co sind hilfreiche Voice-Over-Generatoren, die dein Video mit dieser Stimme zum Leben erwecken können.”

Vier Schwachstellen von Voice-Over-Generatoren

Ich finde es wirklich beeindruckend, dass künstlich generierte Stimmen Texte in mehr als verständliche Audios verwandeln können. Doch vielleicht ist dir auch  beim Hören aufgefallen, wo mögliche Schwachstellen schlummern.

1. Falsche Aussprache von Eigennamen und englischen Wörtern

Ich habe den Voice-Over-Generator von Murf.ai das Wort “Murf” einsprechen lassen. Leider war der Generator nicht in der Lage, den eigenen Namen richtig auszusprechen. Sobald also Eigennamen oder englische Begriffe mit der deutschen Stimme eingesprochen werden, stößt der Generator an seine Grenzen.

[i] Ein möglicher Workaround: Den Namen so schreiben, wie er im Englischen ausgesprochen werden würde. Um bei dem Beispiel “Murf” zu bleiben, einfach “Mörf” schreiben.

2. Falsche Betonungen und Pausen

Die Betonungen in unserer Sprache sind höchst komplex. In Gesprächen geht unsere Stimme stetig auf und ab. Wir ziehen Silben in die Länge, andere verschlucken wir fast. All das hat einen Einfluss auf die gewünschte Bedeutung. Denke dabei an dieses Beispiel: “Du musst den Hund umfahren.” Je nachdem, ob die Betonung auf “um” oder auf “fahren” liegt, hat ein und derselbe Satz eine völlig gegensätzliche Bedeutung.

[i] In einigen Programmen lassen sich Betonungen manuell anpassen. Die Software von Voicebooking beispielsweise macht das möglich. Diese Nachbearbeitung ist aber zum Teil sehr zeitintensiv. Pausen lassen sich übrigens meist mit Satzzeichen gut steuern.

3. Maschineller Klang

Sicherlich hängt dieser Punkt auch mit der Betonung zusammen. Wir Menschen merken in der Regel (noch), wenn wir mit Maschinen sprechen. Kurze “Haker”, der Klang, falsche Betonungen und Pausen: Das alles sind kleine, aber entscheidende Gründe, warum viele Personen nachvollziehbarerweise noch vor KI-Stimmen zurückschrecken.

4. Kein Mitdenken

Als Voice-Over-Artist bin ich – als Mensch – in der Lage, Flüchtigkeitsfehler im Text zu erkennen. So kann ich bei Kund*innen nachfragen und selbständig Korrekturen vornehmen. Eine künstliche Stimme gibt nur genau das raus, was du eingegeben hast. Nicht mehr und nicht weniger.

Drei Alternativen zum Voice-Over-Generator

Wenn du mit dem, was Voice-Over-Generatoren nach jetzigen Stand bieten, nicht zufrieden bist, dann habe ich ein paar Alternativen für dich:

1. Das Medium “Sprache” ersetzen

Sprache ist gerade für Erklärvideos unheimlich wichtig. Allerdings ist ein Leitsatz für Videos “Show, don’t tell”. Ist es für dein Video vielleicht wichtiger, etwas lediglich zu zeigen, das du auch mit Musik hinterlegen kannst? Eine andere Möglichkeit wäre es, mit Texteinblendungen zu arbeiten oder mit einer Kombination aus Text und Musik.

2. Selbst zum Sprecher oder zur Sprecherin werden

Reichen dir Text und Musik nicht aus, dann greife selbst zum Mikrofon. Das ist gar nicht so schwer, wie du vielleicht denkst. Mit wenigen Tipps und Tricks kannst du recht einfach eigene Voice-Over erstellen.

3. Professionelles Voice-Over buchen

Eventuell sind die ersten beiden Alternativen für dich keine Option. Weil eine Stimme unabdingbar ist und/oder du dir selbst eine Voice-Over-Erstellung nicht zutraust. Dann solltest du auf eine professionelle Sprecherstimme zurückgreifen. Online-Marktplätze oder Agenturen, wie Fiverr oder Voicebooking bieten Voice-Over-Erstellungen von menschlichen Sprecher*innen an. 

Zum Vergleich habe ich den Text, welchen ich mit dem Voice-Over-Generator erstellt habe, selbst noch einmal eingesprochen. So kannst du ideal vergleichen:

0:00 / 0:00
Beispieltext

Wenn dir meine Stimme gefällt, dann kannst du gerne Kontakt zu mir aufnehmen und wir finden eine ideale Lösung für dein Projekt.

Fazit

Kommen wir zur Schlussbetrachtung. Lohnt sich ein Voice-Over-Generator für deine Videos?

Die Kosten für einen Voice-Over Generator sind überschaubar mit um die 19$ für einen Monat (Basis-Modell). Insgesamt sparst du ohne Sprecherakquise oder eigene Voice-Over-Erstellung jede Menge Zeit. Das Ganze kann allerdings nach hinten losgehen, wenn du verschiedene Sprachen mischt oder viele Eigennamen verwendest. Denn dann musst du mit einer längeren Nachbearbeitungszeit rechnen. Auch wenn du Betonungen oder Pausen manuell anpassen willst, musst du hierfür genügend Zeit einplanen.
Viele stören sich an dem noch sehr maschinellen und künstlichen Klang der Voice-Over-Generatoren. Vor allem im Deutschen sind diese noch nicht so ausgereift wie im Englischen.
Was das Sprachangebot angeht, bist du hier je nach Anbieter allerdings gut ausgerüstet. Hast du deine Texte bereits in verschiedene Sprachen übersetzt, kannst du diese mit wenig Aufwand von Stimmen eines jeweiligen Landes einsprechen lassen, vorausgesetzt sie sind in deinem gewählten Preismodell enthalten.

Zusammenfassend kann man also sagen, dass es beeindruckend ist, wie effizient und einfach man Videos mit einem künstlichen Voice-Over ausstatten kann. Am Ende solltest du selbst individuell für dein Projekt oder Video entscheiden, ob die künstliche Stimme für deine Zwecke reicht und die Schwachstellen für dich nicht so sehr ins Gewicht fallen. Oder ob du doch auf eine Alternative, wie beispielsweise eine professionelle Sprecherstimme, zurückgreifen solltest.