17. Juli 2025  |  by Jutta Talley
Beitrag jetzt teilen

KI-Stimmen sind immer alltäglicher, insbesondere weil sie in vielen Alltagsanwendungen wie Sprachassistenten, Kundensupport und der Content-Erstellung eingesetzt werden. Die KI-Sprachtechnologie entwickelt sich rasant weiter, mit dem Ergebnis, dass synthetische Stimmen heute sehr natürlich klingen.

Im Rahmen meines Netzwerks habe ich ein kleines Stimmungsbild zur Beliebtheit von KI-Stimmen erhoben. Das Ergebnis ist nicht repräsentativ, ich fand es aber so spannend, dass ich entschieden habe, etwas weiter zu recherchieren und einen Blogartikel darüber zu schreiben. Zum Thema wurde ich vom SWR-Kultur am Morgen interviewt. Das Interview wurde am 22.8.2025 ausgestrahlt: Hier können Sie es hören.

Bevor wir zu den Ergebnissen meiner kleinen Befragung kommen, klären wir erst einmal, was gemeint ist, wenn von KI-Stimmen die Rede ist.

1. KI-Stimmen - Konzepte

Es gibt drei bekannte Konzepte rund um KI-Stimmen, die sehr unterschiedlich funktionieren:

  • Concatenative Speech Synthesis (CSS)
  • Generative Adversarial Networks (GAN)
  • Voice Cloning (VC)

1.1 Concatenative Speech Synthesis (CSS)

Concatenative Speech Synthesis (CSS) ist ein Verfahren der Sprachsynthese, bei dem echte, voraufgezeichnete Sprachsegmente aus einer Datenbank wiederverwendet und aneinandergereiht werden, um neues Sprachmaterial zu erzeugen (vgl. Wikipedia, 2025).

Vereinfacht gesagt, werden Sprachaufnahmen von echten menschlichen Stimmen in kleine Einheiten (z.B. Silben, Phoneme) aufgeteilt und im Anschluss so ausgewählt und zusammengesetzt, dass sie zu dem gewünschten Text und der Intonation passen.

Die Vor- und Nachteile: Es kommt eine natürliche Sprachqualität zustande, aber die Flexibilität ist abhängig von den vorhandenen Aufnahmen, und ist somit eingeschränkt. Dieses Konzept wird häufig in klassischen Text-to-Speech-Systemen (TSS) eingesetzt, z.B. um sich einen Zeitungsartikel vorlesen zu lassen. Das in Deutschland wohl bekannteste Beispiel ist Heiko Grauel, dessen Stimme bei Durchsagen der Deutschen Bahn erklingt.

KI-Stimmen oder Mensch
Photographer: Timothy Dykes | Source: Unsplash

1.2 Generative Adversarial Networks (GAN)

Generative Adversarial Networks (GAN) ist ein Machine-Learning-Modell. Es kann Daten generieren, indem zwei künstliche neuronale Netze (Generator und Diskriminator) im Wettbewerb stehen, um möglichst realistische Daten (etwa Bilder oder Sprache) zu erzeugen (vgl. Robinson, S. et al., 2024).

Künstliche Daten werden erzeugt und darauf hin überprüft, ob sie real oder künstlich sind. Durch ständiges Lernen werden beide Netze so trainiert, dass die Ergebnisse immer besser werden.

GAN erzeugt alles künstlich und kommt ohne menschliches Vorbild aus. Es kann sehr flexibel eingesetzt werden in unterschiedlichen Sprachen. Ein Risiko ist die Missbrauchsmöglichkeit mit Falschinformationen oder Täuschungen mit Deepfakes. Manche dieser Manipulationen bekannter Persönlichkeiten sind unterhaltsam, sie können aber auch großen Schaden anrichten, beispielsweise wenn im Wahlkampf Falschinformationen verbreitet werden (vgl. Schmidt, S., 2024).

1.3 Voice Cloning (VC)

Voice Cloning (VC) ist das Erstellen eines digitalen, synthetischen Doppelgängers einer bestimmten menschlichen Stimme mithilfe von KI und maschinellem Lernen. Hierfür werden Sprachproben einer Zielperson gesammelt und mit einem KI-Modell (beispielsweise GANs) analysiert. Die KI lernt die Stimmcharakteristik wie Ton, Intonation und Emotion und erschafft daraus ein synthetisches Modell, das beliebige neue Sätze in genau dieser Stimme sprechen kann. Das Ziel ist also eine möglichst perfekte Nachbildung einer bestimmten Stimme.

Der große Vorteil ist, dass beispielsweise die Stimme einer berühmten Schauspielerin nun nicht mehr abhängig von deren Anwesenheit eingesetzt werden kann. Die Schauspiel- und Synchronsprecherbranche sah darin ein großes Problem, was 2023 zu einem aufsehenerregenden Streik in Hollywood führte (vgl. Tagesschau, 2023). Eine weitere Gefahr ist das manipulative Einsetzen von Deepfakes.

2. Akzeptanz von KI-Stimmen

KI-Stimmen werden von vielen Menschen in bestimmten Kontexten akzeptiert, sie werden oft als angenehm wahrgenommen und sind teilweise schon lang in verschiedenen Lebensbereichen im Einsatz (z.B. Text-to-Speech, Navi). Dennoch verarbeitet das menschliche Gehirn geklonte Stimmen anders als echte Stimmen, auch wenn der Unterschied für das Ohr kaum noch wahrnehmbar ist (vgl. Roswandowitz, C. et al., 2024). Wie die Studie des Wissenschaftsteams zeigt, können Menschen teilweise durch Deepfakes getäuscht werden, doch neurokognitive Mechanismen, die während der Deepfake-Verarbeitung greifen, weisen auf eine gestärkte menschliche Widerstandsfähigkeit gegenüber gefälschten Informationen (vgl. Roswandowitz, C. et al., 2024). Menschen seien demnach in der Lage, Unterschiede unbewusst wahrzunehmen und Menschen hätten somit grundsätzlich die Fähigkeit, den Unterschied zwischen echter und geklonter Stimme zu erkennen. In der Studie wurde die neurokognitive Sensibilität von 25 Teilnehmern hinsichtlich der Akzeptanz oder Ablehnung von Personenidentitäten untersucht, wie sie in Audio-Deepfakes nachgebildet werden (vgl. Roswandowitz, C. et al., 2024).

Kommen wir nun zu dem von mir erhobenen Stimmungsbild zur Akzeptanz von KI-Stimmen.

Akzeptanz von KI-Stimmen
Photographer: Vitaly Gariev | Source: Unsplash

3. Stimmungsbild zur Akzeptanz von KI-Stimmen

Es fand eine kurze, nicht repräsentative Befragung statt. Es haben 15 Personen teilgenommen, alles Abonnenten meines Newsletters, die mehrfach antworten konnten.

Frage 1: Welche Stimme wird deiner Meinung nach die Zukunft dominieren – Mensch oder KI?

Das Ergebnis ist eindeutig: 12 von 15 Teilnehmenden bevorzugen die menschliche Stimme, zwei KI-generierte Stimmen. KI-Stimmen klingen heute schon extrem menschlich, deshalb hat mich das Ergebnis überrascht und gefreut.
Möglicherweise wird die menschliche Stimme aufgrund der sehr grundlegenden menschlichen Bedürfnisse nach Authentizität, Glaubwürdigkeit und emotionaler Verbindung bevorzugt - auch (oder gerade) in Zeiten zunehmender Digitalisierung. Die menschliche Stimme als "Spiegel der Seele" verspricht möglicherweise genau diese Werte zu bewahren.

Frage 2: Welche Produkte konsumierst du am liebsten, wenn sie von einem Menschen gesprochen werden?
Hier wurde die gesamte Bandbreite genannt: Podcasts, Hörbücher, Vorträge, Radio, Coaching, Musik, Beratung, Workshops, Unterricht, Therapie. Besonders häufig wurden genannt: Podcasts, Hörbücher und Musik. Die Begründungen waren: Die menschliche Stimme sei sympathischer, angenehmer, emotionaler und weniger monoton.

Menschen haben ein Grundbedürfnis nach Verbundenheit mit anderen Menschen. Die Beziehungsangebote, die ein Mensch durch seinen Stimmklang macht, und die akustischen Merkmale der Stimme, z. B. entspannt oder gepresst, geben Orientierung - auch bei ganz sachlichen Themen. Menschen können die feinen Signale eines Gegenübers intuitiv deuten und vermuten, ob jemand Freund oder Feind ist. KI-Stimmen imitieren diese menschlichen Regungen schon sehr gut, aber reichen offenbar noch nicht ganz an sie heran. Auch die symbolische Wirkung spielt möglicherweise in der Beantwortung der Frage eine Rolle: Spricht eine Person, bringt sie ihre Energie und Lebenskraft ein. Spricht die KI, kostet es Rechenleistung.

Frage 3: Welche Produkte konsumierst du am liebsten, wenn sie von einer KI gesprochen werden?
Die Antworten zeigen leichte Zurückhaltung: Nur wenige Teilnehmende nannten Beispiele wie Navigationsgeräte, Erklärvideos oder vorgelesene Zeitungsartikel. Einige merkten an, dass sie KI-Stimmen nicht mögen oder sich ihren Einsatz nur schwer vorstellen können – mit einer Ausnahme: Wenn keine Beziehungsgestaltung im Vordergrund steht, wie beispielsweise beim Navigationsgerät.

Fazit

Die menschliche Stimme bleibt wahrscheinlich auch in Zukunft im Journalismus, in Podcasts, Hörbüchern, Vorträgen, Radio, Coaching, Musik, Beratung, Workshops, Unterricht und Therapie unverzichtbar - eben vor allem dort, wo Vertrauen und Glaubwürdigkeit zählen und die Stimme als Beziehungsgestalter wirken soll und muss. Unsere menschliche Stimme ist einzigartig wie ein Fingerabdruck, vielseitig und facettenreich (Talley, J. 2023, S.30f.). Nutzen wir sie: freudig und ernst, laut und leise, hoch und tief!
Gleichzeitig werden die KI-Stimmen schon länger in verschieden, zum Teil eher sachlichen Kontexten akzeptiert - als pragmatische Ergänzung, nicht als Ersatz. Eine Herausforderung ist das Thema Sicherheit, Glaubwürdigkeit und Schutz vor Deepfakes. Es bleibt spannend, wie sich das Thema KI-Stimme weiterentwickelt, welche neuen Anwendungen auf den Markt kommen, und wie sich die Akzeptanz von KI-Stimmen in den nächsten Jahren möglicherweise verändert.

KI-Stimmen oder eigenes Sprechtraining
KI-Stimmen oder selbst sprechen? Ein Sprechtraining hilft weiter!

Hinweis in eigener Sache: Wenn Sie mehr über dieses und andere Themen erfahren wollen, dann lade ich Sie herzlich ein, meinen Newsletter zu abonnieren. Wenn Sie an einem Seminar oder individuellen Stimm- und Sprechtraining interessiert sind, können Sie mich einfach per Mail kontaktieren oder direkt einen Telefontermin in meinem Kalender buchen. Ich freue mich darauf!

Literatur

  • Bäckström, T. et al. Introduction to Speech Processing. Aalto University. 2022. Kap. 9.1. zugegriffen am 17.07.2025 unter: https://speechprocessingbook.aalto.fi/Synthesis/Concatenative_speech_synthesis.html
  • Hanenberg, J. (2025). Der Menschliche Faktor Der Wandel des Berufs von Mikrofonsprecher*innen im Aufschwung synthetischer Stimmen. Erschienen in sprechen Zeitschrift für Sprechwissenschaft Sprechpädagogik – Sprechtherapie – Sprechkunst Heft 79. S. 7-18. Zugegriffen: 15.08.2025 unter http://www.bvs-bw.de/SPRECHEN/sprechen_79_2025_1.pdf
  • Robinson, S. et al. What is a generative adversarial network (GAN)? Stand: 18.10.2024. zugegriffen am: 17.07.2025 unter: https://www.techtarget.com/searchenterpriseai/definition/generative-adversarial-network-GAN
  • Roswandowitz, C. et al. (2024) Cortical-striatal brain network distinguishes deepfake from real speaker identity. Zugegriffen: 11.07.2025 unter: https://www.nature.com/articles/s42003-024-06372-6#Sec2
  • Schmidt, S. Taylor, Trump und Russland - Fakes als Waffe. Stand: 15.09.2024. zugegriffen am 17.07.2025 unter: https://www.tagesschau.de/ausland/uswahl/fake-news-ki-us-wahlkampf-100.html
  • Tagesschau. Schauspieler stimmen Vertrag mit Studios zu. Stand: 06.12.2023 zugegriffen am 17.07.2025 unter: https://www.tagesschau.de/wirtschaft/unternehmen/hollywood-schauspieler-vertrag-100.html
  • Talley, J. (2023). Überzeugend sprechen in Podcasts und Videos. Springer Nature.
  • Wikipedia zugegriffen am 17.07.2025 unter https://en.wikipedia.org/wiki/Concatenative_synthesis

Beitrag jetzt teilen
Jutta Talley
Jutta Talley ist freiberufliche Trainerin und Coach, die Personen und Organisationen dabei hilft, besser zu kommunizieren. Neben Ihrer freiberuflichen Tätigkeit lehrt sie an der Hochschule Hannover das Sprechen am Mikrofon und ist Gründungsmitglied des Vereins StillLeben e.V., der sich seit Jahren erfolgreich für Menschen mit einer seltenen Kommunikationsproblematik einsetzt. Jutta Talley liebt die Natur und ist gern unterwegs per Rad, Kajak oder zu Fuß.