Neuronale Stimmen

Bei AWS, Google und Microsoft gibt es zwei Arten von Stimmen: „Standard“ und „Neuronal“. Neuronale Stimmen nutzen KI-basierte Sprachmodelle und klingen in der Regel deutlich natürlicher als Standardstimmen.

Wie kann ich Neuronale Stimmen nutzen?

Neuronale Stimmen sind nicht im „Authoring“-Paket enthalten, da sie höhere Kosten verursachen. Um neuronale Stimmen in einem Projekt zu nutzen, muss dieses mit einem „Production“-Konto erstellt werden. Sobald das Projekt erstellt wurde, können alle eingeladenen Teammitglieder die neuronalen Stimmen ebenfalls verwenden, selbst wenn sie nur ein „Authoring“-Abonnement haben.

Wichtig: Achte darauf, dass die Person mit dem „Production“-Konto das Projekt anlegt!

Wie erkenne ich eine neuronale Stimme?

Zum einen wirst Du im direkten Vergleich zwischen Standardstimme und neuronaler Stimme schnell feststellen, dass die Sprachausgabe deutlich weniger Aussprachefehler und eine natürlichere Satzmelodie enthält. Auch ist die Tonqualität besser. Außerdem kann man je nach Anbieter die Stimmen wie folgt am Namen identifizieren:

AWS

Bei AWS Polly ist es schwierig, eine konkrete Liste mit Namen zu pflegen, da sich diese tagesaktuell ändern kann und manchmal auch Standardstimmen in Neuronale Stimmen umgewandelt werden. Schau bitte in diese Liste aller neuronalen Stimmen. Falls Du in Frazier eine Stimme findest, die dort nicht aufgelistet ist, handelt es sich um eine Standardstimme.

de-DE - Daniel (M)

de-DE - Vicky (F)

Google

Google hat verschiedene Qualitätsstufen für ihre Stimmen.

Standardstimmen: Alle Standardstimmen sind am Namen erkennbar: „de-DE-Standard-*“. Das Sternchen wird durch einen Buchstaben ersetzt, momentan geht es von A-F.
Neuronale Stimmen: Neuronale Stimmen erkennst Du auch am Namen. Er enthält die Wörter „Wavenet“, “Neural2” oder “Polyglot”.

de-DE - Wavenet-B (M)

de-DE - Wavenet-C (F)

de-DE - Neural2-B (M)

de-DE - Neural2-C (F)

Tipp: Eine Besonderheit bei Google: unterschiedliche Stimmen mit dem selben Buchstaben sind Aufnahmen vom selben Person. Dadurch verhalten sich Standardstimmen, neuronale Stimmen an dieser Stelle sehr ähnlich. So kann man bspw. ein Manuskript, was mit „de-DE-Standard-B“ erstellt wurde vergleichsweise einfach so umstellen, dass es mit „de-DE-Wavenet-B“ vorgelesen wird, ohne das viele nachträgliche Änderungen notwendig wären.

Microsoft

Alle Stimmen von Microsoft sind neuronale Stimmen.

de-DE - Killian (M)

de-DE - Katja (F)

Stand: 19.01.2026

Einleitung

Generative Sprach-KI