Inhaltsverzeichnis
- Warum Gemini 3.1 Flash TTS ein Game-Changer ist
- Preisvergleich: ElevenLabs vs. Google Gemini
- Google AI Studio: Stimmen testen und konfigurieren
- Audio-Tags: Stimmen wie ein Regisseur steuern
- Eigene TTS-App bauen und lokal nutzen
- KI-Stimmen 2026: Wo steht der Markt?
- Prompt: Eigene TTS-App mit Gemini bauen
- Häufige Fragen
Warum Gemini 3.1 Flash TTS ein Game-Changer ist
Bisher war ElevenLabs bei der KI-Stimmerzeugung das Maß aller Dinge. Die Stimmen klangen natürlich, die Steuerungsmöglichkeiten waren gut und das Voice Cloning setzte Maßstäbe. Doch mit Gemini 3.1 Flash TTS hat Google einen ernstzunehmenden Konkurrenten in den Ring geschickt, der vor allem in einem Punkt massiv punktet: beim Preis.
Gemini 3.1 Flash TTS bietet professionelle Sprachausgabe mit über 70 unterstützten Sprachen, einer enormen Auswahl an Stimmen und einem Steuerungssystem, das seinesgleichen sucht. Das Besondere: Über sogenannte Audio-Tags kannst du Emotionen, Betonungen und Sprechweisen direkt im Text steuern — mitten im Satz von sachlich zu begeistert wechseln.
Preisvergleich: ElevenLabs vs. Google Gemini
Der Preisunterschied ist der zentrale Grund, warum sich der Wechsel lohnt. Als Grundlage nehme ich den ElevenLabs Creator Plan für 22 Dollar im Monat und rechne das gleiche Budget auf Google Gemini um.
Was bekommst du für $22?
Audio-Minuten im direkten Vergleich
| Kriterium | ElevenLabs Creator | Google Gemini Flash TTS |
|---|---|---|
| Preis | $22/Monat (Abo) | Pay-as-you-go, kein Abo |
| Minuten für $22 | ~120 Minuten | ~1.467 Minuten |
| Kosten pro Minute | ~$0,18 | ~$0,015 |
| Sprachen | 32 Sprachen | 70+ Sprachen |
| Voice Cloning | Sehr gut (ab 60 Sek.) | Nicht verfügbar |
| Emotionssteuerung | Begrenzt | Audio-Tags (sehr fein) |
| Kostenlos testen | Free Plan (begrenzt) | AI Studio (kostenlos) |
| Ideal für | Voice Cloning, Creators | Hohe Volumina, App-Integration |
Ein Hinweis zur Einordnung: ElevenLabs bleibt stark beim Voice Cloning und bei der emotionalen Tiefe einzelner Premium-Stimmen. Wenn du deine eigene Stimme klonen oder eine ganz bestimmte Klangfarbe brauchst, ist ElevenLabs nach wie vor eine sehr gute Wahl. Für die meisten Anwendungsfälle, bei denen es um Volumen, Flexibilität und Preis geht, hat Gemini aber die Nase vorn.
Google AI Studio: Stimmen testen und konfigurieren
Der Einstieg in Gemini TTS läuft über das Google AI Studio. Das ist eigentlich für Entwickler gedacht, kann aber von jedem genutzt werden, der über ein Google-Konto verfügt. Die Funktionen stehen kostenlos zur Verfügung — im Rahmen der vorhandenen Limits.
Im Playground findest du unter dem Menüpunkt «Speech and Music» die Option «Gemini Flash TTS». Dort bekommst du acht vorgefertigte Templates, mit denen du direkt verschiedene Spracheinstellungen anhören und testen kannst. Unterstützt wird das Ganze mit einem kleinen Video, das zeigt, wie stark diese Stimmen in der Kommunikation mit Bildern sind.
Deine Ausgabe wird von drei Faktoren beeinflusst: der Szene, den Regieanweisungen und dem Sprechertext selbst.
Im Bereich Regieanweisungen gibst du die allgemeine Stimmung und das Tempo vor. Du agierst hier wie ein Regisseur, der dem Sprecher erklärt, ob er gerade eine emotionale Geschichte oder eine sachliche Nachricht vorliest.
Im Sprecherfeld schreibst du den eigentlichen Text und nutzt Audio-Tags, um Gefühle oder Betonungen direkt zu steuern.
Die Anzahl der verfügbaren Stimmen ist enorm. Über Filter kannst du Stimmen nach Eigenschaften vorsortieren und über den Play-Button vorab anhören. Über das Pluszeichen unter dem Textfeld fügst du weitere Sprecher hinzu und kannst so auch Konversationen entstehen lassen.
Audio-Tags: Stimmen wie ein Regisseur steuern
Ein zentrales Element zum Steuern der Stimmen sind die sogenannten Audio-Tags. In der Dokumentation von Google werden diese Steuerungstexte ausführlich beschrieben. Dort finden sich auch Beispiele, die du kopieren und direkt ausprobieren kannst — etwa ein Text, der von Dracula gesprochen wird.
Über das Zusammenspiel aus Szenen, Kontext, Sprechern und Audio-Tags kannst du dir wie in einem Baukastensystem deine Wunschstimme mit der gewünschten Ausgabeart zusammenstellen. Da muss man ein wenig experimentieren, bis man das gewünschte Ergebnis gefunden hat — aber die Möglichkeiten sind beeindruckend.
Audio-Tags ermöglichen es, innerhalb eines Satzes die Emotion zu wechseln. Das geht über das hinaus, was die meisten TTS-Systeme bieten, bei denen man eine Grundstimmung für den gesamten Text festlegt. Bei Gemini kannst du auf Wortebene steuern — von sachlich zu flüsternd, von ernst zu begeistert.
Eigene TTS-App bauen und lokal nutzen
Das Google AI Studio ist zum Experimentieren gedacht — der produktive Einsatz erfolgt über die API in einer eigenen App. Die Verbindung läuft über einen API-Schlüssel, den du in einem Google Cloud Projekt erstellst.
Für den API-Schlüssel brauchst du ein Projekt mit hinterlegtem Abrechnungskonto. Falls du bei Google noch keine Zahlungsdaten hinterlegt hast, kannst du das direkt im Setup erledigen. Nach der Erstellung kannst du den Schlüssel jederzeit kopieren und in deiner App verwenden.
Das Erstellen der App selbst ist überraschend einfach: Im Build-Bereich von Google AI Studio beschreibst du per Prompt, welche App du brauchst. Neu bei Google: Du erhältst Designvorschläge und kannst dir das Aussehen aussuchen, bevor die eigentliche Entwicklung startet. Danach siehst du links den Chat für Verbesserungen und rechts deine fertige App in der Vorschau.
Für die lokale Nutzung auf deinem Computer lädst du den Code als ZIP-Datei herunter, entpackst ihn in einen Ordner und trägst deinen API-Schlüssel in die .env-Datei ein. Danach kannst du die App direkt auf deinem Rechner starten — und hast ein Programm, mit dem du Texte in die unterschiedlichsten Stimmen umwandeln kannst.
KI-Stimmen 2026: Wo steht der Markt?
Der Markt für KI-generierte Stimmen wächst jährlich um über 15 Prozent. Was noch vor zwei Jahren nach Roboter klang, ist heute kaum noch von menschlichen Stimmen zu unterscheiden — zumindest bei sachlichen Inhalten wie Tutorials, Nachrichten oder Erklärungen.
Neben ElevenLabs und Google Gemini gibt es weitere interessante Anbieter. Inworld TTS-1.5 Max führt aktuell die Benchmarks mit der natürlichsten Prosodie an. Fish Audio bietet erstklassiges Voice Cloning auf Open-Source-Basis. Und Cartesia Sonic 3 liefert mit rund 90 Millisekunden die niedrigste Latenz — ideal für Echtzeitanwendungen wie Sprachassistenten.
Für die meisten Anwendungsfälle — Videos vertonen, Podcasts produzieren, Lerninhalte erstellen oder Apps mit Sprachausgabe bauen — hat Gemini 3.1 Flash TTS das beste Preis-Leistungs-Verhältnis. Die Qualität ist auf Profi-Niveau, die Kosten sind minimal und du brauchst kein Abo.
Ein Bereich, in dem ElevenLabs weiterhin stark ist, bleibt das Voice Cloning: Mit nur 60 Sekunden Audioaufnahme kannst du deine eigene Stimme klonen und als KI-Stimme nutzen. Google bietet dieses Feature bislang nicht an.
Prompt: Eigene TTS-App mit Gemini bauen
Diesen Prompt habe ich im Video verwendet, um im Build-Bereich von Google AI Studio die TTS-App zu erstellen. Du kannst ihn direkt kopieren und an deine Bedürfnisse anpassen. Er erzeugt eine vollständige React-Web-App mit Stimmenauswahl, Audio-Tags, Vorschau-Funktion und WAV-Export.
