KI-Stimmen

Gemini 3.1 Flash TTS: Professionelle KI-Stimmen zum Bruchteil der Kosten

Q: Was kostet Google Gemini 3.1 Flash TTS?

Gemini 3.1 Flash TTS kostet im Standard-Tarif ca. 0,015 $ pro Minute Audio-Output. Es gibt kein Abo — du zahlst nur, was du tatsächlich verbrauchst. Zum Vergleich: ElevenLabs kostet im Creator Plan (22 $/Monat) ca. 0,18 $ pro Minute.

Q: Ist Google Gemini TTS besser als ElevenLabs?

Die Qualität von Gemini 3.1 Flash TTS ist auf einem sehr hohen Niveau und für viele Anwendungsfälle gleichwertig mit ElevenLabs. Der große Vorteil liegt im Preis: Für dasselbe Budget bekommst du bei Google etwa 14-mal so viel Audio wie bei ElevenLabs. ElevenLabs hat Vorteile beim Voice Cloning und bei der emotionalen Tiefe einzelner Stimmen.

Google hat mit Gemini 3.1 die Sprachausgabe auf ein neues Level gehoben. In diesem Beitrag zeige ich dir, wie du die Stimmen konfigurierst, was sie kosten und wie du sie in einer eigenen App auf deinem Computer nutzt.

Inhaltsverzeichnis

Warum Gemini 3.1 Flash TTS ein Game-Changer ist
Preisvergleich: ElevenLabs vs. Google Gemini
Google AI Studio: Stimmen testen und konfigurieren
Audio-Tags: Stimmen wie ein Regisseur steuern
Eigene TTS-App bauen und lokal nutzen
KI-Stimmen 2026: Wo steht der Markt?
Prompt: Eigene TTS-App mit Gemini bauen
Häufige Fragen

Warum Gemini 3.1 Flash TTS ein Game-Changer ist

Bisher war ElevenLabs bei der KI-Stimmerzeugung das Maß aller Dinge. Die Stimmen klangen natürlich, die Steuerungsmöglichkeiten waren gut und das Voice Cloning setzte Maßstäbe. Doch mit Gemini 3.1 Flash TTS hat Google einen ernstzunehmenden Konkurrenten in den Ring geschickt, der vor allem in einem Punkt massiv punktet: beim Preis.

Gemini 3.1 Flash TTS bietet professionelle Sprachausgabe mit über 70 unterstützten Sprachen, einer enormen Auswahl an Stimmen und einem Steuerungssystem, das seinesgleichen sucht. Das Besondere: Über sogenannte Audio-Tags kannst du Emotionen, Betonungen und Sprechweisen direkt im Text steuern — mitten im Satz von sachlich zu begeistert wechseln.

      Auf den Punkt: Gemini 3.1 Flash TTS liefert professionelle KI-Stimmen mit feiner Steuerung — zu einem Bruchteil der Kosten von ElevenLabs. Du zahlst nur, was du nutzt, ohne festes Abo.
    

Preisvergleich: ElevenLabs vs. Google Gemini

Der Preisunterschied ist der zentrale Grund, warum sich der Wechsel lohnt. Als Grundlage nehme ich den ElevenLabs Creator Plan für 22 Dollar im Monat und rechne das gleiche Budget auf Google Gemini um.

Was bekommst du für $22?

Audio-Minuten im direkten Vergleich

Abo · feste Kosten

~120 Min.

ElevenLabs

Creator Plan · $22/Monat

Pay-as-you-go

~1.467 Min.

Google Gemini

Flash TTS API · nur Verbrauch

12x mehr Audio für dasselbe Geld

Kriterium	ElevenLabs Creator	Google Gemini Flash TTS
Preis	$22/Monat (Abo)	Pay-as-you-go, kein Abo
Minuten für $22	~120 Minuten	~1.467 Minuten
Kosten pro Minute	~$0,18	~$0,015
Sprachen	32 Sprachen	70+ Sprachen
Voice Cloning	Sehr gut (ab 60 Sek.)	Nicht verfügbar
Emotionssteuerung	Begrenzt	Audio-Tags (sehr fein)
Kostenlos testen	Free Plan (begrenzt)	AI Studio (kostenlos)
Ideal für	Voice Cloning, Creators	Hohe Volumina, App-Integration

Ein Hinweis zur Einordnung: ElevenLabs bleibt stark beim Voice Cloning und bei der emotionalen Tiefe einzelner Premium-Stimmen. Wenn du deine eigene Stimme klonen oder eine ganz bestimmte Klangfarbe brauchst, ist ElevenLabs nach wie vor eine sehr gute Wahl. Für die meisten Anwendungsfälle, bei denen es um Volumen, Flexibilität und Preis geht, hat Gemini aber die Nase vorn.

Google AI Studio: Stimmen testen und konfigurieren

Der Einstieg in Gemini TTS läuft über das Google AI Studio. Das ist eigentlich für Entwickler gedacht, kann aber von jedem genutzt werden, der über ein Google-Konto verfügt. Die Funktionen stehen kostenlos zur Verfügung — im Rahmen der vorhandenen Limits.

Im Playground findest du unter dem Menüpunkt «Speech and Music» die Option «Gemini Flash TTS». Dort bekommst du acht vorgefertigte Templates, mit denen du direkt verschiedene Spracheinstellungen anhören und testen kannst. Unterstützt wird das Ganze mit einem kleinen Video, das zeigt, wie stark diese Stimmen in der Kommunikation mit Bildern sind.

Deine Ausgabe wird von drei Faktoren beeinflusst: der Szene, den Regieanweisungen und dem Sprechertext selbst.

      Im Feld Szene legst du den Ort fest — zum Beispiel ein Studio oder eine große Halle. Das Modell passt die Klangqualität an diese Umgebung an.

      Im Bereich Regieanweisungen gibst du die allgemeine Stimmung und das Tempo vor. Du agierst hier wie ein Regisseur, der dem Sprecher erklärt, ob er gerade eine emotionale Geschichte oder eine sachliche Nachricht vorliest.

      Im Sprecherfeld schreibst du den eigentlichen Text und nutzt Audio-Tags, um Gefühle oder Betonungen direkt zu steuern.

Die Anzahl der verfügbaren Stimmen ist enorm. Über Filter kannst du Stimmen nach Eigenschaften vorsortieren und über den Play-Button vorab anhören. Über das Pluszeichen unter dem Textfeld fügst du weitere Sprecher hinzu und kannst so auch Konversationen entstehen lassen.

Audio-Tags: Stimmen wie ein Regisseur steuern

Ein zentrales Element zum Steuern der Stimmen sind die sogenannten Audio-Tags. In der Dokumentation von Google werden diese Steuerungstexte ausführlich beschrieben. Dort finden sich auch Beispiele, die du kopieren und direkt ausprobieren kannst — etwa ein Text, der von Dracula gesprochen wird.

Über das Zusammenspiel aus Szenen, Kontext, Sprechern und Audio-Tags kannst du dir wie in einem Baukastensystem deine Wunschstimme mit der gewünschten Ausgabeart zusammenstellen. Da muss man ein wenig experimentieren, bis man das gewünschte Ergebnis gefunden hat — aber die Möglichkeiten sind beeindruckend.

Audio-Tags ermöglichen es, innerhalb eines Satzes die Emotion zu wechseln. Das geht über das hinaus, was die meisten TTS-Systeme bieten, bei denen man eine Grundstimmung für den gesamten Text festlegt. Bei Gemini kannst du auf Wortebene steuern — von sachlich zu flüsternd, von ernst zu begeistert.

Eigene TTS-App bauen und lokal nutzen

Das Google AI Studio ist zum Experimentieren gedacht — der produktive Einsatz erfolgt über die API in einer eigenen App. Die Verbindung läuft über einen API-Schlüssel, den du in einem Google Cloud Projekt erstellst.

Für den API-Schlüssel brauchst du ein Projekt mit hinterlegtem Abrechnungskonto. Falls du bei Google noch keine Zahlungsdaten hinterlegt hast, kannst du das direkt im Setup erledigen. Nach der Erstellung kannst du den Schlüssel jederzeit kopieren und in deiner App verwenden.

Das Erstellen der App selbst ist überraschend einfach: Im Build-Bereich von Google AI Studio beschreibst du per Prompt, welche App du brauchst. Neu bei Google: Du erhältst Designvorschläge und kannst dir das Aussehen aussuchen, bevor die eigentliche Entwicklung startet. Danach siehst du links den Chat für Verbesserungen und rechts deine fertige App in der Vorschau.

Für die lokale Nutzung auf deinem Computer lädst du den Code als ZIP-Datei herunter, entpackst ihn in einen Ordner und trägst deinen API-Schlüssel in die .env-Datei ein. Danach kannst du die App direkt auf deinem Rechner starten — und hast ein Programm, mit dem du Texte in die unterschiedlichsten Stimmen umwandeln kannst.

      Tipp: Lass dir von der KI auch ein Startskript entwickeln, damit du die App mit einem einzigen Klick öffnen kannst — ohne jedes Mal die Kommandozeile zu öffnen.
    

KI-Stimmen 2026: Wo steht der Markt?

Der Markt für KI-generierte Stimmen wächst jährlich um über 15 Prozent. Was noch vor zwei Jahren nach Roboter klang, ist heute kaum noch von menschlichen Stimmen zu unterscheiden — zumindest bei sachlichen Inhalten wie Tutorials, Nachrichten oder Erklärungen.

Neben ElevenLabs und Google Gemini gibt es weitere interessante Anbieter. Inworld TTS-1.5 Max führt aktuell die Benchmarks mit der natürlichsten Prosodie an. Fish Audio bietet erstklassiges Voice Cloning auf Open-Source-Basis. Und Cartesia Sonic 3 liefert mit rund 90 Millisekunden die niedrigste Latenz — ideal für Echtzeitanwendungen wie Sprachassistenten.

Für die meisten Anwendungsfälle — Videos vertonen, Podcasts produzieren, Lerninhalte erstellen oder Apps mit Sprachausgabe bauen — hat Gemini 3.1 Flash TTS das beste Preis-Leistungs-Verhältnis. Die Qualität ist auf Profi-Niveau, die Kosten sind minimal und du brauchst kein Abo.

Ein Bereich, in dem ElevenLabs weiterhin stark ist, bleibt das Voice Cloning: Mit nur 60 Sekunden Audioaufnahme kannst du deine eigene Stimme klonen und als KI-Stimme nutzen. Google bietet dieses Feature bislang nicht an.

Prompt: Eigene TTS-App mit Gemini bauen

Diesen Prompt habe ich im Video verwendet, um im Build-Bereich von Google AI Studio die TTS-App zu erstellen. Du kannst ihn direkt kopieren und an deine Bedürfnisse anpassen. Er erzeugt eine vollständige React-Web-App mit Stimmenauswahl, Audio-Tags, Vorschau-Funktion und WAV-Export.

PROMPT — Gemini TTS Studio Deluxe Text markieren & kopieren

Rolle: Senior Full-Stack Entwickler & UX-Designer Aufgabe: Erstelle eine interaktive React-Web-App (TypeScript + Vite) für "Gemini TTS Studio Deluxe". Ich möchte eine professionelle Text-to-Speech Web-Anwendung bauen, die auf dem gemini-3.1-flash-tts-preview Modell der Gemini SDK (@google/genai) basiert. Das Design soll extrem aufgeräumt, hell ("Clean Minimalism Theme", schwarzer Header #202124, linker grauer Sidebar bg-gray-50, Hauptbereich bg-gray-100) und im Card-Layout mit Tailwind CSS umgesetzt sein. Kern-Features & Logik: 1. Layout, Sprache & Design (Clean Minimalism Theme): • Layout: Ein Fixed-Header oben, links eine 288px (w-72) breite Sidebar für Einstellungen/Kontext, rechts ein großer scrollbarer Hauptbereich für den Editor. • UI-Sprache: Alle Buttons, Labels und Benutzeroberflächen-Texte MÜSSEN zwingend auf Deutsch sein. • UI-Styling: Tailwind CSS, font-sans, feine Ränder, abgerundete Ecken (rounded-lg). Schlichtes und professionelles Erscheinungsbild (viel Weiß, dezentes Grau für Boxen, blaue Akzente für Buttons). 2. Header & Speicherung (Oben): • Logo & Titel: "Gemini TTS Studio Deluxe". • Dropdown zum Laden von Kontexten und ein Button "Alles speichern" oben rechts. • Beim Klick auf "Alles speichern" lese den String aus dem Feld "Szenenname..." (aus der Sidebar) aus. Ist dieses leer, generiere als Fallback einen Namen wie z.B. "Szenario (16:35 Uhr)". Speichere alle Daten (Blöcke, Szenen-Texte, Wörterbuch) als JSON im localStorage unter diesem Namen. • Visuelles Feedback: Nach dem Klick auf Speichern soll der blaue Header-Button für 2 Sekunden grün werden (Klasse bg-green-600) und den Text "Gespeichert!" anzeigen. 3. Sidebar Panel (Links): • Falls der process.env.GEMINI_API_KEY fehlt, zeige prominent eine rote Warnung: "API-Key fehlt". • "Globaler Kontext": Eingabefeld für "Szenenname..." (wird als Speichername verwendet!), eine Textarea (rows={3}) für "Allgemeine Stimmung..." und ein Feld für den "Tonfall:" (z.B. flüsternd). Der globale Tonfall soll automatisch im Format [Tone: <Tonfall>] in jeden TTS-Request vor den eigentlichen Text eingefügt werden. • "Aussprache" (Pronunciation Dictionary): Eine Tabelle/Liste, in der man Wort-Ersatz hinterlegen kann (z.B. aus "KI" wird "Kah-Ih"). Dies wird per einfachem Regex (.replace) verarbeitet, BEVOR der Text an die Gemini-API gesendet wird. 4. Dynamische Sprachblöcke (Rechter Hauptbereich): • Oben rechts Infos: Charakteranzahl ("Zeichen") und Kostenschätzung ("~$0.00"). • Ein Dashboard gestapelter Cards ("Sprachblöcke"). Jeder Block hat: – Eine Blocknummer (z.B. "#01"). – Dropdown für 9 Stimmen: 'Zephyr', 'Puck', 'Charon', 'Kore', 'Fenrir', 'Aoede', 'Oria', 'Saga', 'Niall'. – "Up" und "Down" Pfeilbuttons sowie ein "Löschen" (Mülleimer) Button. – Textarea für den Text (mindestens min-h-[160px], resize-y). – Tag-Buttons: Quick-Insert für [amused], [laughs], [whispered], [pause: 1s]. – "Auto-Tag"-Button ("Generiere..."): Befragt gemini-3-flash-preview und fügt passende Tags automatisch ein. 5. Audio-Playback & Stopp-Taste (In jedem Sprachblock): • Ein Button "Vorschau" pro Block, der gemini-3.1-flash-tts-preview aufruft (Modality AUDIO). • Audio (Base64) wird im Web Audio API (AudioContext) wiedergegeben. Puffer wird gecacht, um bei unverändertem Text nicht nochmal die API zu befragen. • Stopp-Logik: Beim Abspielen verwandelt sich der blaue Button in einen roten "Stoppen" Button mit Quadrat-Icon (Square von lucide-react). Klick stoppt sofort via audioSource.stop(). 6. Floating Export Bar (Unten zentriert): • Button "Komplette WAV generieren & exportieren". • Iteriert über alle Blöcke, generiert fehlende Audio-Puffer, fügt alle AudioBuffer nahtlos zusammen und exportiert als Gemini_TTS_Full.wav. • Während des Exports Buttons ausgrauen ("Verarbeite alle Blöcke..."). 7. Fusszeile (Unten fixiert): • Status ("Bereit" oder "Exportiere..."), "Gemini 3.1 Flash TTS" und Counter ("XX/XX generiert"). Bitte setze den gesamten Code extrem robust in einer einzigen App.tsx (TypeScript) um. Stelle sicher, dass die @google/genai Bibliothek mit Modality.AUDIO korrekt für TTS-Aufrufe verwendet wird.

      Tipp: Du kannst den Prompt an deine Bedürfnisse anpassen — zum Beispiel andere Stimmen auswählen, das Farbschema ändern oder zusätzliche Audio-Tags hinzufügen. Der Prompt funktioniert sowohl im Build-Bereich von Google AI Studio als auch in anderen KI-Coding-Tools.
    

Häufige Fragen zu KI-Stimmen und Gemini TTS

Was kostet Google Gemini 3.1 Flash TTS?

Im Standard-Tarif ca. 0,015 $ pro Minute Audio-Output. Es gibt kein Abo — du zahlst nur, was du tatsächlich verbrauchst. Zum Vergleich: ElevenLabs kostet im Creator Plan (22 $/Monat) ca. 0,18 $ pro Minute.

Ist Google Gemini TTS besser als ElevenLabs?

Für die meisten Anwendungsfälle mit hohem Volumen ja — die Qualität ist gleichwertig bei einem Bruchteil der Kosten. ElevenLabs hat Vorteile beim Voice Cloning und bei der emotionalen Tiefe einzelner Premium-Stimmen.

Kann ich Google Gemini TTS kostenlos nutzen?

Ja, im Google AI Studio kannst du die Stimmen kostenlos testen. Für den produktiven Einsatz über die API fallen Kosten pro Token an — es gibt aber auch ein kostenloses Free-Tier mit begrenzten Anfragen.

Was sind Audio-Tags bei Gemini TTS?

Audio-Tags sind Steuerungsbefehle in eckigen Klammern, mit denen du Gefühle, Betonungen und Sprechweisen direkt im Text steuern kannst. So kannst du mitten im Satz von sachlich zu begeistert wechseln — auf Wortebene.

Brauche ich Programmierkenntnisse für die eigene TTS-App?

Nein. Im Build-Bereich von Google AI Studio beschreibst du per Prompt, was deine App können soll. Die KI erstellt den Code automatisch. Du lädst ihn als ZIP herunter und startest ihn lokal auf deinem Computer.