

Deep Dive 191 – Text-to-Speech mit Thorsten Müller
Sep 16, 2025
Thorsten Müller, der kreative Kopf hinter Thorsten-Voice, einem Open-Source-Projekt für lokale Sprachsynthese, spricht über die faszinierende Welt der Text-to-Speech-Technologien. Er erklärt, wie Computer lernen zu sprechen und die Herausforderungen des Voice Clonings. Thorsten teilt Einblicke in die Entwicklung seiner eigenen Stimme und die Bedeutung von Wasserzeichen in Audioaufnahmen. Außerdem werden kreative Anwendungen der Sprachsynthese, besonders im Podcasting, sowie die Entwicklung von mehrsprachigen Modellen thematisiert.
AI Snips
Chapters
Transcript
Episode notes
Frühe Faszination Und Fehlgeschlagene Versuche
- Thorsten erzählt, wie seine frühe Faszination für Sprachsteuerung aus Science-Fiction kam.
- Er startete schon in den 90ern mit Experimenten, scheiterte damals aber an fehlender Technik und Daten.
Daten Und Rechenleistung Ermöglichen TTS
- Thorsten betont, dass neuronale Netze, Rechenleistung und große Trainingsdaten das Text-to-Speech erst ermöglichten.
- Ohne ausreichend Trainingsdaten wären moderne KI-Stimmen nicht praktikabel.
Nutze Lokale TTS Für Datenschutz
- Vermeide komplett cloudbasierte Sprachverarbeitung, wenn Datenschutz wichtig ist.
- Betreibe Sprachassistenten lokal, damit Daten im eigenen Netzwerk bleiben.