Voice Replication

Voice Replication ermöglicht die Erstellung einer synthetischen Stimme auf Basis der Aussprache einer echten Person. Voice Replication wird durch fortschrittliche KI-Modelle ermöglicht und gehört damit zur Sprachverarbeitungs-technologie.

Training

Damit eine Stimme möglichst gut repliziert werden kann, sind ausreichend Trainingsdaten nötig. Trainingsdaten umfassen die Sprache einer natürlichen Person — also Sprachaufnahmen. Umso mehr Aufnahmen zur Verfügung stehen, desto echter lässt sich eine synthetischen Stimme generieren.

Vertonung von Filmen und Synchronisation

Voice Replication kann die Vertonung von Filmen sowie die Synchronisation erheblich vereinfachen und einen Großteil davon komplett automatisieren. Zur Vertonung ist dann lediglich noch ein Script nötig, welches dem KI-Modell übergeben wird. Durch diese Technologie wurde die Stimme verstorbener Künstler wieder zum Leben erweckt um Filme zu vertonen oder Musik zu produzieren.

Voice-as-a-Service

Zukünftig wird es deutlich einfacher auf eine riesige Sammlung vielfältiger Stimmen zurück zugreifen um Videos, Podcast, Radiobeiträge oder Filme zu vertonen. Neben der großen Auswahl bedarf es dann lediglich Software bzw. KI-Modelle um in kürzester Zeit sogar stundenlange Medien zu vertonen.

Voice Replication bei Stimmverlust

Voice Replication hat auch eine wichtige Bedeutung in der Medizin: Patienten mit amyotrophen Lateralsklerose (ALS) oder anderen Erkrankungen können ihre Stimme synthetisieren, bevor sie einen kompletten Stimmverlust erleiden. Die synthetisierte Stimme können sie dann in der alltäglichen Kommunikation nutzen. Dazu bieten moderne Smartphones die Funktion Live-Speech-Text-to-Speech-Funktion (TTS).

Eigene Stimme auf iPhone, iPad und Mac

Apple erlaubt die Erstellung einer synthetischen Stimme seit iOS 17 und macOS Sonoma. Hierzu muss der Nutzer in einem Trainingsprozess 150 vorgegebene Sätze diktieren. Nach dem Training wird auf dem Gerät eine synthetische Stimme generiert. Etwa einen Tag später ist die synthetische Stimme für Text-to-Speech (TTS) nutzbar.

Deep Fakes

Voice Replication ist ein wichtiger Bestandteil von Deep Fakes mit der scheinbar realistische Bilder, Audios und Videos erstellt werden. Leider werden Deep Fakes auch für betrügerische Zwecke genutzt oder um politisch Einfluss zu nehmen. Wir unterstützen die Nutzung von Voice Replication lediglich für legale und ethisch vertretbare Anwendungsfälle.