TENIOS Blog

Google Cloud Speech – Die neuesten Updates, und: Was ist eigentlich WaveNet?

Posted by TENIOS BLOG on 05.09.18 09:00
Find me on:

 

Google Cloud API Titelbild

Die Weiterentwicklung KI-basierter Sprachdienste steht nicht still: Erst vergangene Woche hat Google die neuesten Erweiterungen seiner Speech Services vorgestellt. Und die können sich sehen lassen: Neben neuen Sprachen, die für die Text-to-Speech (TTS) Sprachausgabe bereitstehen und Zusatzfunktionen im Bereich Speech-to-Text, arbeitet Google u.a. an individuellen Audioprofilen, welche das jeweilige Ausgabegerät berücksichtigen. 

Wie diese Profile auch den telefonischen Kundenservice optimieren können und was hinter der WaveNet-Technologie steckt, erfahren Sie in diesem Artikel.  


________________________________________________________________________________________________________________

Google wird 20-1Happy birthday, Google!

Google wird 20: Gegründet als Suchmaschine in einer Garage im Silicon Valley, vereint das Unternehmen heute Portale wie YouTube, das Android-Betriebssystem für Smartphones sowie Cloud-Dienste unter einem Dach.
_______________________________________________________________________________________________________________



Text-to-Speech: Mehr Stimmen auf Basis von WaveNet

Das Sprachangebot von Google Cloud Text-to-Speech zählt nun 14 Sprachen. Innerhalb dieser Sprachen steht eine Vielzahl an Stimmvarianten – z.B. männlich oder weiblich – zur Verfügung: 30 Standard-Stimmen und 26 WaveNet-Stimmen. Doch was ist eigentlich WaveNet?
WaveNet gehört zu Google DeepMind und ist eine Technologie, die auf maschinellem Lernen beruht. Sie bildet die Basis für Google Assistant, Google Search und Google Translate. Ein künstliches neuronales Netz optimiert die herkömmliche Sprachsynthese, indem es die Feinheiten der menschlichen Sprache, wie die richtige Betonung oder das Einfügen von Sprechpausen, berücksichtigt: Die Sprache wirkt natürlicher. Mit seinem aktuellen Update stellt Google gleich 17 neue WaveNet-Stimmen bereit.

Statistik Wavenet

Sprachsynthese-Methoden im Vergleich: WaveNet kommt der menschlichen Sprache am nächsten  (Quelle: GoogleCloud)

 

Audioprofile: Für jedes Gerät der passende Ton

Unterschiedliche Ausgabegeräte stellen unterschiedliche Anforderungen an die Sprachausgabe. Auf diese hat Google nun reagiert und die Beta-Version seiner Audioprofile vorgestellt: Anhand dieser Profile lässt sich beispielsweise die Ausgabe über einen Lautsprecher anders einstellen als die Ausgabe via Kopfhörer. Besonders interessant für Call Center: Auch der Output von Text-to-Speech Ansagen über das Telefon lässt sich verbessern. So kann das System für eine optimale Übertragung des Sprachsignals bestimmte Bereiche verstärken, während nicht hörbare Sequenzen herausgefiltert werden.

 

Speech-to-Text: Von Sprecherprofilen bis zur automatischen Spracherkennung

In Bezug auf die Umwandlung von Sprache in Text gibt es ebenfalls Neuerungen: Das Spracherkennungssystem wurde um die sogenannte Multichannel Recognition erweitert. Diese ermöglicht die Identifikation verschiedener Sprecher innerhalb eines Gesprächs und die Zuordnung der gesprochenen Sätze. Gesprächsverläufe können somit deutlich übersichtlicher ausgegeben werden.

Google API Multichannel Recognition

Sprecherprofile: Textpassagen werden direkt den einzelnen Sprechern zugeordnet (Quelle: GoogleCloud)

Zusätzlich ist nun die automatische Erkennung der jeweiligen Sprache möglich: Entwickler können via Speech-to-Text API bis zu vier Sprachen auswählen und das System erkennt welche Sprache gesprochen wurde. Mit Hilfe von Confidence Scores soll weiterhin die Zuverlässigkeit der Worterkennung bewertet werden.

 

Wie der telefonische Customer Service profitiert

Durch offene Schnittstellen, können Googles Cloud-Dienste von Entwicklern für Eigenanwendungen genutzt werden. Auch TENIOS nutzt die Google APIs, um seine Cloud Communications Features zu erweitern. Die KI-basierten Sprachfunktionen wie die Umwandlung von Text in Sprache oder auch die automatische Erkennung gesprochener Sprache – Automatic-Speech-Recognition (ASR) –, bieten im Bereich der telefonischen Kundenkommunikation enormes Potenzial und verbessern die Customer Experience (CX). Bequeme Sprachsteuerung ersetzt umständliches Tippen und macht den Anruf im Contact Center für Kunden zum optimalen Anruferlebnis. Ein breites Sprachangebot schließt dabei auch internationale Kundenanfragen ein.

 

Sie möchten Ihre Hotline upgraden?

Überzeugen Sie sich jetzt vom vielfältigen Angebot von TENIOS und steigern Sie die Zufriedenheit Ihrer Kunden. Wir stellen Ihnen gerne eine unverbindliche Testversion inklusive unserer KI-basierten Sprachtools zur Verfügung.

Text-to-Speech TTS Tenios

 

Topics: kundenservice, call-center, TTS Service, automatic-speech-recognition, ASR, Künstliche Intelligenz, AI, Artificial Intelligence, KI, Sprachassistent, Voice API, Speech API, contact center, text to speech