Smartphones

Goog­le Assi­stant: Neue Stim­me klingt in Tests wie ein Mensch

Die Stimme des Google Assistant könnte bald nicht mehr von einer menschlichen Stimme zu unterscheiden sein.

Die Stim­me des Goog­le Assi­stant könn­te in Zukunft genau wie ein ech­ter Mensch klin­gen. Das bele­gen Sprach­sam­ples einer neu­en Soft­ware, die auf ein neura­les Netz­werk setzt. Taco­tron 2 – so der Name – liest ein­ge­ge­be­nen Text vor und passt die Beto­nung kor­rekt an.

Stimm­bei­spie­le von Taco­tron 2 fin­den sich auf Goo­g­les Pro­jekt­sei­te, wobei die Ent­wick­ler dar­auf hin­wei­sen, dass die Soft­ware nicht spe­zi­ell auf die Sät­ze trai­niert wur­de. So ist der Algo­rith­mus etwa in der Lage, auch kom­pli­zier­tes Fach­vo­ka­bu­lar natür­lich wie­der­zu­ge­ben. Die eng­li­sche Phra­se “Basi­lar mem­bra­ne and oto­la­ryn­go­lo­gy are not auto-cor­re­la­ti­ons” (“Basilar­mem­bran und Ohren­heil­kun­de sind kei­ne Auto­kor­re­la­tio­nen”) dürf­te dabei sogar so man­chem Mut­ter­sprach­ler Pro­ble­me bereiten.

Aus­spra­che und Beto­nung passt sich indi­vi­du­el­len Sät­zen an

Taco­tron 2 kann die rich­ti­ge Aus­spra­che aus der Satz­stel­lung ablei­ten, auch wenn die Schreib­wei­se gleich ist. Die eng­li­sche Spra­che ist vol­ler sol­cher Fall­stri­cke. Den Bei­spiel­satz “Don’t desert me here in the desert!” (“Lass mich nicht hier in der Wüs­te zurück!”) meis­tert das Pro­gramm aber offen­bar mühe­los und erkennt, dass es sich beim ers­ten “desert” um ein verb han­delt und beim zwei­ten um ein Sub­stan­tiv. Das glei­che gilt für “He thought it was time to pre­sent the pre­sent” (“Er glaub­te es war Zeit, das Geschenk zu überreichen”).

Klei­ne­re Recht­schreib­feh­ler gleicht Taco­tron 2 eben­falls aus. “Thisss isrea­ly awh­so­me.” spricht das Pro­gramm kor­rekt aus als stün­de dort “This is real­ly awe­so­me.” (“Das ist wirk­lich groß­ar­tig.”). Die Aus­spra­che passt sich zudem an vor­han­de­ne Kom­ma­ta an. “This is your per­so­nal assi­stant, Goog­le Home” klingt anders als “This is your per­so­nal assi­stant Goog­le Home” – so wie es auch ein Mensch beto­nen wür­de. Ist ein Wort gefet­tet, hebt es Taco­tron 2 es mit einer stär­ke­ren Beto­nung hervor.

Kei­ne Pro­ble­me mit Zungenbrechern

Die KI hebt ihre Stim­me am Ende von Fra­ge­sät­zen auf die kor­rek­te Wei­se, und zwar auch dann, wenn sich der Fra­ge­satz nur durch ein Inter­ro­ga­tiv­pro­no­men, einer ange­pass­ten Verb­form und ein Fra­ge­zei­chen am Ende von einem Aus­sa­ge­satz unter­schei­det. So etwa in “The quick brown fox jumps over the lazy dog” (“Der flin­ke brau­ne Fuchs springt über den fau­len Hund”) und “Does the quick brown fox jump over the lazy dog?” (“Springt der flin­ke brau­ne Fuchs über den fau­len Hund?”).

Zun­gen­bre­cher meis­tert Taco­tron ohne Schwie­rig­kei­ten, so etwa “Peter Piper picked a peck of pick­led pep­pers. How many pick­led pep­pers did Peter Piper pick?”, qua­si das eng­li­sche Pen­dant zu “Fischers Frit­ze fischt fri­sche Fische”. Um zu demons­trie­ren, wie mensch­lich die Aus­spra­che ist, fin­den sich ganz unten auf der Sei­te meh­re­re iden­ti­sche Sät­ze: Eine Ver­si­on stammt von Taco­tron 2, die ande­re von einem Men­schen. Viel Spaß beim Heraushören.

Time to share:  Falls dir dieser Artikel gefallen hat, freuen wir uns!