Azure právě dramaticky zlepšil svou mluvenou češtinu aneb od Jakuba k Vlastičce

Je to měsíc co jsem vyzkoušel podporu češtiny pro převod mluveného slova na text (speech-to-text) a byl jsem příjemně překvapen přesností a kvalitou. Současně jsem otestoval obrácený směr, tedy syntézu řeči. Microsoft používal pouze standardní model, ale Jakub na rozdíl od paní z Google podle mě lépe pracoval s rytmem řeči a intonací ve větách. Ale Kuba neměl pod sebou hluboký neurální model, tak zněl dost jako robot. O měsíc později ale shodou okolností Microsoft rozšířil podporu jazyků pro text-to-speech s neurálním modelem a kromě Jakuba přišla Vlasta. Podle mého ucha zní naprosto úžasně, co myslíte vy?

Nejprve jsem si v Azure založil Speech objekt.

Následně na stránce speech.microsoft.com můžu použít GUI. To slouží primárně pro pokročilé metody, které pro češtinu k dispozici nejsou. Jedná se o možnost vytvářet vlastní hlasové tóny a spousta další pozoruhodných věcí, na které se podívám někdy příště. Já použiji sekci Audio Content Creation.

Takhle vypadá text pro Jakuba, standardní model.

A takhle Vlastička.

Totéž jsem udělal v Google.

Tady jsou odkazy na výsledné soubory se načteným textem, který jsem jim připravil.

Jakub (Microsoft, starší model): mp3

Vlasta (Microsoft, neurální model): mp3

Google (neurální model): mp3

Mimochodem - neurální model má i Viktoria, Slovenská kolegyně, takže dnes už i tento jazyk funguje obousměrně! Více o podpoře jazyků najdete tady.

Za mě tedy Vlasta jednoznačně nejlepší - co myslíte vy?



Je open source počítačové vidění typu YOLO dost dobré? A jak ho rozjet v Azure? Část 4: výkon, zabalení a servírování přes API AI
Open source velký jazykový model v Azure - vyzkoušejme Meta Llama 2 v Azure ML AI
Je open source počítačové vidění typu YOLO dost dobré? A jak ho rozjet v Azure? Část 3: vlastní model, přitrénování vs. přetrénování AI
Je open source počítačové vidění typu YOLO dost dobré? A jak ho rozjet v Azure? Část 2: finetuning vlastními obrázky AI
Když AI trénuje AI: Jak GPT učí rybařit lamu (LLaMa) v projektech Alpaca, Vicun nebo Orca od Microsoftu? AI