Neuronová Síť Se Naučila Kopírovat Lidský Hlas Téměř Dokonale - Alternativní Pohled

Obsah:

Neuronová Síť Se Naučila Kopírovat Lidský Hlas Téměř Dokonale - Alternativní Pohled
Neuronová Síť Se Naučila Kopírovat Lidský Hlas Téměř Dokonale - Alternativní Pohled

Video: Neuronová Síť Se Naučila Kopírovat Lidský Hlas Téměř Dokonale - Alternativní Pohled

Video: Neuronová Síť Se Naučila Kopírovat Lidský Hlas Téměř Dokonale - Alternativní Pohled
Video: 🔴ZARA/👉НОВАЯ КОЛЛЕКЦИЯ ЗИМА 2020-2021/ШОПИНГ ВЛОГ/СУМКИ/БИЖУТЕРИЯ/ 2024, Březen
Anonim

V loňském roce společnost DeepMind pro technologii umělé inteligence sdílela podrobnosti o svém novém projektu WaveNet, hluboké učení neuronové sítě používané k syntéze realistické lidské řeči. Nedávno byla vydána vylepšená verze této technologie, která bude použita jako základ digitálního mobilního asistenta Google Assistant.

Systém syntézy hlasu (známý také jako funkce převodu textu na řeč, TTS) je obvykle postaven na jedné ze dvou základních metod. Metoda zřetězení (nebo kompilace) zahrnuje konstrukci frází shromažďováním jednotlivých kusů zaznamenaných slov a částí dříve zaznamenaných za účasti hlasového herce. Hlavní nevýhodou této metody je nutnost neustálého nahrazování zvukové knihovny při každé aktualizaci nebo změně.

Jiná metoda se nazývá parametrická TTS a její funkcí je použití sad parametrů, pomocí kterých počítač vygeneruje požadovanou frázi. Nevýhodou metody je to, že se výsledek nejčastěji projevuje ve formě nerealistického nebo tzv. Robotického zvuku.

WaveNet, na druhé straně, produkuje zvukové vlny od nuly pomocí konvolučního systému neuronových sítí, kde je zvuk generován v několika vrstvách. Za prvé, trénovat platformu pro syntézu „živé“řeči, je „nakrmeno“obrovským množstvím vzorků, přičemž je třeba poznamenat, které zvukové signály zní realisticky a které nikoli. To dává hlasovému syntetizátoru schopnost reprodukovat naturalistickou intonaci a dokonce i detaily, jako jsou facky rtů. V závislosti na tom, jaké vzorky řeči se systémem procházejí, to umožňuje vyvinout jedinečný „přízvuk“, který lze v dlouhodobém horizontu použít k vytvoření mnoha různých hlasů.

Ostře na jazyku

Snad největším omezením systému WaveNet bylo to, že vyžadovalo spuštění obrovského množství výpočetního výkonu, ai když byla tato podmínka splněna, nelišila se v rychlosti. Například generování zvuku 0,02 sekundy trvalo přibližně 1 sekundu.

Po roce práce inženýři společnosti DeepMind stále našli způsob, jak vylepšit a optimalizovat systém tak, aby byl nyní schopen produkovat surový zvuk jedné sekundy za pouhých 50 milisekund, což je 1000krát rychlejší než původní schopnosti. Odborníkům se navíc podařilo zvýšit vzorkovací frekvenci zvuku z 8-bit na 16-bit, což mělo pozitivní vliv na testy zahrnující posluchače. Tyto úspěchy vydláždily cestu WaveNet k integraci do spotřebitelských produktů, jako je Google Assistant.

Propagační video:

V současné době lze WaveNet použít k generování anglických a japonských hlasů prostřednictvím Google Assistant a všech platforem, které používají tohoto digitálního asistenta. Protože systém může vytvořit zvláštní typ hlasů, v závislosti na tom, jaká sada vzorků mu byla poskytnuta pro výcvik, Google v nejbližší době s největší pravděpodobností zavede podporu pro syntézu realistické řeči ve WaveNet v jiných jazycích, včetně jejich zohlednění. místní dialekty.

Rozhraní řeči se stávají stále běžnější na široké škále platforem, ale jejich výrazná nepřirozená povaha zvuku vypíná mnoho potenciálních uživatelů. Úsilí DeepMindu o zdokonalení této technologie jistě přispěje k širšímu přijetí takových hlasových systémů, jakož i ke zlepšení uživatelského dojmu z jejich používání.

Příklady anglické a japonské syntetizované řeči využívající neuronovou síť WaveNet lze nalézt pomocí tohoto odkazu.

Nikolay Khizhnyak