Umělá Inteligence Se Naučila Správně Rozpoznávat řeč Mezi šumem - Alternativní Pohled

Umělá Inteligence Se Naučila Správně Rozpoznávat řeč Mezi šumem - Alternativní Pohled
Umělá Inteligence Se Naučila Správně Rozpoznávat řeč Mezi šumem - Alternativní Pohled

Video: Umělá Inteligence Se Naučila Správně Rozpoznávat řeč Mezi šumem - Alternativní Pohled

Video: Umělá Inteligence Se Naučila Správně Rozpoznávat řeč Mezi šumem - Alternativní Pohled
Video: Tomáš Mikolov - Umělá Inteligence a Výzkum 2024, Smět
Anonim

Virtuální asistenti a systémy rozpoznávání hlasu se naučili „rozpoznávat“to, co jim někdo říká, a řídit se jeho příkazy. Ale pro správnou funkci stejných Siri a Cortana může být cizí hluk velkým problémem. Odborníci z Mitsubishi Electric mohou pomoci vyrovnat se s touto technickou vadou, která představila novou technologii pro oddělení řeči jedné osoby od obecného hluku.

Technologie japonské společnosti se nazývá Deep Clustering, jejíž fungování je založeno na principech strojového učení. Na začátku se umělá inteligence naučila samostatně oddělit řeč jedné osoby od obecného proudu různých zvuků a zvuků. Neuronová síť rozděluje příchozí audio data na různé prvky a analyzuje každý zvlášť, po kterém může již zpracovat lidský hlas. Podobná práce je pozorována, když jsou dva nebo více účastníků „propojeni“.

Během demonstrace technologie od japonské společnosti byl systém schopen úspěšně oddělit řeč dvou lidí mluvících stejnou větou v různých jazycích do jednoho mikrofonu. Veškeré zpracování bylo provedeno v reálném čase a zpoždění nepřekročilo tři sekundy. Přesnost rozpoznávání byla 90 procent a když tři lidé začali mluvit do mikrofonu, procento „zásahů“kleslo na 80, což je také dobrý výsledek. Podle autorů projektu Anthony Vetro a Yohei Okato, „Na rozdíl od oddělování řeči od zvuků na pozadí je oddělování řeči jedné osoby od„ hlasového “hluku lidí, kteří mluví současně, velmi obtížný úkol, protože zvuky hlasu různých lidí mají mnoho zvláštností. Ve většině systémů je problém s oddělením hlasu vyřešen instalací dvou nebo více mikrofonů, ale v případě použití pouze jednoho mikrofonu může umělou inteligenci zvládnout pouze umělá inteligence. Tuto technologii lze použít všude tam, kde je vyžadována vysoká přesnost rozpoznávání hlasových zpráv. Například v systémech hlasového ovládání pro automobily, výtahy, domácí a jiná elektronická zařízení. ““

VLADIMIR KUZNETSOV