Jak Umělá Inteligence Funguje: Rozpoznávání řeči - Alternativní Pohled

Video: Jak Umělá Inteligence Funguje: Rozpoznávání řeči - Alternativní Pohled

Video: Как работает блокчейн? Простое объяснение 2024, Září

2024 Autor: Keith Bush | [email protected]. Naposledy změněno: 2023-12-16 14:06

Každý z nás čelí tak záhadnému fenoménu, jako je umělá inteligence v každodenním životě - je to on, kdo umožňuje hlasovým asistentům a vyhledávacím strojům rozpoznávat lidskou řeč a hádat touhy uživatelů. Dnes budeme hovořit o tom, jak přesně je tato technologie uspořádána a jaké vyhlídky na tuto oblast rozvoje čekají v blízké budoucnosti.

Umělá inteligence je velmi široký pojem, v rámci kterého již existuje mnoho algoritmů, které se stále vyvíjejí, určené k provádění široké škály praktických úkolů. K čemu jsou však programy umělé inteligence ve skutečnosti moderní a jaké principy se při jejich práci řídí? Dnes budeme hovořit o jedné z klíčových vlastností strojové mysli, s níž se každý z nás pravidelně setkává v každodenním životě - schopnosti hlasových asistentů rozpoznávat lidskou řeč.

Hlasové rozpoznávání

Pro měření hlasu používá program řadu zvukových parametrů: frekvenci a délku zvukové vlny v určitém časovém bodě. Například, když chatujete s populárním hlasovým asistentem Alexou, software rozdělí váš hlas na 25 milisekundových snímků a poté převede každý ze segmentů na digitální podpisy. Poté jsou bloky podpisů porovnány s interním katalogem zvuků programu, dokud není počet zápasů dostatečně vysoký, aby umělá inteligence „přeložila“čísla do abecedního dotazu, kterému rozumí.

Při používání Siri nebo Google Assistant sledujte obrazovku telefonu a uvidíte, jak se při vyslovování slov mění slovník. To se děje kvůli skutečnosti, že s každým dalším „krokem“software také porovná získaný výsledek s interní databází a sestavuje slova v závislosti na shodách. Podle Rohita Prasada, hlavního vědce Amazonské divize Alexa, „jazykový model se učí mnoho miliard slov ve formě textu“. Důležitou roli hraje také pořadí slov: to lze také zaznamenat pomocí obvyklého vyhledávače Google, který někdy poskytuje různá data pro identické dotazy, ve kterých bylo přeskupeno pouze několik slov.

Propagační video:

Perspektivy rozpoznávání řeči

Alan Black z Carnegie Institute for Language Technology tvrdí, že pro všechny profesionály ve velkých společnostech je nejzajímavější najít limit jejich vlastního systému. "Když program řekne:" Nemohu to udělat, "pak se situace stane opravdu zajímavou," vtipkuje. To je však pravda: odpověď na nepředvídatelné požadavky uživatelů je dokonce jedním z hlavních úkolů, které studentské kruhy, které soutěží o cenu Alexa - a to je neuvěřitelných 2,5 milionu dolarů - vyšetřují. Jejich úkolem je vytvořit chatbot navržený pro komunikaci s lidmi, kteří kladou konzistentní a smysluplné otázky. Informace jsou v tomto případě aktualizovány každých 20 minut. Zní to jako docela snadný úkol i pro průměrného programátora,ale v praxi je komunikace programu se skutečnými lidmi vždy spojena s odchylkami od tématu dialogu, spontánních frází a jiných porušení. Program, který se učí pracovat s nimi i skutečný člověk, bude velkým průlomem pro celé odvětví AI.

Vasily Makarov