Kdy Umělá Inteligence Začne Hlasovat Sérii - Alternativní Pohled

Obsah:

Kdy Umělá Inteligence Začne Hlasovat Sérii - Alternativní Pohled
Kdy Umělá Inteligence Začne Hlasovat Sérii - Alternativní Pohled

Video: Kdy Umělá Inteligence Začne Hlasovat Sérii - Alternativní Pohled

Video: Kdy Umělá Inteligence Začne Hlasovat Sérii - Alternativní Pohled
Video: Elon Musk - Hrozba umělé inteligence CZ Titulky -VK- 2024, Duben
Anonim

Ruští vydavatelé již experimentují se strojovým nahráváním zvukových knih, v budoucnu může být umělá inteligence svěřena překládáním seriálů a dabováním je hlasy jejich oblíbených herců. O funkcích takových technologií a o tom, jak dlouho bude trvat jejich vytvoření.

Ústní projev se zapíše

Na YouTube jsou automatické titulky pro videa vytvářeny pomocí softwaru pro rozpoznávání hlasu a převodu řeči na text. Je založen na samoučících se neuronových sítích. Tato možnost je stará více než deset let, ale výsledek není zdaleka ideální. Častěji než ne, můžete zachytit pouze obecný význam toho, co bylo řečeno. Jaký je problém?

Řekněme, že Andrey Filchenkov, vedoucí laboratoře Machine Learning na ITMO University, budujeme algoritmus pro rozpoznávání řeči. To vyžaduje zaškolení neuronové sítě na velkém datovém poli.

Bude to trvat stovky, tisíce hodin nahrávání řeči a jejich správné srovnání s texty, včetně označení začátku a konce frází, změny účastníků atd. Tomu se říká příloha. Čím je větší, tím lepší je trénink neuronové sítě. Pro anglický jazyk byly vytvořeny opravdu velké korpusy, takže rozpoznávání je mnohem lepší. Ale pro ruštinu nebo, řekněme, španělštinu, existuje mnohem méně dat a pro mnoho dalších jazyků neexistují vůbec žádná data.

"A výsledek je vhodný," uzavírá vědec.

„Kromě toho hodnotíme význam slova, fráze ve filmu nejen zvukem, intonace herce a jeho výrazy obličeje jsou také důležité. Jak to interpretujete? “- doplňuje Sergej Aksenov, docent Katedry informačních technologií Tomskovy polytechnické univerzity.

Propagační video:

"Jak zvládnout vlastnosti plynulé řeči?" Fuzzy artikulace, skica, interjekce, pauzy? Koneckonců, v závislosti na tom, se význam mění, jako v „nemůžete být prominutí“. Jak naučit stroj určit, kde má řečník čárku? A v poezii? “- uvádí Marina Bolsunovskaya, vedoucí laboratoře „Systémy zpracování dat v průmyslovém proudu“centra NTI SPbPU.

Nejúspěšnější projekty jsou podle odborníků v úzkých oblastech. Například systém pro rozpoznávání odborné řeči lékařů pomocí lékařských termínů, vyvinutý skupinou společností MDG, pomáhá lékařům udržovat lékařskou historii.

„Zde můžete jasně vymezit oblast předmětu a zvýraznit klíčová slova v řeči. Lékař konkrétně zdůrazňuje určité části s intonací: stížnosti pacientů, diagnóza, “objasňuje Bolsunovskaya.

Dalším problémem je Michail Burtsev, vedoucí laboratoře nervových systémů a hlubokého učení na MIPT. Skutečností je, že doposud je stroj úspěšnější v rozpoznávání textu, když jedna osoba mluví více než několik, jako ve filmech.

Překlad s kontextem

Vezměme si například anglické video, například výřez z televizního seriálu „Hra o trůny“, a zapneme automatické ruské titulky. To, co vidíme, nás pravděpodobně rozesměje.

Stále z * Game of Thrones *
Stále z * Game of Thrones *

Stále z * Game of Thrones *.

V strojovém překladu však technologie dosáhla impozantního úspěchu. Google Translate tedy překládá texty do běžných jazyků docela snáze, často je nutná pouze minimální úprava.

Faktem je, že překladač neuronové sítě je také trénován na velkém množství počátečních, správně označených dat - paralelním korpusu, který ukazuje, jak by každá věta v původním jazyce měla vypadat v ruštině.

„Budování takových budov je velmi pracné, drahé a časově náročné, trvá měsíce a roky. K trénování neuronové sítě potřebujeme texty o velikosti Alexandrijské knihovny. Modely jsou univerzální, ale hodně záleží na jazyce. Pokud například poskytnete mnoho údajů, například v Avaru, a překlad bude kvalitní, ale pro Avar prostě není takové množství dat, “říká Andrey Filchenkov.

„Překlad je samostatný produkt, který se vztahuje k originálu, ale není s ním stejný,“říká Ilya Mirin, ředitelka školy digitální ekonomiky na Dálném východě federální univerzity. - Typickým příkladem jsou překlady zahraničních filmů Dmitrije Puchkova (Goblin) v 90. letech. Až po jeho práci se ukázalo, co se tam děje. Z verzí VHS jsme nenašli nic přiměřeného. Zkuste také přeložit do jazyka, který dobře znáte, něco od Mistra a Margarity. Například „v černém plášti s krvavou podšívkou“. Stroj to nemůže udělat. “

Neuronové sítě se dobře učí z mnoha typických příkladů, ale filmy jsou plné složitých významů a konotací, vtipů, které nejsou pro stroj přístupné - nedokáže je odlišit.

„V každé epizodě animovaného seriálu Futurama je odkaz na klasické americké kino - Casablanca, Roman Holiday atd. V takových chvílích musí překladatel přijít s blízkým analogem z ruského kontextu, aby zachytil a přebalil význam pro ty, kteří tyto filmy nesledovali. Nesprávný strojový překlad může být pro diváka velmi odrazující, “pokračuje Mirin.

Podle jeho názoru je kvalita strojového překladu téměř 80 procent, zbytek je specifičnost, kterou je třeba přidat ručně, a to za účasti odborníků. "A pokud 20 - 30 procent frází vyžaduje ruční opravu, co je tedy strojový překlad?" - říká výzkumník.

„Překlad je nejproblematičtější etapou,“souhlasí Sergey Aksenov. - Všechno závisí na sémantice a kontextu. Dostupné nástroje lze použít pro překlad a strojové hlasové hraní, například dětské karikatury s jednoduchou slovní zásobou. Ale s interpretací frazeologických jednotek, vlastních jmen, slov, která odkazují diváky na některé kulturní skutečnosti, vznikají potíže. “

Ve filmech a videích je kontext vždy vizuální a je často doprovázen hudbou a šumem. Z obrázku spekulujeme, o čem hrdina mluví. Řeč převedená na text postrádá tyto informace, takže překlad je obtížný. To je situace, kdy překladatelé pracují s textovými titulky, aniž by viděli film. Často se mýlí. Strojový překlad je stejný příběh.

Hlasy AI hlas

Chcete-li kopírovat sérii přeloženou do ruštiny, potřebujete algoritmus pro generování přirozené řeči z textu - syntetizátoru. Jsou vytvořeny mnoha IT společnostmi, včetně Microsoft, Amazon, Yandex, a daří se jim docela dobře.

Podle Andreyho Filchenkova před pár lety minutou dabování syntetizátoru řeči trvalo několik hodin, nyní se rychlost zpracování výrazně zvýšila. Úloha syntézy řeči v některých oblastech, kde jsou vyžadovány neutrální dialogy, je vyřešena docela dobře.

Mnozí již považují za samozřejmost rozhovor s robotem v telefonu, provádění příkazů z navigátoru automobilu, dialog s Alice v autě Yandex. Drive. Pro kopírování televizních seriálů však tyto technologie ještě nejsou dostatečné.

"Problém je emoce a jednání." Naučili jsme se, aby byl strojový hlas lidským, ale aby to znělo stále vhodně pro daný kontext a vzbuzovalo důvěru, je ještě daleko. Špatné hlasové hraní může snadno zabít vnímání filmu, “řekl Filchenkov.

Podle Michaila Burtseva je syntéza řeči docela reálná. To je však výpočetně náročné a nelze jej provést v reálném čase za rozumnou cenu.

„Existují algoritmy, které syntetizují řeč, která je podobná algoritmu konkrétního herce. Toto je zabarvení a způsob mluvení a mnohem více. Takže jakýkoli zahraniční herec bude mluvit rusky, “předpovídá Burtsev. V nadcházejících letech očekává znatelný pokrok.

Sergei Aksenov poskytuje pět až deset let na vývoj nástrojů pro překlad a dabování složitých děl z nejběžnějších jazyků, jako je angličtina. Vědec uvádí příklad programu Skype, který před několika lety prokázal možnost pořádání lekcí online pro žáky mluvící různými jazyky. Ale ani tehdy nebude systém ideální, bude se neustále muset učit: získat slovní zásobu, zohlednit kulturní kontext.