Vědci Vytvořili AI Se Samoučením Schopnou Hrát Všechny Hry - Alternativní Pohled

Obsah:

Vědci Vytvořili AI Se Samoučením Schopnou Hrát Všechny Hry - Alternativní Pohled
Vědci Vytvořili AI Se Samoučením Schopnou Hrát Všechny Hry - Alternativní Pohled

Video: Vědci Vytvořili AI Se Samoučením Schopnou Hrát Všechny Hry - Alternativní Pohled

Video: Vědci Vytvořili AI Se Samoučením Schopnou Hrát Všechny Hry - Alternativní Pohled
Video: Jak vytvořit hru EFEKTIVNĚ a SNADNO?! 2024, Březen
Anonim

Vývojáři revolučního samoučícího se systému umělé inteligence AlphaGo Zero oznámili vytvoření nové verze tohoto stroje, která se dokáže samostatně naučit hrát jakoukoli deskovou hru a porazit člověka. Jeho popis byl představen v časopise Science.

Hloubky mysli

Systém AlphaGo AI vyvinul David Silver a jeho kolegové na konci roku 2014 a jeho práce byla „testována“na mistra Evropy Fan Hui, který prohrál všech pět zápasů se strojem. V březnu 2016 porazil AlphaGo Go World Champion Lee Sedol v sérii pěti zápasů, z nichž pouze jeden skončil lidským vítězstvím.

Silver a jeho kolegové byli schopni dosáhnout těchto úspěchů budováním jejich umělé inteligence na základě ne jedné, ale dvou neuronových sítí najednou - speciálních algoritmů napodobujících práci řetězců neuronů v lidském mozku. Jeden z nich je zodpovědný za vyhodnocení aktuální pozice v šachovnici a druhý používá výsledky analýzy připravené první sítí k výběru dalšího kroku.

Dalším logickým krokem ve vývoji AlphaGo bylo odstranění hlavní nevýhody všech existujících neuronových sítí a systémů umělé inteligence - potřeba je naučit, co mají dělat, pomocí obrovských archivů dat ručně zpracovaných osobou nebo s přímou účastí člověka, jak se stalo v prvních fázích vývoj AlphaGo.

Silver a jeho tým tento problém vyřešili vytvořením zásadně nové neuronové sítě založené na tzv. Algoritmech posilování učení. Tato neuronová síť, na rozdíl od svého hvězdného předchůdce, který byl původně trénován ve hrách s dobrovolníky a měl nějaké vestavěné primitivní herní strategie, začala svou práci jako absolutní začátečník s nulovou znalostní základnou.

Jinými slovy, znala pouze pravidla hry Go, počáteční podmínky a podmínky vítězství, a poté se počítač samostatně naučil hrát tuto starověkou čínskou strategii, hrát si se sebou samy a jednat podle pokusů a omylů. Jediným omezením v její práci byl maximální čas přemýšlet o tahu - to bylo asi 0,4 sekundy.

Propagační video:

Po každé takové hře systém AI analyzoval všechny své pohyby a vzpomněl si na ty, které přinesly jednu ze svých „polovin“blíže k vítězství, a vstoupil do jakési „černé listiny“ty kroky, které upřímně prohrály. Pomocí těchto dat se neuronová síť sama přestavěla a postupně dosáhla úrovně, kterou první verze AlphaGo dosáhla před sérií her s Lee Sedol.

Posun k algoritmům samoučení nejen umožnil AlphaGo Zero překonat úroveň předchůdce a porazit jej skóre 100-0, ale také zlepšil mnoho dalších aspektů jeho práce. Zejména proces jeho výcviku trval jen tři dny a asi pět milionů her, což byl řád menší než požadavky první verze AI.

Cesta k dokonalosti

Úspěšné dokončení experimentů s AlphaGo Zero vedlo Silver a jeho tým k zvážení, zda by podobná neuronová síť mohla být použita k získání koruny šampiona v jiných typech strategií a deskových her.

Za tímto účelem vědci do AlphaGo Zero zabudovali další nový prvek - heuristické algoritmy pro náhodné vyhledávání řešení, jakož i kód, který zohledňoval existenci remízy v některých hrách. Kromě toho nová verze alfa neustále zlepšovala svou strukturu, spíše než aby byla aktualizována ve fázích jako jeho předchůdce.

Tyto relativně jednoduché změny, jak ukázaly další experimenty, výrazně zvýšily rychlost samoučení tohoto systému umělé inteligence a proměnily jej v univerzální stroj schopný hrát všechny druhy strategií desek.

Vědci testovali svou práci na třech typech her - go, obyčejné šachy a jejich japonská rozmanitost, shogi. Ve všech třech případech dosáhl Silverův nový intelektuál úrovně velmistra za méně než milion her, čímž dosáhl téměř lidské selektivity při výběru možných tahů během pouhých 9–12 hodin tréninku pro šachy a 13 dní na cestu.

Dříve porazila nejnáročnější počítačové programy, které hrají tyto hry - Stockfishův algoritmus se vzdal ve čtvrté hodině tréninku AlphaZero, zatímco Elmo, současný mistr v šógi, trval pouze dvě hodiny. Konečně, první verze AlphaGo začala ustupovat svému „vnukovi“asi 30 hodin svého tréninku.

Další „oběti“AlphaZero, jak vědci poznamenali, mohou být „skutečnými“počítačovými hrami, jako jsou Starcraft II a Dota 2. Přijetí šampionátu v takových disciplínách esports podle jejich názoru otevře samoobslužné AI proniknout do méně formalizovaných oblastí vědy a kultury. a technologie.