Neuronová Síť Se Naučila Generovat Videa Na Základě Popisu - Alternativní Pohled

Neuronová Síť Se Naučila Generovat Videa Na Základě Popisu - Alternativní Pohled
Neuronová Síť Se Naučila Generovat Videa Na Základě Popisu - Alternativní Pohled

Video: Neuronová Síť Se Naučila Generovat Videa Na Základě Popisu - Alternativní Pohled

Video: Neuronová Síť Se Naučila Generovat Videa Na Základě Popisu - Alternativní Pohled
Video: 3. Plně propojené neuronové sítě: proč jsme je vyhodili z okna a proč se nám vrátily dveřmi? 2024, Září
Anonim

Umělá inteligence vytváří skriptovaná videa - zatím krátká a rozmazaná, ale jednoho dne sama nahradí celé filmové studio.

Neuronové sítě jsou již docela dobré (a v mnoha případech lepší než lidé) v rozpoznávání vzorů na obrázku a jsou schopny obecně popsat celé scény. Generativní neuronové sítě provádějí reverzní transformaci a mohou tvořit obraz na základě svého popisu nebo předpovídat další rámec na základě předchozích.

Belgičtí vývojáři zašli ještě dále a spojili tyto schopnosti do jediného systému, který vytváří videa „z ničeho“na základě jejich vlastních zkušeností se strojovým učením a skriptovým textem. Tinne Tuytelaars o tom hovořila na zasedání Asociace pro rozvoj umělé inteligence (AAAI) konané ve Spojených státech.

Neuronová síť funguje ve dvou fázích - podle Tinne, jako by napodobovala tvůrčí proces člověka: v první fázi se vytvoří rozmazaný, přibližný „skica“každého snímku, po kterém jsou specifikovány a přidány detaily. Jednou z důležitých částí takového systému je diskriminující neuronová síť, která porovnává výsledek s „skutečnými“videy vhodnými pro daný scénář a umožňuje vám posoudit jeho kvalitu a zlepšit práci generativní části systému.

Neuronová síť byla vyškolena na 10 scénách („hraní golfu na trávě“, „kitesurfing v moři“atd.) A naučila se oddělit akce a okolnosti od sebe navzájem, a mohla je také libovolně kombinovat a vytvářet videa, například "Golf v bazénu":

Image
Image

nebo „plachtění ve sněhu“:

Image
Image

Propagační video:

Kvalita těchto animací je samozřejmě ještě zdaleka nepřijatelná: „videa“trvající přibližně vteřinu se skládají pouze z 32 snímků s rozměry 64x64 pixelů.

Ale se stejnou jistotou je možné zaručit, že se tato čísla rychle zlepší, protože teprve nedávno se kino mohlo pochlubit pouze blátivým, škubajícím a hloupým obrázkem. Pokud lze takovou neuronovou síť vyrobit opravdu rychle a efektivně, Hollywood může skončit: bude stačit vzít scénář a film je připraven. Tato příležitost bude užitečná při generování velkých sad pro školení dalších neuronových sítí a při vytváření nových algoritmů pro kompresi a přenos streamovaného videa.

Sergey Vasiliev