Neuronová Síť Byla Naučena "animovat" Portréty Na Základě Pouze Jednoho Statického Obrazu - Alternativní Pohled

Neuronová Síť Byla Naučena "animovat" Portréty Na Základě Pouze Jednoho Statického Obrazu - Alternativní Pohled
Neuronová Síť Byla Naučena "animovat" Portréty Na Základě Pouze Jednoho Statického Obrazu - Alternativní Pohled

Video: Neuronová Síť Byla Naučena "animovat" Portréty Na Základě Pouze Jednoho Statického Obrazu - Alternativní Pohled

Video: Neuronová Síť Byla Naučena
Video: Ангелы не падают 2024, Smět
Anonim

Ruští specialisté z Centra pro umělou inteligenci Samsung AI Center-Moscow ve spolupráci s inženýry z Skolkovo Institute of Science and Technology vyvinuli systém schopný vytvářet realistické animované obrazy lidských tváří na základě několika statických lidských snímků. Obvykle je v tomto případě vyžadováno použití rozsáhlých databází obrazů, avšak v příkladu předloženém vývojáři byl systém vyškolen k vytvoření animovaného obrazu lidské tváře pouze z osmi statických rámců a v některých případech stačil jeden. Další podrobnosti o vývoji najdete v článku publikovaném v online úložišti ArXiv.org.

Image
Image

Zpravidla je poměrně obtížné reprodukovat fotorealistický personalizovaný modul lidské tváře kvůli vysoké fotometrické, geometrické a kinematické složitosti reprodukce lidské hlavy. Vysvětluje se to nejen složitostí modelování obličeje jako celku (existuje pro to velký počet modelových přístupů), ale také složitostí modelování určitých rysů: ústní dutiny, vlasů atd. Druhým komplikujícím faktorem je naše tendence zachytit i malé nedostatky v hotovém modelu lidských hlav. Tato nízká tolerance pro chyby modelování vysvětluje současnou prevalenci ne fotorealistických avatarů používaných v telekonferencích.

Podle autorů je systém, nazývaný Fewshot učení, schopen vytvářet vysoce realistické modely mluvících hlav lidí a dokonce portrétních obrazů. Algoritmy syntetizují obraz hlavy téže osoby s liniemi reference obličeje převzatými z jiného fragmentu videa nebo pomocí orientačních bodů obličeje jiné osoby. Jako zdroj materiálu pro školení systému použili vývojáři rozsáhlou databázi obrazů celebrit. Aby bylo možné dosáhnout co nejpřesnější mluvící hlavy, musí systém použít více než 32 obrázků.

Pro vytvoření realističtějších animovaných obrazů obličeje použili vývojáři předchozí vývoj v generativním kontradiktorním modelování (GAN, kde neuronová síť promýšlí detaily obrazu, ve skutečnosti se stává umělcem), stejně jako strojový meta-learningový přístup, kde je každý prvek systému vyškolen a navržen tak, aby vyřešil některé konkrétní úkol.

Schéma meta-učení
Schéma meta-učení

Schéma meta-učení.

Image
Image
Image
Image

Propagační video:

Tři neuronové sítě byly použity ke zpracování statických obrazů hlav lidí a jejich přeměně na animované: Embedder (implementační síť), Generátor (generační síť) a Diskriminátor (síť diskriminátorů). První oddíly hlavových obrazů (s přibližnými obličejovými orientačními body) na vkládací vektory, které obsahují informace nezávislé na póze, druhá síť používá orientační body obličeje získané vkládací sítí a generuje na nich nová data prostřednictvím sady konvolučních vrstev, které poskytují odolnost vůči změnám v měřítku, posunutí, zatáčky, změna úhlu a další zkreslení původního obrazu obličeje. Diskriminátor sítě se používá k posouzení kvality a autentičnosti dalších dvou sítí. Výsledkem je, že systém transformuje orientační body lidské tváře na realisticky vypadající personalizované fotografie.

Image
Image
Image
Image

Vývojáři zdůrazňují, že jejich systém je schopen inicializovat parametry generátorové i diskriminační sítě individuálně pro každou osobu na obrázku, takže proces učení může být založen na několika obrázcích, což zvyšuje jeho rychlost, navzdory potřebě vybrat desítky milionů parametrů.

Nikolay Khizhnyak