Adversarial útoky: Proč Je Neuronová Síť Snadno Trik? - Alternativní Pohled

Video: Adversarial útoky: Proč Je Neuronová Síť Snadno Trik? - Alternativní Pohled

Video: Jiří Materna (Seznam.cz) - Praktický úvod do návrhu hlubokých neuronových sítí v TensorFlow - Part 1 2024, Smět

2024 Autor: Keith Bush | [email protected]. Naposledy změněno: 2023-12-16 14:06

V posledních letech, jak se systémy hlubokého učení stávají více převládajícími, vědci prokázali, jak mohou kontradiktorní vzorce ovlivnit cokoli od jednoduchého klasifikátoru obrazů až po diagnostické systémy rakoviny - a dokonce mohou vytvořit život ohrožující situaci. Navzdory veškerému nebezpečí jsou však kontradiktorní příklady špatně pochopeny. A vědci se obávali: lze tento problém vyřešit?

Co je to kontradiktorní útok? Toto je způsob, jak přimět neuronovou síť k vytvoření nesprávného výsledku. Používají se hlavně ve vědeckém výzkumu k testování odolnosti modelů proti nestandardním datům. Ale v reálném životě můžete například změnit několik pixelů v obraze pandy tak, aby si neuronová síť byla jistá, že v obrázku je gibbon. Vědci sice k obrazu přidávají pouze „šum“.

Adversarial útok: jak oklamat neuronovou síť?

Nová práce technologického institutu Massachusetts ukazuje na možný způsob, jak tento problém překonat. Jeho řešením bychom mohli vytvořit mnohem spolehlivější modely hlubokého učení, s nimiž by bylo mnohem obtížnější manipulovat škodlivými způsoby. Nejprve se ale podívejme na základy kontradiktorních vzorců.

Jak víte, síla hlubokého učení pochází z jeho vynikající schopnosti rozpoznávat vzory (vzory, vzory, diagramy, vzory) v datech. Nakrmte neuronovou síť desítek tisíc označených zvířecích fotografií a zjistí, které vzory jsou spojeny s pandou a které jsou spojeny s opicí. Tyto vzory pak může použít k rozpoznání nových obrazů zvířat, které nikdy předtím neviděla.

Ale modely hlubokého učení jsou také velmi křehké. Protože systém rozpoznávání obrázků závisí pouze na obrazových prvcích pixelů a ne na konceptuálnějším pochopení toho, co vidí, je snadné jej přimět k tomu, aby viděl něco úplně jiného - pouhým přerušením obrazců určitým způsobem. Klasický příklad: Přidejte k obrazu panda nějaký šum a systém jej klasifikuje jako gibbon s téměř 100% jistotou. Tento hluk bude protivníkem.

Propagační video:

Vědci již několik let pozorují tento jev, zejména v systémech počítačového vidění, aniž by věděli, jak se takových zranitelností zbavit. Práce představená minulý týden na hlavní konferenci o výzkumu umělé inteligence - ICLR - ve skutečnosti zpochybňuje nevyhnutelnost kontradiktorních útoků. Mohlo by se zdát, že bez ohledu na to, kolik obrazů panda přidáte do klasifikátoru obrázků, vždy bude existovat nějaký druh rozhořčení, se kterým systém porušíte.

Nová práce MIT však ukazuje, že jsme špatně přemýšleli o kontradiktorních útocích. Místo toho, abychom vymýšleli způsoby, jak shromažďovat více kvalitních údajů, které systém živí, musíme zásadně přehodnotit náš přístup k jeho školení.

Práce to demonstruje odhalením poměrně zajímavé vlastnosti kontradiktorních příkladů, které nám pomáhají pochopit, proč jsou efektivní. Co je trik: zdánlivě náhodný šum nebo nálepky, které matou neuronovou síť, ve skutečnosti používají velmi jemné, jemné vzory, které se vizualizační systém naučil silně spojovat s konkrétními objekty. Jinými slovy, stroj se nerozpadne, když uvidíme gibbon, kde vidíme pandu. Ve skutečnosti vidí pravidelné uspořádání pixelů neviditelných pro člověka, které se objevovalo mnohem častěji na obrázcích s gibony než na obrázcích s pandami během tréninku.

Vědci to experimentem demonstrovali: vytvořili dataset obrazů psů, které byly všechny pozměněny tak, že je standardní klasifikátor obrazu omylem identifikoval jako kočky. Poté tyto obrázky označili „kočkami“a použili je k tréninku nové neuronové sítě od nuly. Po tréninku ukázali skutečné obrazy koček z neuronové sítě a ona je všechny správně identifikovala jako kočky.

Vědci předpokládali, že v každém datovém souboru existují dva typy korelací: vzory, které skutečně korelují s významem dat, jako jsou vousy v obrazech koček nebo zbarvení srsti v obrazech panda, a vzory, které existují v tréninkových datech, ale nejsou propagovány. do jiných kontextů. Tyto poslední „zavádějící“korelace, řekněme jim, že se používají při kontradiktorních útocích. Systém rozpoznávání, vyškolený k rozpoznávání „zavádějících“vzorců, najde je a myslí si, že vidí opici.

To nám říká, že pokud chceme eliminovat riziko protivníka, musíme změnit způsob, jakým trénujeme naše modely. V současné době povolujeme neuronové síti vybrat korelace, které chce použít k identifikaci objektů v obraze. V důsledku toho nemáme žádnou kontrolu nad korelacemi, které zjistí, ať už jsou skutečné nebo zavádějící. Pokud bychom namísto toho naše modely vyškolili, aby si pamatovali pouze skutečné vzorce - které jsou vázány na smysluplné pixely -, bylo by teoreticky možné vytvořit hluboké vzdělávací systémy, které nelze zaměnit.

Když vědci testovali tuto myšlenku a používali pouze skutečné korelace k tréninku svého modelu, skutečně snížili její zranitelnost: bylo manipulováno pouze 50% času, zatímco model trénovaný na skutečné a falešné korelace byl manipulován 95% času.

Stručně řečeno, můžete se bránit proti nepřátelským útokům. Abychom je úplně eliminovali, potřebujeme další výzkum.

Ilya Khel