Okamžitě Víte, že Toto Je Porno. Rozumí Počítač? - Alternativní Pohled

Obsah:

Okamžitě Víte, že Toto Je Porno. Rozumí Počítač? - Alternativní Pohled
Okamžitě Víte, že Toto Je Porno. Rozumí Počítač? - Alternativní Pohled

Video: Okamžitě Víte, že Toto Je Porno. Rozumí Počítač? - Alternativní Pohled

Video: Okamžitě Víte, že Toto Je Porno. Rozumí Počítač? - Alternativní Pohled
Video: CS50 2013 - Week 10 2024, Září
Anonim

Tumblr začátkem minulého měsíce oznámil, že by to porno zakázalo. Když vstoupila v platnost nová obsahová politika, asi o dva týdny později - 17. prosince - se ukázalo, že budou problémy. Po zavedení systému umělé inteligence, který měl na webu zakázat veškerou pornografii, omylem označil nevinné příspěvky ve 455,4 milionech blogů na tomto místě mezi 168,2 miliardami příspěvků: vázy, čarodějnice, ryby a všechny ty jazzové.

Pornografie pro umělou inteligenci

I když není jasné, který automatický filtr Tumblr použil nebo vytvořil svůj vlastní - společnost neodpověděla na dotazy na toto téma - je jasné, že sociální síť je zaseklá mezi svou vlastní politikou a technologií. Například nekonzistentní postoj webu k „ženám, které ukazují bradavky“a umělecké nahotě, například vedl ke kontextovým rozhodnutím, která ukazují, že ani Tumblr neví, co na své platformě zakázat. Jak může častá společnost určit, co považuje za obscénní?

Za prvé, blokování rizikového obsahu je obtížné, protože je obtížné definovat, co to je od samého začátku. Definice obscénnosti je past na medvědy, která je více než sto let stará, v roce 1896 Spojené státy poprvé schválily zákony upravující obscénnost. V roce 1964, v Jacobellis v. Ohio, nad tím, zda Ohio mohl zakázat promítání filmu Louis Malle, vydal Nejvyšší soud pravděpodobně nejslavnější definici hardcore pornografie dnes: jak chápu, bude zahrnuta do doslovného popisu; a nikdy nebudu schopen učinit to srozumitelným, “řekl soudce Potter Stewart. "Ale vím, co to je, když to vidím, a film spojený s tímto případem není."

Algoritmy strojového učení mají stejný problém. To je přesně ten problém, který se snaží vyřešit Brian Delorge, generální ředitel společnosti Picnix, která prodává specializovanou technologii umělé inteligence. Jedním z jejich produktů, Iris, je aplikace na straně klienta pro detekci pornografie s cílem „pomoci lidem“, jak říká Delorge, „kteří nechtějí porno ve svém životě“. Poznamenává, že jediným problémem s pornografií je, že to může být cokoli, spousta různých věcí - a obrázky, které nejsou pornografické, mohou mít podobné prvky. Obrázek na plážové párty nemusí být zablokován, protože na něm je více kůže než na fotografii v kanceláři, ale proto, že je na okraji. "Z tohoto důvodu je velmi obtížné trénovat algoritmus rozpoznávání obrázků, aby dělal všechno najednou," říká DeLorge."Když je definice pro člověka obtížná, počítač má také potíže." Pokud se lidé nemohou dohodnout na tom, co je porno a co ne, může počítač dokonce doufat, že zná rozdíl?

Aby bylo možné naučit AI detekovat porno, první věc, kterou musíte udělat, je nakrmit to porno. Spousta pornografie. Kde to mohu získat? První věc, kterou lidé dělají, je stáhnout spoustu videí z Pornhubu, XVideos, říká Dan Shapiro, spoluzakladatel Lemay.ai, startupu, který vytváří AI filtry pro své klienty. "Toto je jedna z těch šedých oblastí právní povahy - například, pokud se poučíte z obsahu jiných lidí, patří vám?"

Poté, co programátoři stáhnou tuny porno, vyříznou z videa pornografické záběry, aby se ujistili, že použité záběry neblokují doručovatele pizzy. Platformy platí lidem, většinou mimo USA, za označování takového obsahu; práce je málo placená a nudná, jako když zadáte captcha. Prostě si jen sednou a všimnou si: tohle je porno, to je tohle. Musíte trochu filtrovat, protože všechna porno přichází se štítkem. Učení je lepší, pokud používáte nejen fotografie, ale i velké vzorky dat.

Propagační video:

"Často nemusíte filtrovat pouze porno, ale spíše doprovodný materiál," říká Shapiro. "Jako falešné profily s dívčí fotografií a telefonem." Hovoří o sexuálních pracovnících, kteří hledají klienty, ale může to být cokoli, co není zcela legální. "To není porno, ale takové věci, které nechceš sledovat na své platformě, že?" Dobrý automatizovaný moderátor se učí milionům - ne-li desítkám milionů - ukázkového obsahu, který vám může ušetřit spoustu lidských hodin.

„Můžete to porovnat s rozdílem mezi dítětem a dospělým,“říká Matt Zeiler, generální ředitel a zakladatel společnosti Clarifai, což je spuštění počítačového vidění, které provádí tento druh filtrování obrázků pro firemní klientelu. "Můžu ti to říct jistě - před pár měsíci jsme měli dítě." O světě nic nevědí, všechno je pro ně nové. ““Musíte dítěti (algoritmu) ukázat spoustu věcí, aby něco rozuměl. "Miliony a miliony příkladů." Ale jako dospělí - když jsme vytvořili tolik souvislostí o světě a pochopili, jak to funguje - můžeme se naučit něco nového jen z několika příkladů. ““(Ano, výuka umělé inteligence filtrovat obsah pro dospělé je jako ukazovat dítěti hodně porno.) Společnosti jako Clarifai dnes rychle rostou. Mají dobrou databázi světa, mohou psům říci kočky, oblečené z nahých. Společnost Zeiler používá své modely k trénování nových algoritmů pro své klienty - protože původní model zpracovával spoustu dat, personalizované verze by vyžadovaly pouze nové datové sady, aby fungovaly.

Algoritmus je však obtížný napravit. Dobře to dělá s obsahem, který je zjevně pornografický; klasifikátor však může nesprávně označit reklamu na spodní prádlo jako omezenou, protože obrázek má více kůže než řekněme kancelář. (U bikin a spodního prádla je podle Zeilera velmi obtížné). To znamená, že obchodníci by se měli ve své práci soustředit na tyto okrajové případy a upřednostňovat obtížně klasifikovatelné modely.

Co je nejtěžší část?

„Anime porno,“říká Zeiler. "První verze našeho detektoru nahoty nevyužila pro výuku kreslenou pornografii." AI to mnohokrát udělal špatně, protože nerozpoznal hentai. "Poté, co jsme na tom pracovali pro klienta, jsme do modelu vložili spoustu jejich dat a dramaticky zlepšili přesnost karikaturního filtru při zachování přesnosti reálných fotografií," říká Zeiler.

Technologie, která byla naučena vyčichat porno, lze použít i na jiné věci. Technologie tohoto systému jsou pozoruhodně flexibilní. To je více než anime prsa. Například skládačka z abecedy je v novinách široce používána jako automatický moderátor komentářů. Tento software funguje podobným způsobem jako klasifikátory obrázků s tím rozdílem, že se liší spíše podle toxicity než nahoty. (Toxicita v textových komentářích je stejně obtížná jako pornografie na obrázcích.) Facebook používá tento druh automatického filtrování k detekci sebevražedných zpráv a obsahu souvisejícího s terorismem a pokusil se tuto technologii použít k detekci falešných zpráv na své obrovské platformě.

To vše stále závisí na lidském dohledu; lépe zvládáme dvojznačnost a nejasný kontext. Zeiler říká, že si nemyslí, že jeho produkt přijal něčí práci. Řeší problém škálování internetu. Lidé budou stále trénovat umělou inteligenci tříděním a označováním obsahu, aby ji umělá inteligence rozlišovala.

Toto je budoucnost moderování: přizpůsobená řešení na klíč poskytovaná společnostem, které podnikají celé své podnikání tím, že učí stále více pokročilých klasifikátorů více dat. Stejně jako Stripe a Square nabízejí okamžitá platební řešení pro podniky, které je nechtějí zpracovat samy, i startupy jako Clarifai, Picnix a Lemay.ai provedou moderování online.

Dan Shapiro z Lemay.ai doufá. „Stejně jako u každé technologie se stále vyvíjí. Takže si nemyslím, že se vzdáme, pokud selžeme. “Dokáže však AI někdy fungovat autonomně bez lidského dohledu? Nejasný. "V krabici na šňupací tabák není žádný muž, který by filtroval každý výstřel," říká. "Musíte získat data odkudkoli, abyste na něm mohli vycvičit algoritmus."

Zeiler se naproti tomu domnívá, že umělá inteligence jednoho dne všechno zmírní sama o sobě. Nakonec se počet lidských zásahů sníží na nulovou nebo malou námahu. Lidské úsilí se postupně promění v něco, co umělá inteligence nyní nemůže udělat, jako je vysoká úroveň uvažování, sebevědomí - vše, co lidé mají.

Součástí toho je i uznání pornografie. Identifikace je pro člověka relativně triviální úkol, ale je mnohem obtížnější naučit algoritmus rozpoznávat nuance. Stanovení prahové hodnoty, když filtr označí obraz jako pornografický nebo ne pornografický, je také obtížný úkol, částečně matematický.

Umělá inteligence je nedokonalým zrcadlem toho, jak vidíme svět, stejně jako pornografie je odrazem toho, co se děje mezi lidmi, když jsou sami. Je v tom určitá pravda, ale není úplný obraz.

Ilya Khel