Du indser straks, at før du porno. Forstår computeren

I begyndelsen af sidste måned meddelte Tumblr detvil forbyde porno. Da den nye indholdspolitik trådte i kraft, blev det efter ca. to uger - 17. december - klart, at der ville være problemer. Efter at have implementeret et kunstigt intelligenssystem, der skulle forbyde al pornografi på stedet, markerede hun fejlagtigt uskyldige stillinger i 455,4 millioner blogs på stedet blandt 168,2 mia. Indlæg: vaser, hekse, fisk osv.

Pornografi til kunstig intelligens

Selvom det ikke er klart hvilket automatisk filterbrugt Tumblr eller lavet din egen - virksomheden reagerede ikke på anmodninger om dette emne - det er indlysende, at det sociale netværk sidder fast mellem egne politikker og teknologier. For eksempel førte webstedets inkonsekvente stilling i forhold til "kvinder der viser brystvorter" og kunstnerisk nøgenhed til kontekstuelle beslutninger, som viser, at selv Tumblr ikke ved, hvad han skal forbyde på sin platform. Hvordan bestemmer en privat virksomhed hvad den anser for uanstændigt?

For det første blokere risikabelt indholdsvært, for det er i første omgang svært at afgøre, hvad det er. Definitionen af uanstændighed er en bjørnfælde, som er mere end hundrede år gammel, tilbage i 1896, USA førte først lovene om uregelmæssighed. I 1964, i sagen Jacobellis mod Ohio, om, hvorvidt Ohio kan forbyde at vise en film af Louis Malle, gav højesteret måske den mest berømte definition af hårdpornografi i dag: som jeg forstår det, vil blive medtaget i kortfattet beskrivelse; og måske kan jeg aldrig gøre det forståeligt, "sagde dommer Potter Stewart. "Men jeg ved hvad det er, når jeg ser det, og filmen der er forbundet med denne sag er det ikke."

Maskininlæringsalgoritmerne har det samme problem. Dette problem forsøger at løse Brian Delorge, administrerende direktør for Picnix, et firma, som sælger specialiseret teknologi for kunstig intelligens. En af deres produkter, Iris, er en applikation på klientsiden, der registrerer pornografi for at "hjælpe folk", som Delorge siger, "der ikke vil have porno i deres liv." Han bemærker, at et særskilt pornoproblem er, at der kunne være noget, en flok forskellige ting - og billeder, der ikke er pornografiske, kan have lignende elementer. Billedet af en fest på stranden kan blokeres, ikke fordi det har mere hud end på billedet på kontoret, men fordi det er på randen. "Derfor er det meget svært at træne en billedgenkendelsesalgoritme på én gang," siger Delorge. "Når definitionen bliver vanskelig for mennesker, står computeren også over for vanskeligheder." Hvis folk ikke kan blive enige om, hvad porno er, og hvad er det ikke, kan en computer endda håbe at kende forskellen?

For at lære AI at opdage porno,Det første du skal gøre er at fodre ham porno. En masse pornografi. Hvor skal man få det? Det første folk gør er at downloade en masse vidos fra Pornhub, XVideos, siger Dan Shapiro, medstifter af starten Lemay.ai, der opretter AI-filtre til sine kunder. "Dette er et af de grå områder af juridisk karakter - for eksempel, hvis du lærer af andres indhold, tilhører det dig?"

Efter programmører download tonsporno, skar de ud af videobillederne, som ikke er pornografi, for at sikre, at de anvendte rammer ikke fører til blokering af pizza peddlers. Platforme betaler folk, for det meste uden for USA, for at mærke sådant indhold; Arbejdet er lavt betalt og kedeligt, som om introduktion af "captcha". De sidder bare og siger: Dette er porno, dette er dette. Filteret har lidt, fordi al porno kommer med en etiket. Træning er bedre, hvis du bruger ikke kun fotografier, men store dataprøver.

"Ofte er det ikke bare at filtrere porno,men snarere et ledsagende materiale, "siger Shapiro. "Som falske profiler med et billede af en pige og en telefon." Han betyder sexarbejdere på udkig efter klienter, men det kunne være alt, ikke helt lovligt. "Dette er ikke porno, men du vil ikke se disse slags ting på din platform, right?" En god automatiseret moderator lærer millioner - om ikke titusinder af millioner - af eksempler på indhold, hvilket betyder, at det kan spare mange mandtimer.

"Du kan sammenligne dette med forskellen mellem et barn ogvoksne ", siger Matt Zeiler, administrerende direktør og grundlægger af Clarifai, en computer vision startup, der gør denne form for billedfiltrering for erhvervskunder. "Jeg kan fortælle dig sikkert - for et par måneder siden havde vi et barn. De ved ikke noget om verden, alt er nyt for dem. " Vi skal vise barnet (algoritmen) en masse ting for at gøre det klart. "Millioner og millioner af eksempler. Men som voksne, da vi skabte så meget kontekst om verden og forstod, hvordan det virker, kan vi lære noget nyt fra blot et par eksempler. " (Ja, at lære AI at filtrere voksenindhold er som at vise meget porno til et barn). Virksomheder som Clarifai vokser hurtigt i dag. De har en god database af verden, de kan skelne hunde fra katte klædt fra nøgne. Zeiler's firma bruger sine modeller til at træne nye algoritmer til sine kunder - da den originale model har behandlet mange data, vil personlige versioner kun kræve nye datasæt til at fungere.

Algoritmen er imidlertid svært at gøre alter korrekt. Med indhold, der naturligvis er pornografisk, gør han det godt; men klassificeringsenheden kan forkert markere undertøjsannoncen som forbudt, fordi billedet har mere hud end f.eks. på kontoret. (Med en bikini og undertøj, ifølge Zeiler, er det meget svært). Det betyder, at mærkning af mennesker skal fokusere på disse ekstreme tilfælde i deres arbejde, idet man prioriterer det faktum, at det er vanskeligt at klassificere modeller.

Og hvad er det sværeste?

"Anime porno," siger Zayler. "Den første version af vores nøgenhedssensor brugte ikke tegneseriepornografi til træning." Mange gange blev AI fejlberegnet, fordi hentai ikke genkendte. "Vi har arbejdet med dette for klienten, og vi introducerede en masse af hans data i modellen og forbedrede filterets nøjagtighed af animerede billeder betydeligt, samtidig med at nøjagtigheden af ægte fotografier blev fastholdt," siger Zayler.

Teknologi, der læres at snuse porno,kan bruges til andre ting. De teknologier, der ligger til grund for dette system, er overraskende fleksible. Dette er mere end anime bryster. Alfabetet puslespil, for eksempel, er almindeligt anvendt som en automatisk kommentar moderator i en avis. Denne software fungerer på samme måde som billedklasser, bortset fra at det er giftigt og ikke nøgenhed. (Toksicitet i tekstkommentarer er lige så svært at bestemme som pornografi i billederne). Facebook bruger lignende automatisk filtrering til at opdage selvmordsbudskaber og indhold relateret til terrorisme, og han forsøgte at bruge denne teknologi til at opdage falske nyheder på sin massive platform.

Alt afhænger stadig af menneskettilsyn Vi beskæftiger os bedre med tvetydighed og tvetydig sammenhæng. Zeiler siger, at han ikke tror, at hans produkt har frataget nogen af arbejdet. Det løser problemet med at skalere internettet. Folk vil stadig undervise i AI, sortere og mærke indholdet, så AI kan skelne det.

Dette er fremtiden for moderering: individuelle færdige løsninger leveret af virksomheder, der gør hele deres forretning til at træne mere og mere avancerede klassifikatorer til flere data. På samme måde som Stripe and Square tilbyder færdige betalingsløsninger til virksomheder, der ikke ønsker at behandle dem alene, vil startups som Clarifai, Picnix og Lemay.ai gennemføre online moderering.

Dan Shapiro fra Lemay.ai er fuld af håb. "Som med enhver anden teknologi er den stadig i færd med opfindelsen. Derfor tror jeg ikke, at vi vil give i tilfælde af fiasko. " Men kan AI nogensinde handle autonomt uden menneskeligt tilsyn? Ikke klart "Der er ingen lille mand i en snuskasse, der filtrerer hvert billede," siger han. "Vi har brug for at få data fra overalt til at træne algoritmen på dem."

Zeiler mener derimod det en gangkunstig intelligens vil moderere alt på egen hånd. Til sidst vil antallet af indgreb fra befolkningen reduceres til nul eller til ubetydelige indsatser. Efterhånden vil personens indsats blive til det, som AI ikke kan gøre nu, som højt planethed, selvbevidsthed - alt det folk har.

At anerkende pornografi er en del af det. Identifikation er en forholdsvis triviel opgave for mennesker, men det er meget sværere at træne en algoritme for at genkende nuancer. Fastlæggelse af tærsklen, når et filter markerer et billede som pornografisk eller ikke-pornografisk, er også en vanskelig opgave, delvist matematisk.

Kunstig intelligens er ufuldkommen.spejlet for hvordan vi ser verden, ligesom pornografi er en afspejling af, hvad der sker mellem mennesker, når de er alene. Der er noget sandt i det, men det fulde billede er det ikke.

Glem ikke at abonnere på vores nyhedsfeed.

Relaterede artikler