общ

Вие веднага осъзнавате, че преди вас порно. Разбира ли компютърът?

В началото на миналия месец Tumblr обяви товаще забрани порно. Когато влезе в сила новата политика за съдържанието, след около две седмици - 17 декември - стана ясно, че ще има проблеми. След въвеждането на система за изкуствен интелект, която трябваше да прогони цялата порнография на сайта, тя погрешно маркира невинни постове в 455,4 милиона блога на сайта сред 168,2 милиарда публикации: вази, вещици, риби и т.н.

Порнография за изкуствен интелект

Въпреки че не е ясно кой автоматичен филтъризползвал Tumblr или създал свой собствен - компанията не отговори на исканията по тази тема - очевидно е, че социалната мрежа е заседнала между собствените си политики и технологии. Например, непоследователната позиция на сайта във връзка с "жените, показващи зърната" и артистичната голота, доведоха до контекстуални решения, които показват, че дори Тумбл не знае какво да забрани на своята платформа. Как частна компания определя какво е неприлично?

Първо, блокирайте рисковото съдържаниетрудно, защото първоначално е трудно да се определи какво е то. Дефиницията за неприличност е мечка капан, която е на повече от сто години, през 1896 г., Съединените щати за първи път приемат закони, регулиращи непристойността. През 1964 г., по делото Jacobellis срещу Охайо, по отношение на това дали Охайо може да забрани показването на филм от Луи Мал, Върховният съд даде, може би, най-известната дефиниция на твърдата порнография днес: “Днес няма да опитам да дефинирам този вид материал както аз го разбирам, ще бъдат включени в кратко описание; и може би никога не мога да го направя разбираем ”, каза съдия Потър Стюарт. "Но аз знам какво е това, когато го видя, а филмът, свързан с този случай, не е така."

Алгоритмите за машинно обучение имат същия проблем. Този проблем се опитва да реши Брайън Делордж, главен изпълнителен директор на Picnix, компания, която продава специализирана технология за изкуствен интелект. Един от продуктите им, Iris, е приложение от страна на клиента, което открива порнографията, за да „помага на хората“, както казва Делор, „които не искат порно в живота си“. Той отбелязва, че отделен порно проблем е, че може да има нещо, куп различни неща - и изображения, които не са порнографски, могат да имат подобни елементи. Образът на парти на плажа може да бъде блокиран, не защото има повече кожа, отколкото на снимката в офиса, а защото е на ръба. "Ето защо е много трудно да се обучава алгоритъм за разпознаване на изображения наведнъж", казва Делор. "Когато определението стане трудно за хората, компютърът също се сблъсква с трудности." Ако хората не могат да се споразумеят за това какво е порно и какво не, може ли компютърът дори да се надява да разбере разликата?

За да научиш ИИ да открива порнография,Първото нещо, което трябва да направите, е да го нахраните с порно. Много порнография. Къде да го вземем? Е, първото нещо, което хората правят, е да свалят куп видеоклипове от Pornhub, XVideos, казва Дан Шапиро, съосновател на стартиращия Lemay.ai, който създава AI филтри за своите клиенти. "Това е една от тези сиви области от правен характер - например, ако се учиш от съдържанието на други хора, принадлежи ли на теб?"

След като програмистите изтеглят тоновеПорно, те изрязват от видео кадрите, които не са порнография, за да се уверите, че използваните рамки не водят до блокиране на пицарите. Платформите плащат на хората, в по-голямата си част, извън САЩ, за маркиране на такова съдържание; работата е ниско платена и скучна, сякаш въвеждайки "капча". Те просто седят и казват: това е порно, това е това. Филтърът има малко, защото цялото порно идва с етикет. Обучението е по-добро, ако използвате не само снимки, но и големи проби от данни.

"Често това не е просто филтриране на порнография,а по-скоро спътнически материал “, казва Шапиро. - Като фалшиви профили с снимка на момиче и телефон. Той означава секс работници, които търсят клиенти, но това може да бъде всичко, което не е напълно законно. "Това не е порно, но не искате да гледате такива неща на платформата си, нали?" Един добър автоматизиран модератор научава милиони - ако не десетки милиони - на примери за съдържание, което означава, че може да спести много човеко-часове.

"Можете да го сравните с разликата между детето и. \ Tвъзрастни хора ”, казва Мат Зейлър, главен изпълнителен директор и основател на Clarifai, стартиращ компютърно зрение, който прави този вид филтриране на изображения за корпоративни клиенти. - Мога да ви кажа със сигурност - преди няколко месеца имахме дете. Те не знаят нищо за света, всичко е ново за тях. " Трябва да покажем на детето (алгоритъм) много неща, за да стане ясно. - Милиони и милиони примери. Но като възрастни, когато създадохме толкова много контекст за света и разбирахме как работи, можем да научим нещо ново само от няколко примера. " (Да, преподаването на ИИ за филтриране на съдържание за възрастни е като да показваш много порно на дете). Компании като Clarifai се разрастват бързо днес. Те имат добра база данни за света, те могат да различават кучета от котки, облечени от голи. Компанията на Zeiler използва своите модели за обучение на нови алгоритми за своите клиенти - тъй като оригиналния модел е обработил много данни, личните версии ще изискват само нови набори от данни.

Въпреки това, алгоритъмът е трудно да се направи всичкое вярно. Със съдържанието, което е очевидно порнографско, той се справя добре; но класификаторът може неправилно да маркира рекламата за бельо като забранена, защото картината има повече кожа, отколкото, например, в офиса. (С бикини и бельо, според Zeiler, това е много трудно). Това означава, че маркирането на хората трябва да се съсредоточи върху тези крайни случаи в работата си, като дава приоритет на факта, че е трудно да се класифицират моделите.

И какво е най-трудното нещо?

"Аниме порно", казва Зайлер. "Първата версия на нашия детектор на голотата не е използвала анимационна порнография за обучение." Много пъти ИИ се пресмята, защото хентай не признава. „След като работихме по този въпрос за клиента, въведохме куп негови данни в модела и значително подобрихме точността на филтъра на анимираните изображения, като същевременно запазихме точността на истинските снимки“, казва Зайлер.

Технология, която се научава да подушва порно,може да се използва и за други неща. Технологиите в основата на тази система са изненадващо гъвкави. Това е повече от аниме цици. Азбука за азбука, например, се използва широко като модератор за автоматичен коментар във вестник. Този софтуер работи подобно на класификаторите на изображения, с изключение на това, че сортира по токсичност, а не в голота. (Токсичността в текстовите коментари е толкова трудно да се определи като порнография на снимките). Facebook използва подобно автоматично филтриране, за да открие самоубийствени съобщения и съдържание, свързано с тероризма, и се опита да използва тази технология за откриване на фалшиви новини на своята масивна платформа.

Всичко все още зависи от човеканадзор; по-добре се справяме с неяснотата и двусмисления контекст. Зайлер казва, че не смята, че продуктът му е лишил някого от работата. Той решава проблема с мащабирането на интернет. Хората все още ще преподават на ИИ, сортиране и етикетиране на съдържанието, така че ИИ да може да го разграничи.

Това е бъдещето на модерацията: индивидуални, готови решения, предоставени от компании, които правят целия си бизнес за обучение на все по-напреднали класификатори за повече данни. По същия начин, както Stripe и Square предлагат готови решения за плащане за предприятия, които не искат да ги обработват самостоятелно, стартиращи компании като Clarifai, Picnix и Lemay.ai ще прилагат онлайн модерация.

Дан Шапиро от Lemay.ai е изпълнен с надежда. - Както при всяка друга технология, тя все още е в процес на изобретение. Затова не мисля, че ще се сдобием в случай на провал. " Но може ли ИИ да действа самостоятелно без човешки надзор? Не е ясно "Няма малък човек в табакер, който филтрира всяка снимка", казва той. "Трябва да получим данни отвсякъде, за да обучим алгоритъма върху тях."

Зайлер, от друга страна, мисли, че веднъжизкуственият интелект ще овладее всичко сам. В крайна сметка броят на интервенциите от страна на хората ще бъде сведен до нула или до незначителни усилия. Постепенно усилията на човека ще се превърнат в това, което ИИ не може да направи сега, като аргументация на високо ниво, самосъзнание - всичко, което хората имат.

Разпознаването на порнографията е част от него. Идентифицирането е сравнително тривиална задача за хората, но е много по-трудно да се подготви алгоритъм за разпознаване на нюансите. Определянето на прага, когато филтърът маркира изображение като порнографски или не порнографски, също е трудна задача, отчасти математическа.

Изкуственият интелект е несъвършен.огледалото на това как виждаме света, точно както порнографията е отражение на това, което се случва между хората, когато са сами. В нея има някаква истина, но пълната картина не е така.

Не забравяйте да се абонирате за нашия информационен канал.