General

Ви відразу розумієте, що перед вами порно. А чи зрозуміє комп'ютер?

На початку минулого місяця Tumblr оголосив, щобуде банити порно. Коли нова політика щодо контенту вступила в силу, приблизно через два тижні - 17 грудня - стало очевидно, що будуть проблеми. Після розгортання системи штучного інтелекту, яка повинна була перебаніть всю порнографію на сайті, вона помилково позначила невинні пости в 455,4 мільйона блогах на сайті серед 168,2 мільярда постів: вази, відьом, риб і все таке інше.

Порнографія для штучного інтелекту

Хоча незрозуміло, який автоматичний фільтрвикористовував Tumblr або створював свій власний - компанія не відповіла на запити по цій темі - очевидно, що соціальна мережа застрягла між власною політикою і технологіями. Наприклад, непослідовна позиція сайту в відношенні «жінок, які демонструють соски» і художньої наготи, наприклад, привела до контекстуальних рішенням, які демонструють, що навіть Tumblr не знає, що забороняти у себе на платформі. Як частою компанії визначити, що вона вважає непристойним?

По-перше, блокувати ризикований контентважко, тому що спочатку складно визначити, що це таке. Визначення непристойності - ведмежий капкан, якому більше ста років, ще в 1896 році Сполучені Штати вперше прийняли закони, що регулюють непристойність. У 1964 році в справі Джакобелліс проти Огайо щодо того, чи може Огайо заборонити показ фільму Луї Маля, Верховний суд видав, напевно, найвідоміше визначення жорсткої порнографії на сьогодні: «Я не буду сьогодні намагатися і далі дати визначення такого роду матеріалу, яке, як я розумію, буде включено в стенографічне опис; і, можливо, мені ніколи не вдасться зробити це зрозуміло », сказав суддя Поттер Стюарт. «Але я знаю, що це таке, коли бачу, і кінофільм, пов'язаний з цією справою, цим не є».

У алгоритмів машинного навчання та ж проблема. Саме цю проблему намагається вирішити Брайан Делордж, CEO Picnix, компанії, яка продає спеціалізовану технологію штучного інтелекту. Один з їхніх продуктів - Iris - являє собою додаток на стороні клієнта, яке служить для виявлення порнографії, щоб «допомогти людям», як каже Делордж, «які не хочуть порно в своєму житті». Він зазначає, що окрема проблема порно в тому, що там може бути що завгодно, купа різних речей - і зображення, які порнографічними не є, можуть мати схожі елементи. Зображення вечірки на пляжі може бути заблокований не тому, що на ньому більше шкіри, ніж на фотографії в офісі, а тому що це на межі. «Ось чому дуже важко навчити алгоритм розпізнавання зображень всьому відразу», говорить Делордж. «Коли визначення стає складним для людей, комп'ютер теж стикається з труднощами». Якщо люди не можуть домовитися про те, що є порно, а що ні, чи може комп'ютер взагалі сподіватися дізнатися різницю?

Для того, щоб навчити ІІ виявляти порно,перше, що вам потрібно зробити, це згодувати йому порно. Багато порнографії. Де його взяти? Ну, перше, що роблять люди, це скачують купу відсів з Pornhub, XVideos, каже Ден Шапіро, співзасновник стартапу Lemay.ai, який створює фільтри ІІ для своїх клієнтів. «Це одна з тих сірих областей правового характеру - наприклад, якщо ви навчаєтеся на контенті інших людей, чи належить він вам?».

Після того, як програмісти скачують тоннипорно, вони вирізають з відео кадри, які порнографією не є, щоб переконатися, що використовуються кадри не приведуть до блокування рознощиків піци. Платформи платять людям, здебільшого, за межами США, за маркування подібного контенту; робота низькооплачувана і нудна, немов вводити «капчу». Вони просто сидять і відзначають: це таке порно, це - ось це. Фільтрувати доводиться трохи, тому що все порно виходить з маркуванням. Навчання йде краще, якщо використовувати не просто фотографії, а великі вибірки даних.

«Часто доводиться не просто фільтрувати порно,а скоріше супутній матеріал », каже Шапіро. «Начебто підроблених анкет з фотографією дівчини і телефоном». Він має на увазі секс-робітниць в пошуку клієнтів, але це може бути що завгодно, не зовсім законне. «Це не порно, але такого роду речей ви не хочете спостерігати на своїй платформі, так?». Хороший автоматизований модератор навчається на мільйонах - якщо не десятки мільйонів - прикладах контенту, а значить може заощадити багато людино-годин.

«Можна порівняти це з різницею між дитиною ідорослим », говорить Метт Цейлер, генеральний директор і засновник Clarifai, стартапу з області комп'ютерного зору, який здійснює таку фільтрацію зображень для корпоративних клієнтів. «Можу сказати вам точно - пару місяців тому у нас була дитина. Вони не знають нічого про світ, для них все ново ». Доводиться показувати дитині (алгоритму) багато всякого, щоб він щось усвідомив. «Мільйони і мільйони прикладів. Але будучи дорослими - коли ми створили так багато контексту про світ і зрозуміли, як він працює - ми можемо дізнаватися щось нове за все з пари прикладів ». (Так, навчити ІІ фільтрувати контент для дорослих - це як показати дитині багато порно). Сьогодні компанії на кшталт Clarifai швидко ростуть. У них хороша база даних про світ, вони можуть відрізняти собак від кішок, одягнених від голих. Компанія Цейлера використовує свої моделі для навчання нових алгоритмів для своїх клієнтів - оскільки вихідна модель опрацювала багато даних, персональні версії зажадають лише нових наборів даних для роботи.

Проте, алгоритму складно все зробитиправильно. Зі змістом, яке очевидно порнографічне, він справляється добре; але класифікатор може неправильно позначити оголошення про нижню білизну як заборонене, тому що на зображенні більше шкіри, ніж, скажімо, в офісі. (З бікіні і нижньою білизною, за словами Цейлера, дуже складно). Це означає, що люди, які займаються маркуванням, повинні зосередитися на цих крайніх випадках у своїй роботі, віддаючи пріоритет тому, що важко класифікувати моделі.

А що найскладніше?

«Аніме-порно», говорить Цейлер. «Перша версія нашого детектора наготи не використала для навчання мультяшних порнографію». Багато разів ІІ зівай, бо не розпізнавав хентай. «Попрацювавши над цим для клієнта, ми впровадили купу його даних в модель і суттєво поліпшили точність фільтра мультиплікаційних картинок, зберігши точність реальних фотографій», говорить Цейлер.

Технологія, яка навчена винюхувати порно,може використовуватися і на інших речах. Технології, що лежать в основі цієї системи, дивно гнучкі. Це більше, ніж анімешні сиськи. Jigsaw від Alphabet, наприклад, широко використовується в якості автоматичного модератора коментарів в газеті. Це програмне забезпечення працює аналогічно класифікаторів зображень, за винятком того, що сортує за токсичністю, а не по наготі. (Токсичність в текстових коментарях визначити так само важко, як і порнографію на знімках). Facebook використовує подібну автоматичну фільтрацію для виявлення суїцидальних повідомлень і контенту, пов'язаного з тероризмом, і він намагався використовувати цю технологію для виявлення фейковий новин на своїй масивній платформі.

Все це, як і раніше залежить від людськогонагляду; ми краще справляємося з неоднозначністю і двозначним контекстом. Цейлер каже, що не думає, що його продукт позбавив кого-небудь роботи. Він вирішує проблему масштабування Інтернету. Люди все так же будуть навчати ІІ, сортуючи і маркіруючи контент так, щоб ІІ міг його розрізняти.

Таке майбутнє модерації: індивідуальні, готові рішення, що надаються компанії, які роблю весь свій бізнес на навчанні все більш досконалих класифікаторів більшій кількості даних. Точно так же, як Stripe і Square пропонують готові платіжні рішення для підприємств, які не хочуть обробляти їх самостійно, стартапи на кшталт Clarifai, Picnix і Lemay.ai здійснюватимуть онлайн-модерацію.

Ден Шапіро з Lemay.ai сповнений надій. «Як і в випадку з будь-якою іншою технологією, вона все ще в процесі винаходу. Тому я не думаю, що ми поступимося в разі невдачі ». Але чи зможе ІІ коли-небудь діяти автономно без нагляду людини? Не зрозуміло. «Немає ніякого маленького чоловічка в табакерці, який фільтрує кожен знімок», говорить він. «Потрібно отримувати дані звідусіль, щоб на них тренувати алгоритм».

Цейлер, з іншого боку, вважає, що одного разуштучний інтелект буде модерувати все самостійно. Зрештою, кількість втручань з боку людей зведеться до нуля, або до незначних зусиллям. Поступово зусилля людини перетворяться в те, що ІІ зараз робити не може, на зразок міркувань високого рівня, самосвідомості - всього, що є у людей.

Розпізнавання порнографії є ​​частиною цього. Ідентифікація є відносно тривіальним завданням для людей, але набагато складніше навчити алгоритм розпізнавати нюанси. Визначення порога, коли фільтр маркує зображення як порнографічне або НЕ порнографічне, теж складне завдання, частково математична.

Штучний інтелект - це недосконаледзеркало того, як ми бачимо світ, точно так же, як порнографія - це відображення того, що відбувається між людьми, коли вони залишаються наодинці. У ньому є частка правди, але повної картини - немає.

Не забудьте підписатися на наш канал з новинами.