За матеріалами The Verge
Рік, що минає, ознаменувався справжнім розквітом програм, заснованих на штучному
У генеративного штучного інтелекту бувдуже плідний рік. Такі корпорації, як Microsoft, Adobe та GitHub, інтегрують цю технологію у свої продукти, а стартапи збирають сотні мільйонів, щоби конкурувати з ними. А ще програми набувають культурного впливу, оскільки моделі штучного інтелекту, що перетворюють текст на зображення, породжують незліченну кількість мемов. Однак у будь-якому обговоренні генеративного ІІ тлом звучить питання, яким задаються як його прихильники, так і критики: чи все це законно?
Це питання породжують самі принципи, якиминавчаються генеративні системи ІІ. Як і більшість програм для машинного навчання, вони працюють шляхом виявлення та відтворення закономірностей у даних. Але оскільки ці програми використовуються для генерації коду, тексту, музики та малюнків, ці дані самі створюються людьми, вилучаються з Інтернету та тим чи іншим чином захищені авторськими правами.
Для дослідників ІІ у далекому туманному минулому(Воно ж 2010-і роки) це не становило великої проблеми. Тодішній ІІ був здатний генерувати лише розмиті чорно-білі зображення облич розміром з ніготь. Це не становило очевидної загрози для людей. Але в 2022 році, коли умілець-одинак може використовувати програму на кшталт Stable Diffusion, щоб скопіювати стиль художника за лічені години, або коли компанії продають принти, створені штучним інтелектом, і фільтри для соціальних мереж, що є явними підробками під сучасних дизайнерів, питання законності і етики встають набагато гостро.
Візьмемо випадок із Холлі Менгерт, ілюстраторомDisney, яка виявила, що її стиль був скопійований студентом з Канади під час експерименту зі штучним інтелектом. Студент завантажив 32 твори Менгерт та витратив кілька годин на тренування моделі машинного навчання, яка могла б відтворити її стиль. Як сказала Менгерт техноблогеру Енді Байо, який повідомив про цей випадок: «Особисто я сприймаю це так, що хтось бере роботу, яку я зробила, знаєте речі, яким я навчилася — а я працюю художником відколи закінчила художню школу 2011 року — і використовує її для створення творів мистецтва, на які я не давала згоди та не давала дозволу».
Чи це чесно? І чи може Менгерт щось із цим зробити?
Щоб відповісти на ці запитання та розглянутиПравове середовище, пов'язане з генеративним ІІ, журналісти The Verge поспілкувалися з низкою експертів, включаючи юристів, аналітиків та співробітників стартапів у галузі ІІ. Деякі з упевненістю говорили, що ці системи, безумовно, здатні порушувати авторські права та можуть зіткнутися із серйозними юридичними проблемами у найближчому майбутньому. Інші так само впевнено припустили, що правильне саме протилежне: все, що зараз відбувається в галузі генеративного ІІ, є юридично відкритим і будь-які судові процеси приречені на провал.
«Я бачу людей по обидва боки, надзвичайновпевнених у своїх позиціях, але що буде насправді, ніхто не знає, — відповідає The Verge Байо, який уважно стежить за розвитком генеративного штучного інтелекту. — І будь-хто, хто каже, що точно знає, чим це обернеться в суді, помиляється».
Різне
Партнерський матеріал
Реальність та перспективи ринку IT-професій
Які професії найбільш популярні та високооплачувані?
Суботня кава №228
Налийте чашку ароматної суботньої кави таознайомтеся з новинами тижня. Honor представила доладний смартфон, до Росії їдуть преміальні електрокари, а перші автомобілі "Москвич" зійшли з конвеєра.
Тест Opel Grandland X. Він повернувся
У 2019 році французи повернули марку Opel на нашринок. Першою легковою моделлю, з якою PSA вирішила повернути німецькі автомобілі до Росії, став середньорозмірний кросовер Grandland X, про який і йтиметься у сьогоднішньому матеріалі.
Огляд електронної книги Onyx Boox Volta 3
Одна з найбільш доступних електронних читалок на ОС Android із чохлом SIDE control у комплекті, але без сервісів Google та захисного скла Asahi, а також із гранично спрощеним інтерфейсом.
Андрес Гуадамуз, академік, що спеціалізується наІІ та право інтелектуальної власності в британському Сасекському університеті припустив, що, незважаючи на велику кількість невідомих, є лише кілька ключових питань, з яких випливає вся пов'язана з цією темою невизначеність. По-перше, чи можете ви захистити авторські права на результати роботи генеративної моделі ІІ, і якщо так, то кому вони належать? По-друге, якщо ви володієте авторськими правами на вхідні дані, що використовуються для навчання ІІ, чи дає це вам будь-які юридичні права на модель чи контент, який вона створює? Як тільки на ці питання будуть отримані відповіді, виникне ще важливіше питання: що робити з наслідками використання цієї технології? Які юридичні обмеження можуть або повинні бути запроваджені щодо збору даних? І чи можуть люди, які створюють ці системи, і ті, чиї дані потрібні для їх створення, жити у світі?
Давайте розглянемо ці питання порядку.
Питання висновку: чи можна реєструвати авторські права те що, що створює модель ИИ?
Відповідь на це питання не така вже складна.У США немає практики реєстрації авторських прав на твори, створені виключно машиною. Проте, мабуть, на авторські права можна претендувати у випадках, коли творець здатний довести ступінь людської участі.
У вересні Бюро реєстрації авторських прав СШАсхвалило першу у своєму роді реєстрацію коміксу, створеного за допомогою штучного інтелекту Midjourney, що перетворює текст на зображення. Комікс є закінченим твіром: це 18-сторінкова розповідь з персонажами, діалогами і традиційною для коміксів композиційною побудовою. І хоча згодом повідомлялося, що Бюро переглядає своє рішення, реєстрацію авторських прав на комікс ще не скасовано. Схоже, що одним із факторів перегляду буде ступінь участі людини у створенні коміксу. Крістіна Каштанова, художниця, яка створила комікс, розповіла IPWatchdog, що Бюро попросило її «надати подробиці моєї роботи, щоб показати, що в процесі створення цього графічного роману відбулася значна участь людини». (Сама організація не коментує конкретні випадки.)
За словами Гуадамуса, це стане постійнимпроблемою, коли знадобиться отримання авторських прав на твори, створені за допомогою ІІ. «Якщо ви просто наберете кішка Ван Гога, не думаю, що цього буде достатньо, щоб отримати авторські права в США, — каже він. — Але якщо ви почнете експериментувати із запитами та створите кілька зображень, почнете обробляти свої зображення, використовуватимете різні джерела та проектуватимете більше, то, на мій погляд, безумовно, ви зможете претендувати на авторські права».
У світлі вищесказаного цілком імовірно, щопереважна більшість робіт, створених генеративними моделями ІІ, не може бути захищена авторським правом. Як правило, це масовий продукт, і як запит використовується лише кілька ключових слів. Але складніші процеси можуть допомогти досягти кращого результату. Серед результатів можуть бути й спірні твори, такі як гучна робота штучного інтелекту, яка виграла місцевий мистецький конкурс. Творець роботи сказав, що витратив тижні на відточування своїх запитів та ручне редагування готової роботи, що передбачає відносно високий рівень інтелектуальної участі людини.
Джорджіо Франчеселлі, вчений-комп'ютерник,який пише про проблеми, пов'язані з авторськими правами в галузі ІІ, каже, що вимір людського внеску буде «особливо вірним» для процесів у ЄС. А у Великій Британії — іншої великої юрисдикції, яка викликає занепокоєння у західних стартапів у галузі штучного інтелекту, — закони відрізняються. Великобританія є однією з небагатьох країн, що захищають авторські права на твори, створені виключно за допомогою комп'ютера, але при цьому автором вважається «обличчя, яким вживаються заходи, необхідні для створення твору». Знову ж таки, залишається простір для появи різночитань (чи буде ця «людина» розробником моделі чи її оператором?), але це створює прецедент для захисту авторських прав.
Проте зрештою реєстрація авторськихправий - це лише перший крок, як попереджає Гуадамуз. «Бюро авторських прав США – це не суд, – каже він. — Вам потрібна реєстрація, якщо ви маєте намір подати на когось до суду за порушення авторських прав, але вирішувати, чи має це юридичну силу, чи буде суд».
Питання введення: чи ви можете використовувати захищені авторським правом дані для навчання нейромережі?
Для більшості експертів ключове питання вобласті ІІ та копірайту полягає в тому, які дані використовуються для навчання нейромережі. Більшість систем навчається на величезних обсягах контенту, взятого з мережі, текст, код або зображення. Наприклад, база даних для навчання нейромережі Stable Diffusion, однієї з найбільших і найбільших впливів систем перекладу голосового запиту на зображення, містить мільярди зображень, взятих із сотень різних доменів. У справу пішло все - від особистих блогів на WordPress або Blogspot до спеціальних платформ для мистецтва на кшталт DeviantArt та сховищ стокових фотографій на зразок Shutterstock та Getty Images. Реальність така, що якщо ви викладали свою творчість у мережі, то, швидше за все, вона вже потрапила до бази даних для навчання одного з ІІ. Вже є сервіси, які пропонують перевірити, ким саме використовується ваша творчість.
При цьому у всіх дослідників, що працюють з ІІ,стартапів і багатих корпорацій є лазівка в законодавстві (знову ж таки, це справедливо для США), яка була створена для збереження свободи вираження при використанні захищеного авторським правом продукту.
Питання того, що при цьому вважається"сумлінним використанням", пояснює професор юридичного факультету Університету Вандербільта Деніел Жерве. Він спеціалізується на законодавстві в галузі інтелектуальної власності та багато пише про те, як воно перетинається з ІІ. «Взагалі, є багато факторів, які беруться до уваги при формуванні розуміння “сумлінного використання” в галузі права на інтелектуальну власність, з яких два мають найбільшу значимість. Це була мета чи природа використання і який вплив на ринок. Іншими словами: чи було використання пов'язане із зміною предмета певним чином (“перетворююче” використання) і чи таке використання впливає на дохід оригінального творця, конкуруючи з його роботами».
Враховуючи значущість цих факторів, професорЖерве каже, що відповідь на запитання, чи вважається використання контенту для навчання ІІ сумлінним використанням, «швидше так, ніж ні». Але це не можна з такою ж впевненістю стверджувати стосовно створюваного нейромережами контенту. Іншими словами, ви можете скільки завгодно навчати свою нейромережу, використовуючи дані, створені іншими людьми, але те, що ви створюєте за допомогою ІІ, може порушувати права власності. Різниця приблизно така сама, як між печаткою підроблених грошових купюр для фільму та спробою розплатитися ними в магазині.
Порівняйте пару сценаріїв використання однієї і тієїж моделі ІІ з перетворення тексту на зображення. Якщо нейромережа навчалася на багатьох мільйонах зображень та використовується для створення графічного роману, то вкрай малоймовірно, що він викличе якісь суперечки щодо порушення права власності. Використані для навчання дані були перетворені у процесі, а отриманий результат не впливає ринку для вихідного твори. Але якщо ви відточуватимете модель на 100 картинах конкретного художника з метою отримання зображень, що імітують його стиль, то у засмученого автора будуть дуже сильні аргументи в суді проти вас.
«Якщо ви дасте штучному інтелекту 10романів Стівена Кінга і скажете: "Зроби роман Стівена Кінга", - то ви прямо конкуруватимете зі Стівеном Кінгом. Чи це буде сумлінним використанням? Напевно, ні», — каже Жерве.
Важливо, що між цими двома полюсамисумлінного та недобросовісного використання знаходиться нескінченно кількість сценаріїв, в яких вихідні дані, мета та результат змішані в різних пропорціях і можуть схилити шальки терезів у суді до будь-якого з результатів.
Голова ради директорів компанії Wombo,Райан Хурана, що розробляє генеративні ІІ, говорить, що більшість компаній, що продають такі сервіси, цілком в курсі таких відмінностей. «Умисне використання зразків, заснованих на роботах, захищених авторським правом […], порушує правила використання сервісу, прописані у будь-якого великого гравця, — відповідає він журналістам The Verge. Але також додав, що перевірити дотримання вимог важко, а самі компанії більшою мірою цікавляться питанням запобігання порушенню копірайту при використанні нейромереж, ніж обмеженням використання даних для навчання ІІ. Це особливо вірно для моделей перетворення тексту на зображення з відкритим вихідним кодом, таких як Stable Diffusion, які можна навчати і використовувати без нагляду або фільтрів. Компанія, мабуть, і прикрила свої тили, але це може сприяти порушенню авторських прав.
Інша важлива складова для визначеннясумлінного використання — це були дані для навчання і сама нейромережа використана з метою академічних досліджень, а не для отримання прибутку. Цей критерій добре підкріплює докази сумлінного використання, і у компаніях про це знають. Наприклад, компанія Stability AI, що відповідає за поширення Stable Diffusion, не збирає безпосередньо дані для навчання нейромережі та не займається її навчанням. Натомість вона відповідає за фінансування та координацію роботи вчених, а сама модель Stable Diffusion належить, згідно з ліцензією, одному з німецьких університетів. Це дозволяє Stability AI використовувати нейромережу як комерційний сервіс (DreamStudio), але при цьому дистанціюватися від усього, що з її допомогою створюється.
Таку практику в The Verge назвали “відмиванням ІІданих.” Такі методи стали використовувати з моменту винаходу програм ІІ з розпізнавання осіб. Як приклад можна навести історію з MegaFace, дані для якої збирали дослідники з Університету Вашингтона, просто забираючи фотографії із сервісу Flickr. Академічні дослідники брали дані, відмивали їх, а потім їх із чистою совістю використовували комерційні компанії. Колись це були дослідження, але тепер дані, включаючи мільйони особистих фотографій, опинилися в руках компанії розпізнавання осіб Clearview AI, державних силових відомств та китайського уряду. Такий готовий і перевірений спосіб відмивання даних служить для захисту розробників генеративних ІІ від законних претензій.
Оператори
Володимир Німін
Новини операторів: новий тариф Tele2
Здається, новий тариф від Tele2 виглядає як чудова нагода кинути в рюкзак геймпад, щоб завжди був під рукою.
Огляд розумного годинника Samsung Galaxy Watch5 Pro (SM-R925F)
Друге покоління розумного годинника Samsung на WearOS від Google – кращий час роботи, більше можливостей навігації, eSIM, два дні гарантованої роботи та багато іншого.
Oppo A57s: витончений стиль
Приємний смартфон від Oppo з історією та ідеєю.
Швидкий огляд МФУ Huawei PixLab X1
Відмінний багатофункціональний пристрій для домашнього та робочого друку документів.
А тепер додамо ще один сюжетний поворот у цьомусправі. Професор Жерве вказує на те, що нинішня ухвала «сумлінного використання» може змінитися вже в найближчі місяці, оскільки Верховний суд США розглядає справу, в якій згадуються Енді Ворхол та Прінс. Суд розглядає питання, чи була сумлінним використанням робота Енді Воргола з використанням фотографій Прінса. Чи це порушення авторського права?
«Верховний суд рідко розглядає справи просумлінному використанні, але якщо вони до нього доходять, то це зазвичай щось значуще. Я думаю, що це якраз такий випадок, — каже професор Жерве. — Тож сказати щось певне, допоки Верховний суд не виніс свій вердикт, буде надто самовпевненим».
Як художники та компанії-розробники ІІ можуть знайти компроміс?
Навіть якщо вважати, що навчання генеративнихмоделей ІІ підпадає під визначення сумлінного використання, це все одно не вирішує проблем галузі. Це аж ніяк не заспокоює художників, незадоволених тим, що їхні роботи використовуються комерційними нейромережами, а також ніяк не покриває інших генеративних моделей, які працюють з кодом або музикою. Пам'ятаючи про це, давайте подумаємо над тим, які засоби правового захисту, технічні чи інші, можуть бути використані для того, щоб генеративні ІІ могли процвітати, але при цьому враховувати інтереси авторів контенту чи компенсувати їх збитки? Адже без цього весь напрямок просто не зможе існувати.
Найбільш очевидною виглядає пропозиція створитисистему ліцензування даних та просто виплачувати якісь кошти їх творцям. Але якщо подумати, це просто вб'є індустрію. Брайан Кейсі та Марк Лемлі, автори статті “Fair Learning”, яка лягла в основу аргументації на користь сумлінного використання генеративного ІІ, стверджують, що набори даних, необхідних для навчання нейромережі, настільки великі, що немає можливості ліцензувати всі фотографії, що входять до них. - та аудіозаписи або тексти для нового використання. Вони стверджують, що будь-яке задоволення вимог на авторські права призведе не до отримання авторами винагороди, а до повної заборони на використання. Дозвіл на «сумлінне навчання», як вони це називають, не тільки заохочує інновації, а й дозволить розробити більш досконалі моделі ІІ.
З іншого боку, стверджується, що ми вжестикалися з кризою авторських прав подібного масштабу та знайшли успішне вирішення проблеми. Ціла низка експертів, до яких зверталися з редакції The Verge, нагадали про еру музичного піратства, коли програми з розповсюдження файлів ґрунтувалися на численних порушеннях авторського права, але процвітали виключно до того моменту, як в результаті серії судів були вироблені нові угоди, які дозволяли зберегти авторські права.
«На початку 2000-х у вас був усіма коханий, алеабсолютно незаконний Napster. А сьогодні у вас є сервіси на кшталт Spotify та iTunes», — заявляє адвокат Меттью Баттерик, який займається справами проти компаній, які збирали дані для навчання нейромереж. Якийсь час тому в The Verge публікували інтерв'ю з ним. І як ця система з'явилася? Завдяки тому, що компанії змогли укласти ліцензійні угоди та перенести весь контент у легальне поле. Так, усім власникам акцій довелося взяти участь у процесі, щоб він запрацював, але жодної катастрофи не станеться, якщо подібний процес повторять і з нейромережами».
Райан Хурана з Wombo припускає аналогічнийрезультат: «У музичній індустрії діють значно складніші правила копірайту, оскільки є різні типи ліцензування, різноманіття правовласників і безліч проміжних інстанцій. Враховуючи нюанси [проблем легалізації даних для ІІ], я вважаю, що вся галузь генеративних ІІ еволюціонуватиме у напрямку ліцензування на зразок музичної індустрії».
Є й інші варіанти, які можуть спрацювати.Наприклад, Shutterstock, планує створити фонд, з якого виплачуватимуться компенсації людям, чиї роботи були продані компаніям з розробки ІІ для навчання нейромереж, а DeviantArt створив спеціальний тег метаданих для зображень, автори яких попереджають розробників про небажаність використання цих зображень. На самому DeviantArt система не працює, але невелика соцмережа Cohost вже впровадила цей тег і заявляє, якщо дані будуть використані незважаючи на нього, то суд виграти не вийде. Втім, мистецька спільнота сприйняла всі ці ініціативи зі змішаними почуттями. Чи може одноразова виплата за ліцензію компенсувати втрату джерела доходу? Чим допоможе тег, що забороняє збирання даних, тим, чиї роботи вже потрапили у добірки для навчання комерційних нейромереж?
Багатьом авторам збитки вже завдано, алепредставники розробників ІІ хоча б пропонують якісь рішення на майбутнє. Один із найпростіших способів для розробників нейромереж — це створити бази даних, в яких не порушуватимуться авторські права — тому, що твір був належним чином ліцензований, або тому, що дані були створені виключно для навчання ІІ. Один такий проект за назвою The Stack вже існує. У базі даних — лише код із найширшою з можливих відкритих ліцензій, а також є інструмент максимально швидкого та простого вилучення даних на запит. Розробники стверджують, що така модель підійшла б до всієї галузі.
«Підхід The Stack без проблем може бутивикористаний іншими медіа, - заявляє Ясін Джерніт, глава Machine Learning & Society у Hugging Face, який допомагав створювати The Stack спільно з ServiceNow. — Це важливий перший крок у освоєнні механізмів, що служать для досягнення згоди сторін, механізмів, які працюють найкраще, коли всі дотримуються правил платформи, з якої було взято дані для навчання ІІ». Джерніт стверджує, що Hugging Face хоче допомогти досягти фундаментального зрушення щодо розробників ІІ до творців контенту. Однак на даний момент це дуже рідкісний випадок.
Що буде далі?
Який би частині комплексу питань щодо легалізаціїроботи генеративних ІІ ми не торкнулися, видно, що всі учасники процесу готові до зміни ситуації. Компанії, що витягують мільйони з цієї технології, окопуються на своїх позиціях, повторюючи, що вся їхня діяльність повністю легальна, хоча насправді сподіваються лише на те, що ніхто не заперечуватиме цього твердження. По інший бік нейтральної смуги володарі авторських прав озвучують свою чутливу позицію щодо питання, але зовсім не рвуться до здійснення якихось реальних дій. Getty Images нещодавно внесла заборону на розміщення створеного ІІ контенту, оскільки він становить певний потенційний ризик для покупців. СЕО компанії Крейг Пітерс минулого місяця прямо заявив: «Я думаю, що це було б безвідповідально. Я думаю, він може бути нелегальним». У той же час RIAA, асоціація звукозаписних компаній зі США, оголосила, що мікси, створені ІІ, та вилучення даних порушують права її членів, хоча поки що й не ініціювала жодного судового процесу.
І перший постріл війни за копірайти для ІІ вжепролунав. Минулого тижня було ініційовано судовий позов проти Microsoft, GitHub та OpenAI. У позові заявляється, що всі три компанії свідомо відтворювали відкритий вихідний код за допомогою ІІ помічника з кодування Copilot, але без належних ліцензій. У розмові з представниками The Verge юристи, які займаються цією справою, заявили, що він може створити прецедент для всієї галузі генеративного ІІ (хоча інші експерти заперечують це твердження, кажучи, що будь-які проблеми з авторськими правами, пов'язані з кодом, швидше за все, будуть відокремлені. проблем, пов'язаних з таким контентом, як мистецтво і музика).
А ось Гуадамуз та Байо в один голос заявляють, щовони здивовані, що досі немає масових позовів. «Якщо чесно, то я вражений, – каже Гуадамуз. – Але, гадаю, це все тому, що в галузі всі бояться бути першими та програти. Як тільки хтось проломить лід, я думаю, що позови почнуть подавати праворуч і ліворуч».
Байо припускає ще одну складність.Багато хто, кого зачіпає ця технологія, художники та інші, просто перебувають у невдалому положенні для подання позову. «У них немає змоги. Такі судові позови дуже дорогі і пожирають багато часу, так що подавати їх ви станете, тільки будучи впевненими у своїй перемозі. Через деякий час я вважав, що перші позови подадуть сайти зі стоковими зображеннями. Здається, що саме вони найбільше втрачають від розвитку даної технології, вони можуть довести, що значна частина їх баз була використана для навчання генеративних моделей, і у них є гроші на фінансування такого процесу».
Гуадамуз погоджується:«Всі знають, наскільки дорого це буде коштувати. Хто б не подавав позов, спочатку рішення винесе суд низької інстанції, який програв подасть апеляцію, потім буде апеляція на апеляцію, і так далі, доки вони не дістануться Верховного суду».