Research

Що чистіше для екології: навчання моделі ІІ або п'ять автомобілів?

Область штучного інтелекту частопорівнюють з нафтовидобувної промисловістю: після видобутку та переробки дані, як і нафта, можуть стати дуже прибутковим товаром. Однак тепер стає очевидно, що ця метафора розширюється. Як і викопне паливо, процес глибокого навчання має великий вплив на навколишнє середовище. У новій роботі вчені з Массачусетського університету в Амхерсті провели оцінку життєвого циклу навчання кількох поширених великих моделей штучного інтелекту.

З'ясувалося, що в результаті цього процесу можевиділятися більше 626 000 фунтів (близько 300 000 кг) в еквіваленті вуглекислого газу, що майже в п'ять разів перевищує викиди типового автомобіля за п'ять років (включаючи виробництво самого автомобіля).

Як навчаються моделі ІІ

Це дивовижне кількісне визначення того, що дослідники штучного інтелекту давно вже запідозрили.

«Хоча багато хто з нас думають про це наабстрактному, розмитому рівні, цифри демонструють масштаб проблеми », говорить Карлос Гомес-Родрігес, фахівець з інформатики в Університеті Ла-Корунья в Іспанії, який не брав участі в дослідженні. «Ні я, ні інші дослідники, з якими я їх обговорював, не думали, що вплив на навколишнє середовище буде настільки значним».

Вугільний слід обробки природної мови

В роботі особливо розглядається процеснавчання моделі для обробки природної мови (NLP), підполя ІІ, яке займається навчанням машин для роботи з людською мовою. За останні два роки співтовариство NLP досягло декількох важливих етапів в області машинного перекладу, завершення пропозицій і інших стандартних оцінюють завдань. Сумнозвісна модель OpenAI GPT-2, як приклад, досягла успіху в написанні переконливих підроблених новинних заміток.

Але такі досягнення потребували навчання все більшвеликих моделей на розтягнутих наборах даних з пропозицій, витягнутих з Інтернету. Цей підхід в обчислювальному відношенні є дорогим і дуже енергоємним.

Дослідники розглянули чотири моделі вобласті, відповідальні за найбільші скачки в продуктивності: Transformer, ELMo, BERT і GPT-2. Вони навчали кожну з них на одному графічному процесорі протягом дня, щоб виміряти споживану потужність.

Потім вони взяли кількість годин навчання,вказане в початкових документах моделі, для розрахунку загальної енергії, спожитої за весь процес навчання. Це кількість перевели в еквівалент фунтів двоокису вуглецю, який відповідав структурі енергоспоживання AWS від Amazon, найбільшого постачальника хмарних послуг.

З'ясувалося, що обчислювальні і екологічнівитрати на навчання росли пропорційно розміру моделі, а потім збільшувалися багаторазово, коли налаштовувалася кінцева точність моделі. Пошук нейронної архітектури, який намагається оптимізувати модель шляхом поступової зміни структури нейронної мережі за рахунок проб і помилок, несе надзвичайно високі витрати при невеликому виграші в продуктивності. Без нього найдорожча модель BERT залишила вуглецевий слід в 1400 фунтів (635 кг), що близько до Трансамериканського перельоту в обидва кінці.

Більш того, ці цифри слід розглядати лише як базові лінії.

«Навчання однієї моделі - це мінімальний обсягроботи, який ви можете зробити », каже Емма Струбелл, провідний автор статті. На практиці ж набагато більш імовірно, що дослідники ІІ розроблять нову модель з нуля або адаптують існуючу, що потребують ще багато циклів навчання і настройки.

В цілому, за підрахунками вчених, процес створення татестування остаточної моделі, гідної публікації, зажадав навчання 4789 моделей за шість місяців. У перерахунку на еквівалент CO2 це близько 35 000 кг.

Значимість цих чисел колосальна, особливо якщовраховувати поточні тенденції в дослідженнях ІІ. В цілому, дослідження в галузі ШІ нехтують ефективністю, оскільки великі нейронні мережі визнані корисними для різних завдань, і компанії, що мають необмежені обчислювальні ресурси, будуть використовувати їх для отримання конкурентної переваги.

Але для клімату це буде не дуже добре. Слідкуйте за нейросетями в нашому каналі в Телеграма.