General

Чому вченим не слід покладатися на ІІ в питаннях наукових відкриттів, по крайней мере, зараз

Ми живемо в золотий вік наукових даних, оточившисебе величезними запасами генетичної інформації, медичних зображень і даних про астрономічні спостереження. Поточний можливості алгоритмів машинного навчання дозволяють штучного інтелекту максимально швидко і в той же час дуже уважно вивчати ці дані, нерідко відкриваючи тим самим двері до потенційно нових наукових відкриттів. Однак ми не повинні сліпо довіряти результатам наукових досліджень, що проводяться ІІ, вважає науковий фахівець Університет Райса женевер Аллен. По крайней мере, не при поточному рівні розвитку цієї технології. На думку вченого, проблема полягає в тому, що сучасні системи ШІ не володіють здатністю критичної оцінки результатів своєї роботи.

За словами Аллен, ІІ-системам використовують методимашинного навчання, тобто коли навчання відбувається в процесі застосування рішень безлічі подібних завдань, а не просто завдяки впровадженню і дотриманню новими правилами та інструкціями, можна довіряти прийняття деякі рішень. Якщо говорити точніше, на ІІ цілком можна покласти завдання у вирішенні питань в тих сферах, де кінцевий результат може бути легко перевірений і проаналізований самою людиною. Як приклад можна взяти, скажімо, підрахунок кількості кратерів на Місяці або прогноз повторних поштовхів після землетрусу.

Однак точність і ефективність більш комплекснихалгоритмів, які використовуються для аналізу дуже великих масивів даних для пошуку і визначення раніше невідомих чинників або взаємозв'язків між різними функціями «перевірити набагато складніше», зазначає Аллен. Таким чином неможливість перевірки даних, підібраних такими алгоритмами, може призводити до помилкових наукових висновків.

Візьмемо, наприклад, точну медицину, коли длярозробки ефективних методів лікування фахівці проводять аналіз метаданих пацієнтів, намагаючись відшукати певні групи людей з аналогічними генетичними особливостями. Деякі ІІ-програми, призначені для «просівання» генетичних даних, дійсно показують свою ефективність, успішно визначаючи групи пацієнтів зі схожою схильністю, наприклад, до розвитку раку грудей. Однак вони виявляються зовсім неефективні в питаннях визначення інших видів раку, наприклад, колоректального. Кожен алгоритм проводить аналіз даних по-своєму, тому при об'єднанні результатів може нерідко виникати конфлікт в класифікації вибірки пацієнтів. Це в свою чергу змушує вчених задуматися про те, яким ІІ в кінцевому підсумку довіряти.

Ці протиріччя виникають через те, щоалгоритми аналізу даних розроблені таким чином, щоб підкорятися закладеним в ці алгоритми інструкціям, які не залишають місця для нерішучості, невизначеності, пояснює Аллен.

«Якщо ви поставите завдання алгоритму кластеризаціїзнайти такі-то групи в своїй базі даних, то він виконає завдання і скаже, що знайшов кілька груп по заданих параметрах. Скажіть знайти три групи, він знайде три. Запитайте знайти чотири, він знайде чотири », - коментує Аллен.

«Насправді ж справжня ефективністьподібного ІІ демонструватиметься тоді, коли програма зможе відповісти приблизно так: «Я дійсно вважаю, що ось ця ось група пацієнтів підходить під потрібну класифікацію, проте в разі ось цих ось людей, дані яких я також перевірив і порівняв, я не зовсім впевнений» .

Вченим не подобається невизначеність. Однак традиційні методи визначення невизначеностей вимірювань розроблені для тих випадків, коли потрібно провести аналіз даних, які були спеціально відібрані для оцінки певної гіпотези. Програми ІІ для інтелектуального аналізу даних працюють зовсім не так. Ці програми не проваджені якийсь керівної ідеєю і просто проводять аналіз масивів даних, зібраних без будь-якої окремо взятої певної мети. Тому зараз багато дослідників в галузі ШІ, в тому числі і сама Аллен, займаються розробками нових протоколів, які дозволять ІІ-системам нового покоління оцінювати точність і відтворюваність своїх відкриттів.

Дослідник пояснює, що один нових методівглибинного аналізу буде заснований на концепті повторної вибірки. Скажімо, якщо ІІ-система імовірно зробить важливе відкриття, наприклад, визначить групи клінічно важливих для дослідження пацієнтів, то це відкриття має відображатися і в інших базах даних. Створювати нові і великі масиви даних для того щоб перевірити правильність вибірки ІІ дуже дорого для вчених. Тому, на думку Аллан, можна використовувати підхід, при якому «буде використовуватися вже наявний набір даних, інформація в якому буде випадково перемішуватися таким чином, щоб це імітувало абсолютно нову базу даних». І якщо раз за разом ІІ зможе визначати характерні особливості, що дозволяють провести потрібну класифікацію, «то в такому випадку можна буде вважати, що у вас на руках з'явилося дійсно реальне відкриття», додає Аллан.

Підписуйтесь на наш Яндекс.Дзен, щоб бути в курсі останніх подій зі світу науки і технологій.