Miscellaneous

Не просто генерація кадрів: як працює і для чого потрібна інтерполяція відео

Термін інтерполяції прийшов з математики. Загалом це знаходження невідомих проміжних значень

функції за наявними. Наприклад, із значень температури повітря об 11:00 та 13:00 обчислюють значення о 12:00.

У випадку відео - це добудова проміжних кадрів у відеоряді на основі сусідніх. Ця технологія часто зустрічається в телевізорах підвищення кадрової частоти і загальної плавності картинки.

Інтерполяцію використовують для відновленнявтрачених кадрів під час відеотрансляцій та конференцій, створення Slow-Mo ефекту в анімації та відео, а також підвищення кадрової частоти у відеоіграх. Розповідаємо, як саме працює технологія і де її можна застосувати.

Як працює інтерполяція

Виділяють три основні методи інтерполяції від найпростішого до просунутого: усереднення кадрів, оцінка руху (MEMC) і AI-інтерполяція.

Усереднення кадрів – алгоритм, який бере два сусідні кадри та накладає їх один на одного. Жодних додаткових обчислень чи обробки не виробляється, отже реалізувати такий метод простіше інших.

Незважаючи на це, вдаються до такого методу рідко.Вся справа в артефактах, спричинених накладенням кадрів. Чим більше в кадрі об'єктів, що рухаються – тим більше артефактів. Так що сенс у такій інтерполяції є лише на відносно статичних відео, де потрібно прибрати статтери (невеликі посмикування, помітні на об'єктах, що повільно рухаються, в 24 к/с).

Набагато популярніша технологія – оцінка руху (Motion Estimation – Motion Compensation, скорочено MEMC). Вона працює у два етапи: спочатку ділить кадр на безліч блоків, далі оцінює вектор руху кожного блоку.

Що більше блоків, то точніше робота алгоритму.Але разом з цим зростає час обробки, тому для оптимізації часто використовують динамічні блоки – їх розмір змінюється залежно від різниці між сусідніми кадрами.

Гаджети

На правах реклами

Робот-пилосос 360 Botslab P7

Бюджетний робот-пилосос із голосовим керуванням, вмінням будувати карти приміщення та часом роботи до 90 хвилин, а також вологим прибиранням.

360

Суботня кава №246

Налийте чашку підбадьорливої ​​суботньої кави і познайомтеся з новинами тижня. LG змінили логотип, "Звук" оновився, Nintendo залишає Росію, а "АвтоВАЗ" показав нову модель.

Тест Opel Combo Life. Універсальне рішення

Компактвен Opel Combo Life - це непоганий автомобіль для сім'ї, при цьому його можна швидко трансформувати і в робочу машину для перевезення вантажів.

Огляд ноутбука "2 в 1" ASUS Vivobook 13 Slate OLED (T3300K)

Праючи межі між ноутбуком і планшетом на повноцінній Windows 11: якісний дисплей, гнучкість робочих сценаріїв, є низка неоднозначних моментів.

Після поділу на блоки кожному з них присвоюється вектор руху, тобто зміна розташування блоку між кадрами. З цієї інформації добудовуються проміжні кадри.

MEMC часто зустрічається у сучасних телевізорах.Такий метод набагато точніший за усереднення кадрів, однак і у нього є свої недоліки. Наприклад, він не здатний розділяти передній та задній план – через це при побудові нових кадрів спотворюється перспектива.

Оскільки проміжні кадри будуються шляхом зсувублоків зображення, області навколо об'єктів, що рухаються, можуть деформуватися. Крім того, технологія погано працює з об'єктами, що нелінійно рухаються, навколо них виникають помітні оку шлейфи.

При роботі алгоритму на відео виникає ефектмильної опери – він виявляється у неприродній плавності рухів. Назва ефекту відсилає до однойменного жанру серіалів, які в основі знімалися на камери з вищою частотою, ніж «кінематографічні» 24 кадри на секунду.

Усереднення кадрів та оцінка руху вже давнозастосовуються у обробці відео. Однак зараз вони поступаються місцем більш досконалим технологіям інтерполяції, в основі яких лежить штучний інтелект.

Нейросети на варті плавності

Інтерполяція на основі ІІ набагато точніша, ніж два попередні методи. Завдяки машинному навчанню алгоритми здатні розділяти статичні та рухомі об'єкти та по-різному з ними працювати.

Такий підхід зменшує кількість артефактів нагенерованих кадрах, а також прибирає ефект мильної опери. Також вирішується проблема перспективи – нейромережі визначають передній та задній плани та враховують їх при побудові нових кадрів.

Розуміння того, де розташований об'єкт, єключовою відмінністю методів інтерполяції з урахуванням ІІ. Ще одна відмінність «розумної» інтерполяції – здатність аналізувати не лише два сусідні кадри, а й вибірки з десятків кадрів відеоролика. Так у розпорядженні нейромережі виявляється більше інформації, і фінальний результат виглядає природнішим.

Алгоритм генерації проміжного кадру за допомогою нейромережі

Однак для таких складних обчислень потрібна висока продуктивність, яку не мають сигнальні процесори в телевізорах. Проте такі обчислювальні ресурси є в сучасних відеокартах.

Для інтерполяції на комп'ютері є такіутиліти, як Topaz Chronos та Adobe Pixel Motion. Щоправда, тут слід зробити застереження: вони працюють у реальному часі. Тобто доводиться чекати, поки графічний прискорювач обробить відеоролик, і лише потім його можна подивитися зі збільшеною частотою кадрів.

Втім, вже є схожа технологія, що працює вреальному часі – Nvidia DLSS 3. Вона також генерує додаткові кадри за допомогою ІІ, завдяки чому підвищується кадрова частота в іграх. Час генерації кадру при цьому набагато менше, ніж у наведених вище аналогів.

Таке стало можливим завдяки апаратномуприскорення на відеокартах Nvidia. На жаль, на сьогоднішній день немає схожих рішень від інших компаній – але це не означає, що вони не з'являться найближчими роками.

Телефони

На правах реклами

Тиждень використовував смартфон із батареєю 10 000 мАг. Які висновки зробив

Сьогодні на тесті UMIDIGI Power 7 Max. Це смартфон з гігантською батареєю.

UMIDIGI

Огляд смартфона Samsung Galaxy A34 5G (SM-A346E/DSN)

Модель середнього сегмента від Samsung, зростання ціни зробило її конкурентом десяткам китайських смартфонів, і вона зовсім не однозначна для вибору, хоча має свої плюси.

Geekom MiniAir 11: комп'ютер до 15 тисяч рублів.

Міні-комп'ютер, який підійде для повсякденних справ і легко потягається за роль медіаприставки.

Швидкий огляд realme GT3

Знайомимося зі смартфоном, що має найшвидшу зарядку 240 Вт! А ще апарат має світлове кільце з RGB-підсвічуванням для повідомлень.

Що далі

У міру розвитку мікроелектроніки з'являтьсяаналоги DLSS 3 для відео від інших розробників. Напевно ці напрацювання вдасться впровадити у телевізори та монітори. Зрештою, продуктивність їхньої начинки теж зросте – і тоді ми нарешті позбавимося ефекту мильної опери при інтерполяції.

Разом із зростанням продуктивності зростатимескладність алгоритмів. Наступним логічним етапом буде генерація не одного, а відразу кількох проміжних кадрів – це буде корисним як для ігор, так і для перегляду спортивних трансляцій.

Ще один сегмент, в якому знадобитьсяінтерполяція – віртуальна дійсність. Сьогодні VR-ігри вимагають величезної продуктивності, оскільки їхня роздільна здатність перевищує 4K. Крім того, необхідно одночасно генерувати зображення для лівого та правого ока, причому робити це з частотою понад 60 кадрів на секунду.

Саме в таких випадках інтерполяція особливокорисна. Різниця між сусідніми кадрами невелика з огляду на малий час, так що нейромережам не важко буде згенерувати додаткові кадри і поліпшити плавність картинки.

Також із розвитком алгоритмів інтерполяціїпокращиться якість відеозв'язку. Зараз відеосигнал передається з використанням міжкадрового стиснення – методу, при якому записуються лише послідовні кадри, що відрізняються один від одного. Така технологія ефективна, але при надмірному стисканні зображення стане невпізнанним.

Нещодавно вийшла стаття Nvidia про синтез кадрів длявідеоконференцій. Зокрема, йдеться про стиснення відео. З одного стисненого зображення новий алгоритм зміг добудувати цілу послідовність кадрів. Реалізація технології підвищить якість відеозв'язку під час повільного підключення.

Нарешті, інтерполяція відео знайде застосування вмедицини. У 2020 році вийшла наукова робота, в якій автори розробили алгоритм синтезу зображень на базі машинного навчання – призначений для кардіокоронарографії з високою частотою кадрів. Впровадження алгоритму дозволить знизити рентгенівське випромінювання, якому піддають пацієнтів під час процедури.

Зрештою, ми можемо побачити технологіюгенерації цілих відеороликів із кількох кадрів. Разом з цим відкриються нові сценарії застосування інтерполяції як у споживанні, так і створенні медіа, а також інших індустріях. Враховуючи, як швидко розвиваються нейромережі, це може статися вже в цьому десятилітті.

Що таке RTX Video Super Resolution і чому ви захочете ним користуватися

Нова технологія покращить якість відео за допомогою ІІ. Проте вона має обмеження.

Крізь тернини до 8K: коли настане ера надвисокого дозволу

Куди нас приведе гонка за високою роздільною здатністю. Новий формат змінить багато індустрій, і розваги – лише одна з них.

</ P>