تكنولوجيا

تم تدريس الشبكة العصبية لصور "تحريك" تستند إلى صورة ثابتة واحدة فقط.

المتخصصين الروس من مركز الاصطناعيطور مركز الذكاء Samsung AI Center-Moscow بالتعاون مع مهندسين من معهد Skolkovo للعلوم والتكنولوجيا نظامًا قادرًا على إنشاء صور متحركة واقعية لوجوه الأشخاص بناءً على عدد قليل من الأطر الثابتة للشخص. عادة ، في هذه الحالة ، يكون استخدام قواعد البيانات الكبيرة للصور مطلوبًا ، ولكن في المثال المقدم من قبل المطورين ، تم تدريب النظام على إنشاء صورة متحركة لوجه شخص ما من ثمانية إطارات ثابتة فقط ، وفي بعض الحالات كان يكفي. تم الإبلاغ عن مزيد من التفاصيل حول التطوير في مقال نُشر في مستودع ArXiv.org الإلكتروني.

كقاعدة عامة ، قم بإعادة إنتاج الصور الواقعيةالوحدة النمطية لوجه الشخص صعبة إلى حد ما بسبب التعقيد الضوئي العالي والهندسي والحركي لتكاثر رأس الإنسان. لا يتم تفسير ذلك فقط من خلال تعقيد نمذجة الوجه ككل (هناك عدد كبير من أساليب النمذجة لذلك) ، ولكن أيضًا عن طريق تعقيد نمذجة بعض الميزات: تجويف الفم والشعر وما إلى ذلك. العامل الثاني المعقد هو استعدادنا للقبض على العيوب البسيطة في النموذج النهائي لرؤوس البشر. يوضح هذا التسامح المنخفض لأخطاء النمذجة الانتشار الحالي للأفاتار غير الواقعية المستخدمة في مجموعات الأخبار.

وفقا للمؤلفين ، ونظام ، ودعاتعلم Fewshot قادر على إنشاء نماذج واقعية للغاية لرؤساء الأشخاص الحديثين وحتى الصور الشخصية. تنتج الخوارزميات توليفًا لصورة رأس الشخص نفسه مع خطوط الوجه البارز ، مأخوذة من جزء فيديو آخر ، أو باستخدام معالم وجه شخص آخر. استخدم المطورون قاعدة بيانات فيديو مشهورة شاملة كمصدر للمواد التدريبية للنظام. للحصول على "رأس الكلام" الأكثر دقة ، يحتاج النظام إلى استخدام أكثر من 32 صورة.

لخلق الرسوم المتحركة أكثر واقعيةاستخدم الصور المطورة التطورات السابقة في النمذجة التنافسية التوليدية (GAN ، حيث تفكر الشبكة العصبية في تفاصيل الصورة ، وتصبح فعليًا فنانًا) ، بالإضافة إلى منهج التعلم التلوي بالآلة ، حيث يتم تدريب كل عنصر من عناصر النظام وتصميمه لحل مشكلة معينة.

مخطط الفوقية التعلم

للتعامل مع الصور الساكنة لرؤوس الناس وتم تحويلهم إلى ثلاث شبكات عصبية متحركة: Embedder (شبكة التنفيذ) ، Generator (شبكة التوليد) و Discriminator (شبكة التمييز). الأولى تفصل صور الرأس (مع علامات تقريبية للوجه) إلى ناقلات تضمين تحتوي على معلومات مستقلة عن الموقف ، وتستخدم الشبكة الثانية اتجاهات الوجه التي حصلت عليها الشبكة وتولد بيانات جديدة بناءً عليها من خلال مجموعة من الطبقات التلافيفية التي توفر الاستقرار للتغيرات في الحجم والتحولات ، المنعطفات وتغيير الزاوية والتشوهات الأخرى في الصورة الأصلية للوجه. يستخدم أداة تمييز الشبكة لتقييم جودة ومصداقية الشبكتين الأخريين. ونتيجة لذلك ، يحول النظام معالم وجه الشخص إلى صور شخصية واقعية المظهر.

يؤكد المطورون أن نظامهمقادر على تهيئة معلمات كل من شبكة المولد وشبكة التمييز على أساس فردي لكل شخص في الصورة ، بحيث يمكن أن تستند عملية التعلم إلى عدد قليل من الصور ، مما يزيد من سرعتها ، على الرغم من الحاجة إلى تحديد عشرات الملايين من المعلمات.

</ p>

يمكنك مناقشة الأخبار من خلال Telegram-chat.