Τεχνολογία

Το νευρικό δίκτυο διδάχθηκε να "ζωντανεύει" πορτρέτα με βάση μόνο μία στατική εικόνα.

Ρώσοι ειδικοί από το Κέντρο ΤεχνητώνIntelligence Η Samsung AI Center-Μόσχα σε συνεργασία με τους μηχανικούς του Ινστιτούτου Επιστήμης και Τεχνολογίας του Σκολκόκ ανέπτυξε ένα σύστημα ικανό να δημιουργήσει ρεαλιστικές κινούμενες εικόνες των προσώπων των ανθρώπων με βάση μόνο μερικά στατικά πλαίσια ενός ατόμου. Συνήθως, σε αυτή την περίπτωση απαιτείται η χρήση μεγάλων βάσεων εικόνων, αλλά στο παράδειγμα που παρουσίασαν οι προγραμματιστές, το σύστημα εκπαιδεύτηκε για να δημιουργήσει μια κινούμενη εικόνα του προσώπου από μόλις οκτώ στατικά πλαίσια και σε μερικές περιπτώσεις ήταν αρκετή. Περισσότερες λεπτομέρειες σχετικά με την εξέλιξη αναφέρονται σε ένα άρθρο που δημοσιεύτηκε στο online αποθετήριο του ArXiv.org.

Κατά κανόνα, αναπαράγει φωτορεαλιστικήΗ προσωποποιημένη ενότητα του προσώπου είναι αρκετά δύσκολη λόγω της υψηλής φωτομετρικής, γεωμετρικής και κινηματικής πολυπλοκότητας της αναπαραγωγής ενός ανθρώπινου κεφαλιού. Αυτό εξηγείται όχι μόνο από την πολυπλοκότητα της μοντελοποίησης του προσώπου στο σύνολό του (υπάρχει ένας μεγάλος αριθμός προσεγγίσεων μοντελοποίησης γι 'αυτό), αλλά και από την πολυπλοκότητα της μοντελοποίησης ορισμένων χαρακτηριστικών: στοματική κοιλότητα, τρίχα και ούτω καθεξής. Ο δεύτερος παράγοντας που περιπλέκει είναι η προδιάθεσή μας να πιάσουμε ακόμη και μικρές ατέλειες στο τελικό μοντέλο ανθρώπινων κεφαλών. Αυτή η χαμηλή ανοχή για σφάλματα μοντελοποίησης εξηγεί την τρέχουσα επικράτηση των μη φωτορεαλιστικών είδωλων που χρησιμοποιούνται στις ομάδες συζήτησης.

Σύμφωνα με τους συγγραφείς, το σύστημα, που ονομάζεταιΗ εκμάθηση Fewshot είναι ικανή να δημιουργήσει πολύ ρεαλιστικά μοντέλα ομιλιών ανθρώπων και ακόμη και εικόνες πορτρέτου. Οι αλγόριθμοι παράγουν μια σύνθεση της εικόνας του επικεφαλής του ίδιου προσώπου με τις γραμμές του προσώπου ορόσημο, που λαμβάνονται από ένα άλλο βίντεο θραύσμα, ή χρησιμοποιώντας ορόσημα του προσώπου ενός άλλου προσώπου. Οι προγραμματιστές χρησιμοποίησαν μια εκτεταμένη βάση δεδομένων βίντεο διασημοτήτων ως πηγή εκπαιδευτικού υλικού για το σύστημα. Για να έχετε την ακριβέστερη "ομιλία", το σύστημα πρέπει να χρησιμοποιεί περισσότερες από 32 εικόνες.

Για να δημιουργήσετε πιο ρεαλιστικά κινούμενα σχέδια(GAN, όπου το νευρωνικό δίκτυο σκέφτεται τις λεπτομέρειες της εικόνας, στην πραγματικότητα να γίνει καλλιτέχνης), καθώς και μια μηχανική προσέγγιση μετα-μάθησης, όπου κάθε στοιχείο του συστήματος είναι εκπαιδευμένο και σχεδιασμένο για να λύσει ένα συγκεκριμένο πρόβλημα.

Πρόγραμμα μετα-μάθησης

Για να χειριστείτε τις στατικές εικόνες των κεφαλών και των ανθρώπωνμετατρέποντάς τα σε κινούμενα τρία νευρικά δίκτυα: Embedder (δίκτυο υλοποίησης), Generator (δίκτυο παραγωγής) και Discriminator (δίκτυο διακρίσεων). Ο πρώτος διαχωρίζει τις εικόνες του κεφαλιού (με προσεγγιστικά σημεία αναφοράς του προσώπου) σε διανύσματα ενσωμάτωσης που περιέχουν πληροφορίες ανεξάρτητες από τη στάση του σώματος, το δεύτερο δίκτυο χρησιμοποιεί τις προσανατολισμένες προσανατολισμούς του προσώπου και δημιουργεί νέα δεδομένα που βασίζονται σε αυτά μέσω ενός συνόλου συνθετικών στρώσεων που παρέχουν σταθερότητα στις αλλαγές κλίμακας, στροφές, αλλαγή γωνίας και άλλες παραμορφώσεις της αρχικής εικόνας του προσώπου. Χρησιμοποιείται ένας διακριτικός κανόνας δικτύου για την αξιολόγηση της ποιότητας και της αυθεντικότητας των δύο άλλων δικτύων. Ως αποτέλεσμα, το σύστημα μετατρέπει τα ορόσημα του προσώπου σε ρεαλιστικές προσωπικές φωτογραφίες.

Οι προγραμματιστές τονίζουν ότι το σύστημά τουςείναι σε θέση να προετοιμάσει τις παραμέτρους τόσο του δικτύου γεννήτριας όσο και του δικτύου διακρίσεων για κάθε άτομο στην εικόνα, έτσι ώστε η διαδικασία εκμάθησης να βασίζεται σε λίγες μόνο εικόνες, γεγονός που αυξάνει την ταχύτητά του, παρά την ανάγκη επιλογής δεκάδων εκατομμυρίων παραμέτρων.

</ p>

Μπορείτε να συζητήσετε τα νέα στην Τηλεδιάσκεψη μας.