OpenAI SORA: Κείμενο-σε-Βίντεο με Εντυπωσιακές Δυνατότητες!
OpenAI SORA: Κείμενο-σε-Βίντεο με Εντυπωσιακές Δυνατότητες!
Στις 15 Φεβρουαρίου του 2024, η OpenAI δημοσίευσε μερικά demo του νέου Α.Ι. μοντέλου της, με το όνομα “Sora“.
Το Sora είναι ένα μοντέλο δημιουργίας βίντεο από μία περιγραφή κειμένου. Η OpenAI δεν έχει δώσει ακόμα πρόσβαση στο ευρύ κοινό για την χρήση του Sora, όμως από τα πρώτα δείγματα που μπορούμε να βρούμε στην σχετική ανακοίνωση, μπορώ να πω ότι τα αποτελέσματα είναι εντυπωσιακά!
Η δημοσίευση της OpenAI παρουσιάζει τα μοντέλα δημιουργίας βίντεο από κείμενο ως μία μέθοδο προσομοίωσης του κόσμου.
Δυνατότητες
Ένα από τα μεγαλύτερα προβλήματα που αντιμετωπίζουν τα μέχρι τώρα μοντέλα κειμένου-σε-βίντεο είναι η διατήρηση της συνοχής από καρέ σε καρέ. Όπως μπορούμε να δούμε όμως το Sora μπορεί να διατηρήσει την συνοχή στις κινήσεις των ανθρώπων ή των αντικειμένων ακόμα και σε πολύ σύνθετες σκηνές.
Το Sora μπορεί να “καταλάβει” με πολύ μεγάλη ακρίβεια το νόημα της περιγραφής που δίνει ο χρήστης και έτσι έχει την ικανότητα να δημιουργεί σύνθετες εικόνες με πολλά αντικείμενα, λεπτομέρειες και αναλυτικές οδηγίες για τις κινήσεις των αντικειμένων ή της κάμερας.
Αναδυόμενες Ικανότητες
Χωρίς να έχει εκπαιδευτεί συγκεκριμένα για αυτή την λειτουργία, το Sora φαίνεται πως μπορεί να αναγνωρίζει και να διατηρεί την δομή και την μορφή των αντικειμένων στις τρεις διαστάσεις. Αν για παράδειγμα, η κάμερα κινείται περιστροφικά γύρω από έναν άνθρωπο ή ένα αντικείμενο, η μορφή, οι διαστάσεις και η προοπτική των αντικειμένων παραμένουν σωστά.
Εικόνα-σε-Βίντεο
Εκτός από την χρήση μίας περιγραφής κειμένου για την δημιουργία βίντεο, το Sora μπορεί να λάβει σαν είσοδο μία στατική εικόνα και να την κάνει να κινηθεί με βάση μία περιγραφή.
Περισσότερες Δυνατότητες
Το Sora μπορεί επίσης να επεξεργάζεται βίντεο, να συνδυάζει στοιχεία από διαφορετικά βίντεο και να επεκτείνει τον χρόνο σε υπάρχοντα βίντεο συνεχίζοντας έτσι μία σκηνή.
Περιορισμοί
Παρά τις εντυπωσιακές ικανότητες του μοντέλου, το Sora φαίνεται να έχει κάποιες σημαντικές αδυναμίες στην αντίληψη των φυσικών νόμων ή των κινήσεων σε πολύ σύνθετες σκηνές. Για παράδειγμα, όπως βλέπουμε παρακάτω, το μοντέλο αδυνατεί να καταλάβει πως πρέπει να σπάσει ένα ποτήρι που πέφτει κάτω.
Ασφάλεια
Πέρα από τον ενθουσιασμό που συνοδεύει μία τόσο εντυπωσιακή δημοσίευση, έντονες είναι και οι ανησυχίες που προκύπτουν από τις πιθανές αρνητικές χρήσης ενός μοντέλου αντίστοιχων δυνατοτήτων.
Στην δημοσίευση της, η OpenAI αναφέρθηκε στα ζητήματα της ασφάλειας και επισημαίνει ότι δουλεύει σε συνεργασία με ειδικούς στους τομείς της παραπληροφόρησης, της ρητορικής μίσους και διαφόρων προκαταλήψεων που μπορεί να κρύβονται μέσα στο μοντέλο, με σκοπό τον προσεκτικό έλεγχο του μοντέλου για τον εντοπισμό σχετικών προβλημάτων στην χρήση του.
Επιπλέον, αναφέρει πως εργάζονται πάνω στην δημιουργία ενός εργαλείου ικανού να αναγνωρίζει τα βίντεο που παράγονται από το Sora, έτσι ώστε να περιοριστούν οι κακόβουλες ενέργειες με σκοπό την παραπληροφόρηση.
Επιπρόσθετα, η OpenAI τονίζει πως σχεδιάζουν να ενσωματώσουν μεταδεδομένα τύπου C2PA στις δημιουργίες του μοντέλου, έτσι ώστε να είναι ευκολότερος ο εντοπισμός των Α.Ι. βίντεο του Sora αν μελλοντικά ανοίξουν την πρόσβαση στο μοντέλο.
Το C2PA είναι μία νέα μέθοδος που χρησιμοποιείται για να μαρκάρονται ψηφιακά δεδομένα όπως εικόνες και βίντεο. Αυτό γίνεται με την προσθήκη μεταδεδομένων, δηλαδή στοιχείων που σχετίζονται με τον δημιουργό της εικόνας, την ημερομηνία, την τοποθεσία και άλλα. Επίσης, προσφέρει και μία μέθοδο ψηφιακής υπογραφής και ακόμα και την προσθήκη υδατογραφημάτων, αόρατα στο ανθρώπινο μάτι, αλλά πολύ βοηθητικά για την αναγνώριση A.I. περιεχομένου.
Ενώ φαίνεται σαν μία κίνηση προς την σωστή κατεύθυνση. Υπάρχουν αρκετοί τρόποι παράκαμψης αυτού του μέτρου και αφαίρεσης των μεταδεδομένων. Συνεπώς, δεν μπορεί να αποτελέσει από μόνο του ένα αποτρεπτικό μέσο για την προστασία απέναντι σε μία κακόβουλη ενέργεια με στόχο την παραπληροφόρηση.
Τεχνολογία
Πως όμως λειτουργεί το Sora; Δεν ξέρουμε την ακριβή αρχιτεκτονική του μοντέλου, ούτε τον τρόπο και τα δεδομένα που εκπαιδεύτηκε, καθώς η OpenAI δεν έχει δώσει αυτά τα στοιχεία στην δημοσιότητα. Όμως εξέδωσε μία αναφορά με κάποιες τεχνικές προδιαγραφές και έτσι μπορούμε να δούμε μερικές πληροφορίες για τον τρόπο λειτουργίας του μοντέλου.
Το μοντέλο είναι ένας μετασχηματιστής Diffusion. Δηλαδή χρησιμοποιεί την ίδια αρχιτεκτονική των “transformers” όπως και τα μεγάλα γλωσσικά μοντέλα τύπου ChatGPT, σε συνδυασμό με την τεχνολογία των μοντέλων “diffusion” που τα γνωρίσαμε μέσα από τις εφαρμογές δημιουργίας εικόνων όπως το DALL-E ή το MidJourney.
Τα μοντέλα Diffusion ξεκινάνε με κάτι που μοιάζει με απλό θόρυβο, και σταδιακά μέσα από μια σειρά επαναλήψεων, η εικόνα διαμορφώνεται έτσι ώστε να μοιάζει με το επιθυμητό αποτέλεσμα, δηλαδή την περιγραφή του χρήστη.
Τα γλωσσικά μοντέλα της αρχιτεκτονικής των transformers, λαμβάνουν σαν είσοδο κείμενο το οποίο το σπάνε σε μικρά τμήματα που ονομάζονται “tokens“. Συχνά, για ευκολία λέμε πως μία λέξη μπορεί να είναι ένα token, αλλά στην πραγματικότητα ένα token μπορεί να είναι ένα συγκεκριμένο πλήθος από χαρακτήρες, πχ. 4 χαρακτήρες.
Στην συνέχεια, το μοντέλο κωδικοποιεί αυτές τις “λέξεις” σε μία σειρά από αριθμούς και μέσω ενός μηχανισμού μαθαίνει πως σχετίζεται η κάθε λέξη με τις γειτονικές της.
Μετά ακολουθεί ένα άλλο δίκτυο, ένας αποκωδικοποιητής, ο οποίος λαμβάνει τις κωδικοποιημένες λέξεις σαν είσοδο και μαθαίνει να προβλέπει την επόμενη πιο ταιριαστή λέξη σε αυτή την σειρά. Αν θέλετε να μάθετε περισσότερα για το πως λειτουργούν τα μοντέλα transformers μπορείτε να δείτε το σχετικό βίντεο στο Tech to me About it στο YouTube.
Αντίστοιχα, στην περίπτωση του Sora, έχουμε σαν είσοδο απευθείας τα βίντεο που θέλουμε και το δίκτυο μαθαίνει να τα κωδικοποιεί σε μικρά κομμάτια που ονομάζονται “patches” (το ισοδύναμο του token). Αυτά τα κωδικοποιημένα patches εμπεριέχουν πληροφορίες για την θέση του περιεχομένου του βίντεο στον χώρο και στον χρόνο. Έπειτα, υπάρχει και εδώ ένας αποκωδικοποιητής που λαμβάνει αυτά τα patches σαν είσοδο και μαθαίνει να αναδημιουργεί το βίντεο ως αλληλουχίες πινάκων με pixel.
Ένα χαρακτηριστικό των transformers είναι πως όσο μεγαλώνει το δίκτυο, τόσο μεγαλώνουν και οι δυνατότητες του μοντέλου. Και αυτό ισχύει και στην περίπτωση του Sora. Με την ίδιες ακριβώς τεχνικές, αλλάζοντας μόνο το μέγεθος του δικτύου, φαίνεται πως παίρνουμε πολύ καλύτερα αποτελέσματα.
Επίλογος
Είναι πραγματικά εντυπωσιακό πως μέσα σε διάστημα ενός έτους, περάσαμε από τις αδέξιες προσπάθειες του Will Smith να τρώει μακαρόνια στα φωτο-ρεαλιστικά αποτελέσματα του Sora.
Η ταχύτητα που εξελίσσεται η τεχνολογία στον χώρο της παραγωγής βίντεο είναι αξιοθαύμαστη, όμως δικαίως δημιουργεί και αρκετές ανησυχίες. Η χρήση αυτών των εργαλείων για την δημιουργία ψεύτικων βίντεο με σκοπό την διασπορά ψευδών ειδήσεων και την παραπληροφόρηση είναι δεδομένη και δεν θα αργήσει να έρθει. Το ερώτημα είναι πόσο έτοιμοι είμαστε εμείς για αυτό που θα ακολουθήσει. Το τελευταίο διάστημα βλέπουμε ήδη εικόνες που έχουν δημιουργηθεί από Α.Ι. να κυκλοφορούν στα social media ως πραγματικές για την εξυπηρέτηση των σκοπών του κάθε χρήστη. Και φυσικά δεν χρησιμοποιούνται για αθώες πλάκες, αλλά για να πολώσουν τους χρήστες σε ευαίσθητα και σημαντικά θέματα. Και η αλήθεια είναι ότι όταν είμαστε θυμωμένοι και νευριασμένοι, η κριτική σκέψη έρχεται δυστυχώς σε δεύτερη μοίρα, με αποτέλεσμα να διαμοιραζόμαστε τις ψεύτικες εικόνες πολύ πιο εύκολα.
Ένας ανυποψίαστος χρήστης μπορεί να μην σκεφτεί καν δεύτερη φορά πριν κάνει share ένα ψεύτικο βίντεο, αγνοώντας τις δυνατότητες αυτών των νέων μοντέλων.
Θα πω λοιπόν ακόμα μία φορά πως η καλύτερη άμυνα που έχουμε αυτή την στιγμή και κάθε στιγμή είναι η δική μας εκπαίδευση και η εξοικείωση με τις νέες τεχνολογίες και τις δυνατότητες τους έτσι ώστε να είμαστε πιο υποψιασμένοι και να μην βιαζόμαστε να μοιραζόμαστε κάτι που μοιάζει αληθινό απλά και μόνο επειδή εξυπηρετεί το αφήγημα μας.