GPT-4o: Ένα Μοντέλο που Συνδυάζει Εικόνα, Ήχο και Κείμενο

Κοινοποίηση:

GPT-4o: Ένα Μοντέλο που Συνδυάζει Εικόνα, Ήχο και Κείμενο

Μέχρι τώρα σίγουρα θα έχετε πέσει πάνω σε κάποιο βίντεο της OpenAI όπου παρουσιάζουν τις δυνατότητες του νέου μοντέλου GPT-4o. Στα βίντεο βλέπουμε το ChatGPT να μιλάει σε φυσική γλώσσα με πρωτογνωρους χρωματισμούς στην φωνή, εκφράζοντας συναισθήματα όπως χαρά και ενθουσιασμό. Επιπλέον, η συζήτηση μεταξύ των ανθρώπων και του ChatGPT γίνεται σε πραγματικό χρόνο, χωρίς τις καθυστερήσεις που μεσολαβούσαν πριν από κάθε απάντηση του ChatGPT μέχρι πρότινος.

Που οφείλονται αυτές οι νέες δυνατότητες;

Το “ο” στο όνομα του GPT-4o αναφέρεται στην λέξη “omni” που μπορούμε να μεταφράσουμε ελεύθερα ως “τα πάντα”. Το GPT-4o είναι ένα “πολυτροπικό” μοντέλο (multi-modal). Αυτό σημαίνει ότι μπορεί να δεχθεί σαν είσοδο και να παράγει σαν έξοδο κείμενο, εικόνες και ήχους.

Αν κάποιος έχει χρησιμοποιήσει το GPT-4 θα σκεφτεί πως αυτή δεν είναι μία νέα δυνατότητα. Το GPT-4 μπορεί ήδη να λάβει μία εικόνα ή την φωνή μας σαν είσοδο και αντίστοιχα να δημιουργήσει μία εικόνα ή να μας απαντήσει με την δική του φωνή. Όμως ο τρόπος που το κάνει έχει σημασία και είναι αυτό που κάνει την διαφορα.
Κατά την χρήση του ChatGPT σε λειτουργία φωνής, για παράδειγμα, χρησιμοποιούνται 3 διαφορετικά μοντέλα. Ένα μοντέλο για να μεταγράψει την φωνή σε κείμενο, ένα GPT μοντέλο που λαμβάνει το κείμενο σαν είσοδο και παράγει την απάντηση πάλι σαν κείμενο και ένα μοντέλο που μετατρέπει το κείμενο πάλι σε φωνή για να ακούσουμε την απάντηση.

Αυτή η διαδικασία δημιουργεί καθυστερήσεις της τάξης των 2.8 με 5.4 δευτερόλεπτα ανάλογα το μοντέλο. Με το GPT-4o ο χρόνος αυτός πέφτει στα 232 – 320ms πλησιάζοντας έτσι στα διαστήματα που μεσολαβούν σε μία ανθρώπινη συζήτηση. 

Το GPT-4o εκπαιδεύτηκε απευθείας με δεδομένα κειμένου, εικόνων και ήχου στο ίδιο μοντέλο. Με αυτόν τον τρόπο μπορεί να διαχειριστεί πολύ καλύτερα την πληροφορία που κρύβεται στον ήχο και τις εικόνες. Έτσι παρατηρούμε πως το GPT-4o μπορεί να αναγνωρίσει ξεχωριστούς ομιλητές, μπορεί να εκφράσει συναισθήματα ή διαφορετικούς τόνους στην ομιλία του, να τραγουδήσει ή και να γελάσει. Όλες αυτές οι δυνατότητες δεν ήταν εφικτές με τα παλαιότερα μοντέλα που βασίζονταν αποκλειστικά στο κείμενο.

Με βάση τις αναφορές τις OpenAI το GPT-4o αποδίδει το ίδιο καλά με το GPT-4 ενώ είναι πολύ ταχύτερο και 50% πιο οικονομικό για χρήση μέσα από το API. 

Διαθεσιμότητα

Η OpenAI έχει αρχίσει ήδη να διαθέτει το GPT-4ο μέσα από την εφαρμογή του ChatGPT με προτεραιότητα στους επί πληρωμή χρήστες, αλλά σταδιακά ανοίγει την πρόσβαση ακόμα και στους χρήστες με δωρεάν χρήση.

Τη στιγμή που γράφεται αυτό το κείμενο πιθανώς να έχετε ήδη πρόσβαση στο νέο μοντέλο μέσα από την σελίδα του chatGPT.

Οι χρήστες του GPT-4o θα μπορούν να πειραματιστούν με τις λειτουργίες κειμένου και εικόνας, όμως οι φωνητικές λειτουργίες και το βίντεο δεν θα είναι ακόμα διαθέσιμα. Η OpenAI σκοπεύει να ανοίξει τις δυνατότητες του ήχου και του βίντεο σε ένα περιορισμένο αριθμό δοκιμαστικών χρηστών τις επόμενες εβδομάδες. 

Παραδείγματα λειτουργίας

Οι δυνατότητες του GPT-4o να αλληλεπιδρά με τον κόσμο μας μέσω βίντεο εικόνων και ήχων ξεκλειδώνει πληθώρα νέων ενδεχομενων εφαρμογών. Το GPT-4o μπορεί να δει το περιβάλλον του μέσα από την κάμερα του κινητού, να αναγνωρίσει αντικείμενα και πρόσωπα και να μιλήσει μαζί τους, να τραγουδήσει, να κάνει αστεία και όλα αυτά με μία απόλυτα φυσική ομιλία εκφράζοντας διαφορετικά συναισθήματα ανάλογα με την περίσταση.

Στο κανάλι της OpenAI στο YouTube μπορείτε να βρείτε μία λίστα με παραδείγματα εφαρμογών χρησιμοποιώντας τις νέες δυνατότητες του GPT-4o.

Δείτε την λίστα εδώ

Αναφορικά παραθέτω παρακάτω μερικές εντυπωσιακές χρήσεις του GPT-4o:

  • Βοήθεια ανθρώπων με προβλήματα όρασης στην πλοήγηση μέσα στην πόλη
  • Μετάφραση ομιλίας σε πραγματικό χρόνο
  • Βοήθεια στην επίλυση μαθηματικών προβλημάτων
  • Βοήθεια στην μελέτη και σύνταξη κώδικα