Πως να Δημιουργήσεις Αυτόματα Υπότιτλους για Ένα YouTube Video με το Whisper
Πως να Δημιουργήσεις Αυτόματα Υπότιτλους για Ένα YouTube Video με το Whisper
Περιεχόμενα:
- Τι είναι το Whisper
- Χρήση Whisper στο Google Colab
- Αποτελέσματα
Τι είναι το Whisper
Το Whisper είναι μία εφαρμογή αυτόματης αναγνώρισης ομιλίας που δημιουργήθηκε από την OpenAI. To μοντέλο του Whisper έχει εκπαιδευτεί σε 680000 ώρες ομιλίας από διαφορετικές γλώσσες. Ως αποτέλεσμα μπορεί να δημιουργήσει υπότιτλους για ένα οποιοδήποτε βίντεο ή ήχο, με πολύ μεγάλη ακρίβεια.
Το YouTube δεν προσφέρει ακόμα εργαλεία για την δημιουργία αυτόματων υποτίτλων στα Ελληνικά. Η δημιουργία σωστού υποτιτλισμού και ο συγχρονισμός τους με την φωνή ενός βίντεο μπορεί να γίνει αρκετά απαιτητική διαδικασία. Όμως με το Whisper μπορούμε να αυτοματοποιήσουμε αυτή την χρονοβόρα διαδικασία.
Ο κώδικας του Whisper και το εκπαιδευμένο μοντέλο του είναι ανοιχτού κώδικα και έτσι μπορούμε να τα εγκαταστήσουμε και να τα χρησιμοποιήσουμε εντελώς δωρεάν.
Σε αυτό το tutorial θα δούμε πως μπορούμε να χρησιμοποιήσουμε εύκολα και γρήγορα το Whisper μέσα από ένα colab notebook.
Χρήση Whisper στο Google Colab
Για να ξεκινήσουμε θα ανοίξουμε το σχετικό colab notebook.
Η διαδικασία που θα ακολουθήσουμε είναι πολύ απλή.
Ένα colab notebook είναι σαν ένα σημειωματάριο που συνδυάζει κείμενο με εκτελέσιμο κώδικα.
Μπορούμε να εκτελέσουμε ένα μπλοκ κώδικα πατώντας τα κουμπάκια με το βελάκι στα αριστερά κάθε μπλοκ. Συνήθως όταν ανοίγουμε ένα colab notebook ξεκινάμε και πατάμε τα κουμπάκια με την σειρά. Αυτή τη φορά όμως θα κάνουμε τα πράγματα λίγο πιο εύκολα.
Πριν ξεκινήσουμε όμως θα βεβαιωθούμε ότι ο κώδικας μας θα τρέξει σε GPU και όχι σε CPU για λόγους ταχύτητας. Για να το κάνουμε αυτό επιλέγουμε από την πάνω μπάρα Runtime -> Change runtime type -> T4 GPU -> Save
- Πάμε στην ενότητα “Ρυθμίσεις” και βρίσκουμε το πεδίο “youtube_link“. Εκεί θα κάνουμε επικόλληση τον σύνδεσμο του YouTube βίντεο για το οποίο θέλουμε να δημιουργήσουμε τους υπότιτλους.
- Αυτή είναι η μόνη επιλογή που χρειάζεται να ρυθμίσουμε. Οπότε, σε αυτό το σημείο πάμε στην αρχή του notebook και κάνουμε κλικ στο πρώτο μπλοκ κώδικα με το όνομα “whisper setup” για να το επιλέξουμε και στην συνέχεια πατάμε τα πλήκτρα “Ctrl” + “F10” στο πληκτρολόγιο μας. Αυτή η συντόμευση θα εκτελέσει αυτόματα όλα τα μπλοκ κώδικα του colab notebook με την σειρά.
- Πατάμε “Run anyway” στο σχετικό παράθυρο και περιμένουμε να ολοκληρωθεί η εκτέλεση.
Αποτελέσματα
Όταν ολοκληρωθεί η εκτέλεση και του τελευταίου μπλοκ, οι υπότιτλοι είναι έτοιμοι.
Για να κατεβάσουμε τους υπότιτλους, επιλέγουμε την πλοήγηση αρχείων του colab στα αριστερά της οθόνης και βρίσκουμε το αρχείο με όνομα “myfile.srt”. Πατάμε δεξί κλικ και επιλέγουμε “Download”.
Οι υπότιτλοι είναι έτοιμοι με τον κατάλληλο χρονισμό στην παρακάτω μορφή:
6
00:00:19,280 --> 00:00:23,760
Τι θα λέγατε αν σας έλεγα πως ξέρετε ήδη πως λειτουργούν τα νευρωνικά δίκτυα.
7
00:00:23,840 --> 00:00:28,400
Σχεδόν τα πάντα ή τουλάχιστον ένα πολύ μεγάλο ποσοστό της μηχανικής μάθησης
8
00:00:28,400 --> 00:00:32,400
μπορεί να εξηγηθεί με τη βοήθεια της γραμμικής άλγευρας.
9
00:00:33,040 --> 00:00:34,560
Όπα όπα, μη φεύγεις.
Φυσικά, είναι πιθανό να υπάρχουν αστοχίες σε κάποιες γραμμές υποτίτλων, όμως το τελικό αποτέλεσμα είναι ικανοποιητικό και μπορεί να μας γλιτώσει πολύ χρόνο.