Σήμερα, η Google ανακοίνωσε την ανάπτυξη του Imagen Video, μιας λειτουργίας τεχνητής νοημοσύνης κειμένου σε βίντεο ικανή να παράγει βίντεο 1280×768 σε 24 καρέ ανά δευτερόλεπτο από γραπτό κείμενο. Επί του παρόντος, βρίσκεται σε φάση έρευνας, αλλά η εμφάνισή του πέντε μήνες μετά το Google Imagen δείχνει την ταχεία ανάπτυξη μοντέλων σύνθεσης βίντεο.
Μόλις έξι μήνες μετά την κυκλοφορία της συσκευής δημιουργίας κειμένου σε εικόνα DALLE-2 του OpenAI, η πρόοδος στον τομέα των μοντέλων διάχυσης τεχνητής νοημοσύνης έχει αυξηθεί ραγδαία. Η ανακοίνωση για το Imagen Video της Google έρχεται λιγότερο από μία εβδομάδα αφότου η Meta παρουσίασε το εργαλείο τεχνητής νοημοσύνης κειμένου σε βίντεο, Make-A-Video.
Σύμφωνα με το ερευνητικό έγγραφο της Google, το Imagen Video περιλαμβάνει αρκετές αξιόλογες στιλιστικές ικανότητες, όπως η δημιουργία βίντεο βασισμένων στο έργο διάσημων ζωγράφων (πίνακες του Vincent van Gogh, για παράδειγμα), η δημιουργία τρισδιάστατων περιστρεφόμενων αντικειμένων διατηρώντας τη δομή του και την δημιουργία κειμένου με διάφορα στυλ. Η Google ελπίζει ότι τα μοντέλα σύνθεσης βίντεο γενικής χρήσης μπορούν "να μειώσουν σημαντικά τη δυσκολία δημιουργίας περιεχομένου υψηλής ποιότητας".
Το κλειδί για τις ικανότητες του Imagen Video είναι μια αλληλουχία επτά μοντέλων διάχυσης που μετατρέπουν το αρχικό κείμενο (για παράδειγμα "μια αρκούδα που πλένει τα πιάτα") σε βίντεο χαμηλής ανάλυσης (16 καρέ, 24×48 pixel, στα 3 fps ), στη συνέχεια το αναβαθμίζει σε προοδευτικά υψηλότερες αναλύσεις με υψηλότερους ρυθμούς καρέ σε κάθε βήμα. Η τελική έξοδος βίντεο διαρκεί 5,3 δευτερόλεπτα.
Παραδείγματα βίντεο που παρουσιάζονται στον ιστότοπο Imagen Video κυμαίνονται από τα συνηθισμένα ("Melting ice cream dripping down the cone") έως τα πιο φανταστικά ("Flying through a intense battle between πειρατικά ships on a stormy ocean.") Περιέχουν προφανή τεχνουργήματα, αλλά δείχνουν περισσότερη ρευστότητα και λεπτομέρεια από τα προηγούμενα μοντέλα κειμένου σε εικόνα όπως το CogVideo που έκανε το ντεμπούτο του πριν από πέντε μήνες.
Τα δεδομένα εκπαίδευσης για το Google Imagen Video προέρχονται από το δημοσίως διαθέσιμο σύνολο δεδομένων εικόνας-κειμένου LAION-400M και «14 εκατομμύρια ζεύγη βίντεο-κειμένου και 60 εκατομμύρια ζεύγη εικόνας-κειμένου», σύμφωνα με την Google. Ως αποτέλεσμα, έχει εκπαιδευτεί σε «προβληματικά δεδομένα» που φιλτράρονται από την Google, αλλά εξακολουθεί να μπορεί να περιέχει σεξουαλικό ή/και βίαιο περιεχόμενο —καθώς και κοινωνικά στερεότυπα και πολιτισμικές προκαταλήψεις. Η εταιρεία ανησυχεί επίσης ότι το εργαλείο της μπορεί να χρησιμοποιηθεί "για τη δημιουργία αμφιλεγόμενου περιεχομένου (fake news, ρητορική μίσους ή ακατάλληλου περιεχόμενου)".
Ως αποτέλεσμα, είναι απίθανο να δούμε να κυκλοφορήσει σύντομα: "Αποφασίσαμε να μην κυκλοφορήσουμε το μοντέλο Imagen Video ή τον πηγαίο κώδικα του μέχρι να μετριαστούν αυτές οι ανησυχίες", λέει η Google.
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now