Το Imagen Video δημιουργεί HD βίντεο από κείμενο

Σήμερα, η Google ανακοίνωσε την ανάπτυξη του Imagen Video, μιας λειτουργίας τεχνητής νοημοσύνης κειμένου σε βίντεο ικανή να παράγει βίντεο 1280×768 σε 24 καρέ ανά δευτερόλεπτο από γραπτό κείμενο. Επί του παρόντος, βρίσκεται σε φάση έρευνας, αλλά η εμφάνισή του πέντε μήνες μετά το Google Imagen δείχνει την ταχεία ανάπτυξη μοντέλων σύνθεσης βίντεο.

Μόλις έξι μήνες μετά την κυκλοφορία της συσκευής δημιουργίας κειμένου σε εικόνα DALLE-2 του OpenAI, η πρόοδος στον τομέα των μοντέλων διάχυσης τεχνητής νοημοσύνης έχει αυξηθεί ραγδαία. Η ανακοίνωση για το Imagen Video της Google έρχεται λιγότερο από μία εβδομάδα αφότου η Meta παρουσίασε το εργαλείο τεχνητής νοημοσύνης κειμένου σε βίντεο, Make-A-Video.

Σύμφωνα με το ερευνητικό έγγραφο της Google, το Imagen Video περιλαμβάνει αρκετές αξιόλογες στιλιστικές ικανότητες, όπως η δημιουργία βίντεο βασισμένων στο έργο διάσημων ζωγράφων (πίνακες του Vincent van Gogh, για παράδειγμα), η δημιουργία τρισδιάστατων περιστρεφόμενων αντικειμένων διατηρώντας τη δομή του και την δημιουργία κειμένου με διάφορα στυλ. Η Google ελπίζει ότι τα μοντέλα σύνθεσης βίντεο γενικής χρήσης μπορούν "να μειώσουν σημαντικά τη δυσκολία δημιουργίας περιεχομένου υψηλής ποιότητας".

Το κλειδί για τις ικανότητες του Imagen Video είναι μια αλληλουχία επτά μοντέλων διάχυσης που μετατρέπουν το αρχικό κείμενο (για παράδειγμα "μια αρκούδα που πλένει τα πιάτα") σε βίντεο χαμηλής ανάλυσης (16 καρέ, 24×48 pixel, στα 3 fps ), στη συνέχεια το αναβαθμίζει σε προοδευτικά υψηλότερες αναλύσεις με υψηλότερους ρυθμούς καρέ σε κάθε βήμα. Η τελική έξοδος βίντεο διαρκεί 5,3 δευτερόλεπτα.

Παραδείγματα βίντεο που παρουσιάζονται στον ιστότοπο Imagen Video κυμαίνονται από τα συνηθισμένα ("Melting ice cream dripping down the cone") έως τα πιο φανταστικά ("Flying through a intense battle between πειρατικά ships on a stormy ocean.") Περιέχουν προφανή τεχνουργήματα, αλλά δείχνουν περισσότερη ρευστότητα και λεπτομέρεια από τα προηγούμενα μοντέλα κειμένου σε εικόνα όπως το CogVideo που έκανε το ντεμπούτο του πριν από πέντε μήνες.

Τα δεδομένα εκπαίδευσης για το Google Imagen Video προέρχονται από το δημοσίως διαθέσιμο σύνολο δεδομένων εικόνας-κειμένου LAION-400M και «14 εκατομμύρια ζεύγη βίντεο-κειμένου και 60 εκατομμύρια ζεύγη εικόνας-κειμένου», σύμφωνα με την Google. Ως αποτέλεσμα, έχει εκπαιδευτεί σε «προβληματικά δεδομένα» που φιλτράρονται από την Google, αλλά εξακολουθεί να μπορεί να περιέχει σεξουαλικό ή/και βίαιο περιεχόμενο —καθώς και κοινωνικά στερεότυπα και πολιτισμικές προκαταλήψεις. Η εταιρεία ανησυχεί επίσης ότι το εργαλείο της μπορεί να χρησιμοποιηθεί "για τη δημιουργία αμφιλεγόμενου περιεχομένου (fake news, ρητορική μίσους ή ακατάλληλου περιεχόμενου)".

Ως αποτέλεσμα, είναι απίθανο να δούμε να κυκλοφορήσει σύντομα: "Αποφασίσαμε να μην κυκλοφορήσουμε το μοντέλο Imagen Video ή τον πηγαίο κώδικα του μέχρι να μετριαστούν αυτές οι ανησυχίες", λέει η Google.

Πηγή

Φωτογραφία: Google

User Feedback

0 Comments

Recommended Comments

There are no comments to display.

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign in

Already have an account? Sign in here.

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.

Sign In

Το Imagen Video δημιουργεί HD βίντεο από κείμενο

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Η Google Δοκιμάζει Αυτόματη Αλλαγή Κωδικών στον Chrome για Αυξημένη Ασφάλεια

Κουραστήκατε να σχεδιάζετε χειροκίνητα διαφάνειες στο LibreOffice Impress; Ας αποκτήσουμε αυτόματες ιδέες σχεδίασης!

Η Apple εξηγεί γιατί δεν σχεδιάζει να δημιουργήσει μια μηχανή αναζήτησης

Google Gemini 2.0: Το νέο άλμα της τεχνητής νοημοσύνης με έμφαση στην αυτονομία και τις πολυγλωσσικές δυνατότητες

Η Google αποκαλύπτει το Willow: Το chip κβαντικής υπεροχής* που ανοίγει την πόρτα στο πολυσύμπαν

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information