Η OpenAI, η startup τεχνητής νοημοσύνης του Elon Musk, που βρίσκεται πίσω από τη δημοφιλή συσκευή δημιουργίας κειμένου σε εικόνα DALL-E, ανακοίνωσε την Τρίτη την κυκλοφορία μιας νεότερης μηχανής δημιουργίας εικόνων, την POINT-E, η οποία μπορεί να παράγει τρισδιάστατα "σύννεφα σημείων" απευθείας από μηνύματα κειμένου. Ενώ τα υπάρχοντα συστήματα όπως το DreamFusion της Google απαιτούν συνήθως πολλές ώρες — και GPU — για να δημιουργήσουν τις εικόνες τους, το Point-E χρειάζεται μόνο μία GPU και ένα ή δύο λεπτά.
Τα συστήματα Text-to-Image όπως το DALL-E 2 και το Craiyon του OpenAI, το DeepAI, το Lensa του Prisma Lab ή το Stable Diffusion του HuggingFace, έχουν κερδίσει γρήγορα δημοτικότητα, φήμη και αλλά και αρνητικές κριτικές τα τελευταία χρόνια. Το κείμενο σε 3D είναι ένα παρακλάδι αυτής της έρευνας. Το Point-E, σε αντίθεση με παρόμοια συστήματα, "εκμεταλλεύεται ένα μεγάλο σώμα ζευγών (κείμενο, εικόνα), επιτρέποντάς του να ακολουθεί ποικίλες και πολύπλοκες οδηγίες, ενώ το μοντέλο από εικόνα σε 3D εκπαιδεύεται σε ένα μικρότερο σύνολο ζευγαριών δεδομένων (εικόνα και 3D)», έγραψε η ερευνητική ομάδα OpenAI με επικεφαλής τον Alex Nichol στο Point E: A System for Generating 3D Point Cloud from Complex Prompts, που δημοσιεύτηκε την περασμένη εβδομάδα. "Για να δημιουργήσουμε ένα τρισδιάστατο αντικείμενο από γραμμή εντολών κειμένου, πρώτα δειγματίζουμε μια εικόνα χρησιμοποιώντας το μοντέλο κειμένου σε εικόνα και, στη συνέχεια, δειγματίζουμε ένα τρισδιάστατο αντικείμενο που εξαρτάται από την δειγματοληπτική εικόνα. Και τα δύο αυτά βήματα μπορούν να εκτελεστούν σε μερικά δευτερόλεπτα, και δεν απαιτούν ακριβές διαδικασίες βελτιστοποίησης».
Εάν εισαγάγατε ένα μήνυμα κειμένου, ας πούμε, "Μια γάτα που τρώει ένα burrito", το Point-E θα δημιουργήσει πρώτα μια συνθετική προβολή 3D απόδοσης της εν λόγω γάτας που τρώει burrito. Στη συνέχεια, θα τρέξει αυτή την εικόνα που δημιουργείται μέσω μιας σειράς μοντέλων διάχυσης για να δημιουργήσει το τρισδιάστατο νέφος σημείων RGB της αρχικής εικόνας - πρώτα δημιουργώντας ένα χονδροειδές μοντέλο νέφους 1.024 σημείων και μετά ένα λεπτότερο 4.096 σημείων. «Στην πράξη, υποθέτουμε ότι η εικόνα περιέχει τις σχετικές πληροφορίες από το κείμενο και δεν ρυθμίζουμε ρητά τα σύννεφα σημείων στο κείμενο», επισημαίνει η ερευνητική ομάδα.
Αυτά τα μοντέλα διάχυσης εκπαιδεύτηκαν το καθένα σε «εκατομμύρια» τρισδιάστατα μοντέλα, όλα μετατράπηκαν σε τυποποιημένες μορφές. «Ενώ η μέθοδός μας αποδίδει χειρότερα σε σχέση με τις τεχνικές αιχμής», παραδέχεται η ομάδα, «παράγει δείγματα σε μικρό κλάσμα του χρόνου». Εάν θέλετε να το δοκιμάσετε μόνοι σας, το OpenAI έχει δημοσιεύσει τον Open Source κώδικα του έργου στο Github.
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now