Jump to content



  • astrolabos
    astrolabos

    Το OpenAI κυκλοφορεί το Point-E, το οποίο είναι σαν το DALL-E αλλά για 3D μοντελοποίηση

      Η ανάλυσή δεν είναι εξαιρετική, αλλά είναι έως και δύο φορές ταχύτερη από τα ανταγωνιστικά συστήματα.

    Η OpenAI, η startup τεχνητής νοημοσύνης του Elon Musk, που βρίσκεται πίσω από τη δημοφιλή συσκευή δημιουργίας κειμένου σε εικόνα DALL-E, ανακοίνωσε την Τρίτη την κυκλοφορία μιας νεότερης μηχανής δημιουργίας εικόνων, την POINT-E, η οποία μπορεί να παράγει τρισδιάστατα "σύννεφα σημείων" απευθείας από μηνύματα κειμένου. Ενώ τα υπάρχοντα συστήματα όπως το DreamFusion της Google απαιτούν συνήθως πολλές ώρες — και GPU — για να δημιουργήσουν τις εικόνες τους, το Point-E χρειάζεται μόνο μία GPU και ένα ή δύο λεπτά.

    Τα συστήματα Text-to-Image όπως το DALL-E 2 και το Craiyon του OpenAI, το DeepAI, το Lensa του Prisma Lab ή το Stable Diffusion του HuggingFace, έχουν κερδίσει γρήγορα δημοτικότητα, φήμη και αλλά και αρνητικές κριτικές τα τελευταία χρόνια. Το κείμενο σε 3D είναι ένα παρακλάδι αυτής της έρευνας. Το Point-E, σε αντίθεση με παρόμοια συστήματα, "εκμεταλλεύεται ένα μεγάλο σώμα ζευγών (κείμενο, εικόνα), επιτρέποντάς του να ακολουθεί ποικίλες και πολύπλοκες οδηγίες, ενώ το μοντέλο από εικόνα σε 3D εκπαιδεύεται σε ένα μικρότερο σύνολο ζευγαριών δεδομένων (εικόνα και 3D)», έγραψε η ερευνητική ομάδα OpenAI με επικεφαλής τον Alex Nichol στο Point E: A System for Generating 3D Point Cloud from Complex Prompts, που δημοσιεύτηκε την περασμένη εβδομάδα. "Για να δημιουργήσουμε ένα τρισδιάστατο αντικείμενο από γραμμή εντολών κειμένου, πρώτα δειγματίζουμε μια εικόνα χρησιμοποιώντας το μοντέλο κειμένου σε εικόνα και, στη συνέχεια, δειγματίζουμε ένα τρισδιάστατο αντικείμενο που εξαρτάται από την δειγματοληπτική εικόνα. Και τα δύο αυτά βήματα μπορούν να εκτελεστούν σε μερικά δευτερόλεπτα, και δεν απαιτούν ακριβές διαδικασίες βελτιστοποίησης».

    Εάν εισαγάγατε ένα μήνυμα κειμένου, ας πούμε, "Μια γάτα που τρώει ένα burrito", το Point-E θα δημιουργήσει πρώτα μια συνθετική προβολή 3D απόδοσης της εν λόγω γάτας που τρώει burrito. Στη συνέχεια, θα τρέξει αυτή την εικόνα που δημιουργείται μέσω μιας σειράς μοντέλων διάχυσης για να δημιουργήσει το τρισδιάστατο νέφος σημείων RGB της αρχικής εικόνας - πρώτα δημιουργώντας ένα χονδροειδές μοντέλο νέφους 1.024 σημείων και μετά ένα λεπτότερο 4.096 σημείων. «Στην πράξη, υποθέτουμε ότι η εικόνα περιέχει τις σχετικές πληροφορίες από το κείμενο και δεν ρυθμίζουμε ρητά τα σύννεφα σημείων στο κείμενο», επισημαίνει η ερευνητική ομάδα.

    Αυτά τα μοντέλα διάχυσης εκπαιδεύτηκαν το καθένα σε «εκατομμύρια» τρισδιάστατα μοντέλα, όλα μετατράπηκαν σε τυποποιημένες μορφές. «Ενώ η μέθοδός μας αποδίδει χειρότερα σε σχέση με τις τεχνικές αιχμής», παραδέχεται η ομάδα, «παράγει δείγματα σε μικρό κλάσμα του χρόνου». Εάν θέλετε να το δοκιμάσετε μόνοι σας, το OpenAI έχει δημοσιεύσει τον Open Source κώδικα του έργου στο Github.


    Πηγή
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.