Στο ραγδαία εξελισσόμενο τοπίο των εργαλείων δημιουργίας έργων τέχνης με τεχνητή νοημοσύνη, οι ερευνητές της Nvidia παρουσίασαν μια καινοτόμο νέα μέθοδο εξατομίκευσης κειμένου σε εικόνα που ονομάζεται Perfusion. Δεν πρόκειται όμως για ένα σούπερ βαρύ μοντέλο εκατομμυρίων δολαρίων όπως οι ανταγωνιστές του. Με μέγεθος μόλις 100KB και χρόνο εκπαίδευσης 4 λεπτών, το Perfusion επιτρέπει σημαντική δημιουργική ευελιξία στην απεικόνιση εξατομικευμένων εννοιών, διατηρώντας παράλληλα την ταυτότητά τους.
Το Perfusion παρουσιάστηκε σε μια ερευνητική εργασία που δημιουργήθηκε από τη Nvidia και το Πανεπιστήμιο Τελ Αβίβ στο Ισραήλ. Παρά το μικρό μέγεθός του, είναι σε θέση να ξεπεράσει τις κορυφαίες γεννήτριες τέχνης AI, όπως η Stable Diffusion v1.5 της Stability AI, η πρόσφατα κυκλοφόρησα Stable Diffusion XL (SDXL) και η MidJourney, όσον αφορά την αποτελεσματικότητα συγκεκριμένων εκδόσεων.
Η κύρια νέα ιδέα στην Perfusion ονομάζεται "Key-Locking". Αυτό λειτουργεί συνδέοντας νέες έννοιες που θέλει να προσθέσει ο χρήστης, όπως μια συγκεκριμένη γάτα ή καρέκλα, με μια γενικότερη κατηγορία κατά τη διάρκεια της δημιουργίας εικόνων. Για παράδειγμα, η γάτα θα συνδεθεί με την ευρύτερη ιδέα του "αιλουροειδούς". Αυτό βοηθά στην αποφυγή της υπερβολικής προσαρμογής, δηλαδή όταν το μοντέλο συντονίζεται πολύ στενά στα ακριβή παραδείγματα εκπαίδευσης. Η υπερβολική προσαρμογή δυσκολεύει την τεχνητή νοημοσύνη να δημιουργήσει νέες δημιουργικές εκδοχές της έννοιας. Συνδέοντας τη νέα γάτα με τη γενική έννοια του αιλουροειδούς, το μοντέλο μπορεί να απεικονίσει τη γάτα σε πολλές διαφορετικές πόζες, εμφανίσεις και περιβάλλοντα. Αλλά εξακολουθεί να διατηρεί την ουσιαστική "γατίσια" ιδιότητα που την κάνει να μοιάζει με την προοριζόμενη γάτα και όχι με οποιοδήποτε τυχαίο αιλουροειδές. Έτσι, με απλά λόγια, το Key-Locking επιτρέπει στην Τεχνητή Νοημοσύνη να απεικονίζει ευέλικτα εξατομικευμένες έννοιες, διατηρώντας παράλληλα την βασική τους ταυτότητα. Είναι σαν να δίνεις σε έναν καλλιτέχνη τις ακόλουθες οδηγίες: "Ζωγράφισε τον γάτο μου Tom, ενώ κοιμάται, παίζει με νήματα και μυρίζει λουλούδια".
Γιατί η Nvidia πιστεύει ότι το λιγότερο είναι περισσότερο
Η Perfusion επιτρέπει επίσης τον συνδυασμό πολλαπλών εξατομικευμένων εννοιών σε μία εικόνα με φυσικές αλληλεπιδράσεις, σε αντίθεση με τα υπάρχοντα εργαλεία που μαθαίνουν τις έννοιες μεμονωμένα. Οι χρήστες μπορούν να καθοδηγήσουν τη διαδικασία δημιουργίας εικόνας μέσω προτροπών κειμένου, συγχωνεύοντας έννοιες όπως μια συγκεκριμένη γάτα και μια καρέκλα.
Το Perfusion προσφέρει ένα αξιοσημείωτο χαρακτηριστικό που επιτρέπει στους χρήστες να ελέγχουν την ισορροπία μεταξύ της οπτικής πιστότητας (η εικόνα) και της ευθυγράμμισης κειμένου (η προτροπή) κατά τη διάρκεια της εξαγωγής συμπερασμάτων, ρυθμίζοντας ένα μόνο μοντέλο 100KB. Αυτή η δυνατότητα επιτρέπει στους χρήστες να εξερευνούν εύκολα το μέτωπο Pareto (ομοιότητα κειμένου έναντι ομοιότητας εικόνας) και να επιλέγουν το βέλτιστο συμβιβασμό που ταιριάζει στις συγκεκριμένες ανάγκες τους, και όλα αυτά χωρίς την ανάγκη επανεκπαίδευσης. Είναι σημαντικό να σημειωθεί ότι η εκπαίδευση ενός μοντέλου απαιτεί κάποια φινέτσα. Η υπερβολική εστίαση στην αναπαραγωγή του μοντέλου οδηγεί στο να παράγει το μοντέλο την ίδια έξοδο ξανά και ξανά και το να το κάνετε να ακολουθεί την προτροπή πολύ στενά χωρίς ελευθερία συνήθως παράγει ένα κακό αποτέλεσμα. Η ευελιξία για να ρυθμίσετε πόσο κοντά στην προτροπή βρίσκεται η γεννήτρια είναι ένα σημαντικό κομμάτι της προσαρμογής
Άλλες γεννήτριες εικόνων τεχνητής νοημοσύνης διαθέτουν τρόπους για τους χρήστες να ρυθμίζουν λεπτομερώς την έξοδο, αλλά είναι ογκώδεις. Ως αναφορά, ένα LoRA είναι μια δημοφιλής μέθοδος λεπτής ρύθμισης που χρησιμοποιείται στο Stable Diffusion. Μπορεί να προσθέσει οπουδήποτε από δεκάδες megabyte έως και πάνω από ένα gigabyte (GB) στην εφαρμογή. Μια άλλη μέθοδος, οι ενσωμάτωση αντιστροφής κειμένου, είναι ελαφρύτερη αλλά λιγότερο ακριβής. Ένα μοντέλο που εκπαιδεύεται με τη χρήση του Dreambooth, της πιο ακριβούς τεχνικής αυτή τη στιγμή, ζυγίζει περισσότερα από 2 GB.
Συγκριτικά, η Nvidia αναφέρει ότι η Perfusion παράγει ανώτερη οπτική ποιότητα και ευθυγράμμιση με τις προτροπές σε σχέση με τις κορυφαίες τεχνικές τεχνητής νοημοσύνης που αναφέρθηκαν προηγουμένως. Το εξαιρετικά αποδοτικό μέγεθος καθιστά δυνατή την ενημέρωση μόνο των τμημάτων που χρειάζεται όταν τελειοποιεί τον τρόπο παραγωγής μιας εικόνας, σε σύγκριση με το αποτύπωμα πολλών GB των μεθόδων που τελειοποιούν ολόκληρο το μοντέλο.
Η έρευνα αυτή ευθυγραμμίζεται με την αυξανόμενη εστίαση της Nvidia στην τεχνητή νοημοσύνη. Η μετοχή της εταιρείας σημείωσε άνοδο πάνω από 230% το 2023, καθώς οι GPU της συνεχίζουν να κυριαρχούν στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Με οντότητες όπως η Anthropic, η Google, η Microsoft και η Baidu να ρίχνουν δισεκατομμύρια στη γενεσιουργό AI, το καινοτόμο μοντέλο Perfusion της Nvidia θα μπορούσε να της δώσει ένα πλεονέκτημα.
Η Nvidia έχει παρουσιάσει προς το παρόν μόνο το ερευνητικό έγγραφο, υποσχόμενη να κυκλοφορήσει σύντομα τον κώδικα.
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now