Jump to content



  • astrolabos
    astrolabos

    PaLM + RLHF: Ένα μοντέλο ανοικτού κώδικα σαν το ChatGPT

      Το πρώτο ισοδύναμο πρόγραμμα ανοιχτού κώδικα του ChatGPT έφτασε, αλλά καλή τύχη να το εκτελέσετε σε φορητό υπολογιστή

    Αυτή την εβδομάδα, ο Philip Wang, ο προγραμματιστής που είναι υπεύθυνος για την αντίστροφη μηχανική συστημάτων AI κλειστού κώδικα, συμπεριλαμβανομένου του Make-A-Video της Meta, κυκλοφόρησε το PaLM + RLHF, ένα μοντέλο δημιουργίας κειμένου που συμπεριφέρεται παρόμοια με το ChatGPT. Το σύστημα συνδυάζει το PaLM, ένα μεγάλο μοντέλο γλώσσας από την Google, και μια τεχνική που ονομάζεται Reinforcement Learning with Human FeedbackRLHF, εν συντομία — για να δημιουργήσει ένα σύστημα που μπορεί να ολοκληρώσει σχεδόν κάθε εργασία που μπορεί το ChatGPT, συμπεριλαμβανομένης της σύνταξης email και να προτείνει κώδικα για τη δημιουργία προγραμμάτων.

    Αλλά το PaLM + RLHF δεν έρχεται προεκπαιδευμένο. Δηλαδή, το σύστημα δεν έχει εκπαιδευτεί στα παραδείγματα δεδομένων από τον ιστό που είναι απαραίτητα για να λειτουργήσει πραγματικά. Η λήψη του PaLM + RLHF δεν θα εγκαταστήσει ως δια μαγείας μια εμπειρία παρόμοια με το ChatGPT — κάτι που θα απαιτούσε τη σύνταξη πολλών gigabyte κειμένου από το οποίο το μοντέλο μπορεί να μάθει και να βρει το υλικό αρκετά δυνατό για να χειριστεί τον φόρτο εργασίας της εκπαίδευσης.

    Όπως το ChatGPT, το PaLM + RLHF είναι ουσιαστικά ένα στατιστικό εργαλείο για την πρόβλεψη λέξεων. Όταν τροφοδοτείται ένας τεράστιος αριθμός παραδειγμάτων από δεδομένα εκπαίδευσης - π.χ. αναρτήσεις από το Reddit, άρθρα ειδήσεων και ηλεκτρονικά βιβλία - το PaLM + RLHF μαθαίνει πόσο πιθανό είναι να προκύψουν λέξεις με βάση μοτίβα όπως το σημασιολογικό πλαίσιο του περιβάλλοντος κειμένου.

    Το ChatGPT και το PaLM + RLHF μοιράζονται το Reinforcement Learning with Human Feedback, μια τεχνική που στοχεύει στην καλύτερη ευθυγράμμιση των γλωσσικών μοντέλων με αυτά που οι χρήστες επιθυμούν να επιτύχουν. Το RLHF περιλαμβάνει την εκπαίδευση ενός γλωσσικού μοντέλου — στην περίπτωση του PaLM + RLHF, το PaLM — και την τελειοποίηση του σε ένα σύνολο δεδομένων που περιλαμβάνει προτροπές (π.χ. «Εξηγήστε τη μηχανική μάθηση σε ένα παιδί έξι ετών») σε συνδυασμό με αυτό που περιμένουν οι εθελοντές από το μοντέλο να πούμε (π.χ. «Η μηχανική μάθηση είναι μια μορφή τεχνητής νοημοσύνης…»). Τα προαναφερθέντα μηνύματα τροφοδοτούνται στη συνέχεια στο βελτιστοποιημένο μοντέλο, το οποίο παράγει πολλές απαντήσεις και οι εθελοντές ταξινομούν όλες τις απαντήσεις από την καλύτερη στη χειρότερη. Τέλος, οι κατατάξεις χρησιμοποιούνται για την εκπαίδευση ενός «μοντέλου ανταμοιβής» που λαμβάνει τις απαντήσεις του αρχικού μοντέλου και τις ταξινομεί με σειρά προτίμησης, φιλτράροντας τις κορυφαίες απαντήσεις σε μια δεδομένη προτροπή.

    Είναι μια δαπανηρή διαδικασία, η συλλογή των δεδομένων εκπαίδευσης. Και η ίδια η εκπαίδευση δεν είναι φθηνή. Το PaLM έχει μέγεθος 540 δισεκατομμυρίων παραμέτρων. Με το μέγεθος «παράμετροι» αναφερόμαστε στα μέρη του γλωσσικού μοντέλου που μαθαίνονται από τα δεδομένα εκπαίδευσης. Μια μελέτη του 2020 καθόρισε τα έξοδα για την ανάπτυξη ενός μοντέλου δημιουργίας κειμένου με μόνο 1,5 δισεκατομμύρια παραμέτρους σε έως και 1,6 εκατομμύρια δολάρια. Και για την εκπαίδευση του μοντέλου ανοιχτού κώδικα Bloom, το οποίο έχει 176 δισεκατομμύρια παραμέτρους, χρειάστηκαν τρεις μήνες χρησιμοποιώντας 384 GPU Nvidia A100, με τη τιμή της μιας A100 να ανέρχεται σε χιλιάδες δολάρια.

    Η εκτέλεση ενός εκπαιδευμένου μοντέλου μεγέθους PaLM + RLHF δεν είναι επίσης ασήμαντο. Το Bloom απαιτεί έναν αποκλειστικό υπολογιστή με περίπου οκτώ GPU A100. Οι εναλλακτικές λύσεις στο cloud είναι ακριβές, μιας και το κόστος λειτουργίας του GPT-3 που δημιουργεί κείμενο του OpenAI — το οποίο έχει περίπου 175 δισεκατομμύρια παραμέτρους — σε μία μόνο παρουσία Υπηρεσιών Ιστού της Amazon να είναι περίπου 87.000 $ ετησίως.

    Ο Sebastian Raschka, ένας ερευνητής τεχνητής νοημοσύνης, επισημαίνει σε μια ανάρτηση στο LinkedIn σχετικά με το PaLM + RLHF ότι η κλιμάκωση των απαραίτητων ροών εργασίας για προγραμματιστές θα μπορούσε επίσης να αποδειχθεί μια πρόκληση. «Ακόμα κι αν κάποιος σας παρέχει 500 GPU για να εκπαιδεύσετε αυτό το μοντέλο, πρέπει να έχετε να αντιμετωπίσετε την υποδομή και να έχετε ένα πλαίσιο λογισμικού που μπορεί να το χειριστεί», είπε. "Είναι προφανώς δυνατό, αλλά είναι μια μεγάλη προσπάθεια αυτή τη στιγμή (φυσικά, αναπτύσσουμε πλαίσια για να το κάνουμε πιο απλό, αλλά δεν είναι ακόμα ασήμαντο)."

    Αυτό σημαίνει ότι το PaLM + RLHF δεν πρόκειται να αντικαταστήσει το ChatGPT άμεσα— εκτός εάν ένα καλά χρηματοδοτούμενο εγχείρημα (ή άτομο) μπει στον κόπο να εκπαιδεύσει και να το κάνει διαθέσιμο δημόσια.

    Στα καλά νέα τώρα, πολλές άλλες προσπάθειες για την αναπαραγωγή του ChatGPT προχωρούν με γρήγορους ρυθμούς. Μια από αυτές είναι υπό την ηγεσία μιας ερευνητικής ομάδας που ονομάζεται CarperAI. Σε συνεργασία με τον ανοιχτό ερευνητικό οργανισμό AI EleutherAI και τις startups Scale AI και Hugging Face, η CarperAI σχεδιάζει να κυκλοφορήσει το πρώτο έτοιμο προς εκτέλεση μοντέλο AI που μοιάζει με ChatGPT, εκπαιδευμένο με ανθρώπινη ανατροφοδότηση.

    Η LAION, ο μη κερδοσκοπικός οργανισμός που παρείχε το αρχικό σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση του Stable Diffusion, πρωτοστατεί επίσης σε ένα έργο για την αναπαραγωγή του ChatGPT χρησιμοποιώντας τις πιο πρόσφατες τεχνικές μηχανικής εκμάθησης. Φιλόδοξα, η LAION στοχεύει να δημιουργήσει έναν «βοηθό του μέλλοντος» — έναν που όχι μόνο γράφει email και συνοδευτικές επιστολές αλλά «κάνει ουσιαστική δουλειά, χρησιμοποιεί API, ερευνά δυναμικά πληροφορίες και πολλά άλλα». Είναι στα αρχικά στάδια. Αλλά μια σελίδα GitHub με πόρους για το έργο κυκλοφόρησε πριν από μερικές εβδομάδες.


    Πηγή
    Φωτογραφία: Basak Gurbuz Derman (opens in a new window)/ Getty Images
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.