Η Microsoft ανακοίνωσε την πρώτη διαδραστική υλοποίηση του WHAMM, ενός μοντέλου τεχνητής νοημοσύνης ικανό να προσομοιώνει gameplay σε πραγματικό χρόνο. Στο επίκεντρο βρίσκεται μια AI έκδοση του Quake II, η οποία λειτουργεί μέσα από το Copilot Labs και επιτρέπει στον χρήστη να «παίζει» μέσα στο μοντέλο, όχι απλώς να το βλέπει.
Τι είναι το WHAMM;
Το WHAMM (World and Human Action MaskGIT Model) είναι εξέλιξη του WHAM, ενός μοντέλου που δημοσιεύτηκε πρόσφατα στο περιοδικό Nature. Σε αντίθεση με το προηγούμενο WHAM-1.6B που μπορούσε να δημιουργεί μόνο 1 εικόνα ανά δευτερόλεπτο, το WHAMM φτάνει τα 10+ frames το δευτερόλεπτο, επιτρέποντας αλληλεπίδραση με πληκτρολόγιο ή χειριστήριο – δηλαδή πραγματικό παιχνίδι.
Η αρχιτεκτονική βασίζεται σε δύο transformers: το “Backbone” (~500M παραμέτρους) για την αρχική παραγωγή εικόνας και το “Refinement” (~250M παραμέτρους) για τη σταδιακή βελτίωση του αποτελέσματος με τεχνικές τύπου MaskGIT. Το αποτέλεσμα είναι υψηλότερη ταχύτητα, διπλάσια ανάλυση (640x360), και αισθητή αύξηση στην ποιότητα.
Πόση εκπαίδευση χρειάζεται ένα τέτοιο μοντέλο;
Εντυπωσιακά, η εκπαίδευση του WHAMM δεν χρειάστηκε χρόνια gameplay, όπως το WHAM-1.6B (το οποίο εκπαιδεύτηκε σε 7 χρόνια δεδομένων), αλλά μόλις μία εβδομάδα. Αυτό επετεύχθη με στοχευμένο testing από επαγγελματίες παίκτες σε ένα και μόνο επίπεδο του Quake II, με πλήρη έλεγχο των σεναρίων που συλλέχθηκαν ως δεδομένα.
Τι μπορεί να κάνει;
Ο χρήστης μπορεί να κινείται, να στρέφει την κάμερα, να πηδά, να πυροβολεί, να καταστρέφει αντικείμενα και να αλληλεπιδρά με το περιβάλλον, όπως βαρέλια και αντικείμενα. Το εντυπωσιακό είναι πως ακόμα και εικόνες ή αντικείμενα που εισάγονται στο περιβάλλον από τον χρήστη παραμένουν και μπορούν να χρησιμοποιηθούν, π.χ. μια power cell.
Περιορισμοί της υλοποίησης
Παρά τις εκπληκτικές δυνατότητες, η Microsoft επισημαίνει αρκετά όρια:
-
Η εμπειρία περιορίζεται σε ένα μέρος ενός μόνο επιπέδου του Quake II.
-
Οι εχθροί δεν ανταποκρίνονται αξιόπιστα (η μάχη και τα animations είναι ασαφή).
-
Η “μνήμη” του μοντέλου φτάνει μόνο ~0.9 δευτερόλεπτα (9 frames) – κάτι που προκαλεί «ξεχάσματα» αν αντικείμενα μείνουν εκτός κάδρου.
-
Η ακρίβεια σε μετρήσεις όπως η υγεία (health) είναι περιορισμένη.
-
Υπάρχει αισθητή καθυστέρηση (latency) κατά την αλληλεπίδραση μέσω cloud.
Παρόλα αυτά, η εμπειρία παραμένει πρωτοποριακή ως «τεχνολογικό demo» και αποδεικνύει τις δυνατότητες των real-time generative models στο gaming.
Τι ακολουθεί;
Η Microsoft βλέπει το WHAMM ως ένα πρώτο βήμα για νέου τύπου διαδραστικά ψηφιακά περιβάλλοντα, όπου η πραγματικότητα ενός παιχνιδιού δεν χρειάζεται καν μηχανή γραφικών (game engine), αλλά μπορεί να προκύψει από μοντέλα μηχανικής μάθησης. Το WHAMM ίσως είναι η αρχή μιας εποχής όπου τα AI μοντέλα θα “παίζουν” μαζί μας αντί να μας “δείχνουν” μόνο εικόνες.
Σύντομος Πίνακας: WHAMM vs WHAM-1.6B
Χαρακτηριστικό | WHAM-1.6B | WHAMM |
---|---|---|
Frames ανά δευτερόλεπτο | 1 | 10+ |
Ανάλυση | 300×180 | 640×360 |
Εκπαίδευση | 7 χρόνια gameplay | 1 εβδομάδα (στοχευμένο) |
Game | Bleeding Edge | Quake II (1 επίπεδο) |
Εχθροί | Όχι | Ναι (περιορισμένοι) |
Περιβάλλον | Στατικό | Αλληλεπιδραστικό |
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now