Την περασμένη εβδομάδα, ο Ελβετός μηχανικός λογισμικού Matthias Buhlmann ανακάλυψε ότι το δημοφιλές μοντέλο σύνθεσης εικόνας Stable Diffusion θα μπορούσε να συμπιέσει υπάρχουσες εικόνες bitmap με λιγότερα οπτικά artifacts από το JPEG ή το WebP σε υψηλούς λόγους συμπίεσης, αν και υπάρχουν αρκετά και σημαντικά θέματα προς επίλυση. Το Stable Diffusion είναι ένα μοντέλο σύνθεσης εικόνας AI που συνήθως δημιουργεί εικόνες με βάση περιγραφές κειμένου (που ονομάζονται "προτροπές"). Το μοντέλο AI έμαθε αυτή την ικανότητα μελετώντας εκατομμύρια εικόνες που έχουν τραβηχτεί από το Διαδίκτυο. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το μοντέλο κάνει στατιστικούς συσχετισμούς μεταξύ εικόνων και σχετικών λέξεων, κάνοντας μια πολύ μικρότερη αναπαράσταση βασικών πληροφοριών για κάθε εικόνα και αποθηκεύοντάς τες ως "βάρη", τα οποία είναι μαθηματικές τιμές που αντιπροσωπεύουν αυτό που γνωρίζει το μοντέλο εικόνας AI.
Όταν το Stable Diffusion αναλύει και «συμπιέζει» τις εικόνες σε μορφή βάρους, αυτές βρίσκονται σε αυτό που οι ερευνητές αποκαλούν «λανθάνον χώρο», που είναι ένας τρόπος να πούμε ότι υπάρχουν ως ένα είδος "ασαφούς δυναμικού" (latent space) που μπορεί να πραγματοποιηθεί σε εικόνες μόλις αποκωδικοποιηθούν . Με το Stable Diffusion 1.4, το αρχείο βάρους είναι περίπου 4 GB, αλλά αντιπροσωπεύει γνώση για εκατοντάδες εκατομμύρια εικόνες. Ενώ οι περισσότεροι χρησιμοποιούν το Stable Diffusion με text prompts, ο Buhlmann έκοψε τον κωδικοποιητή κειμένου και αντ' αυτού αναγκάζει τις εικόνες μέσω της διαδικασίας του κωδικοποιητή εικόνας του Stable Diffusion, η οποία παίρνει μια εικόνα χαμηλής ακρίβειας 512x512 και τη μετατρέπει σε αναπαράσταση λανθάνοντος χώρου υψηλότερης ακρίβειας 64x64. Σε αυτό το σημείο, η εικόνα υπάρχει σε πολύ μικρότερο μέγεθος δεδομένων από το πρωτότυπο, αλλά εξακολουθεί να μπορεί να επεκταθεί (αποκωδικοποιηθεί) σε μια εικόνα 512x512 με αρκετά καλά αποτελέσματα.
Κατά την εκτέλεση δοκιμών, ο Buhlmann διαπίστωσε ότι οι εικόνες που συμπιέζονταν με το Stable Diffusion, φαίνονται υποκειμενικά καλύτερες σε υψηλότερους λόγους συμπίεσης (μικρότερο μέγεθος αρχείου) από το JPEG ή το WebP. Σε ένα παράδειγμα, δείχνει μια φωτογραφία ενός ζαχαροπλαστείου που είναι συμπιεσμένη στα 5,68 KB χρησιμοποιώντας JPEG, 5,71 KB χρησιμοποιώντας WebP και 4,98 KB χρησιμοποιώντας το Stable Diffusion. Η εικόνα Stable Diffusion φαίνεται να έχει περισσότερες επιλυμένες λεπτομέρειες και λιγότερα εμφανή τεχνουργήματα συμπίεσης από εκείνα που συμπιέζονται σε άλλες μορφές. Ωστόσο, η μέθοδος του Buhlmann έχει επί του παρόντος σημαντικούς περιορισμούς: Δεν είναι καλή με πρόσωπα ή κείμενο και σε ορισμένες περιπτώσεις, μπορεί πραγματικά να εμφανίσει λεπτομερή χαρακτηριστικά στην αποκωδικοποιημένη εικόνα που δεν υπήρχαν στην αρχική εικόνα. (Μάλλον δεν θα θέλαμε ο συμπιεστής εικόνας να εφεύρει λεπτομέρειες σε μια εικόνα που δεν υπάρχουν.) Επίσης, η αποκωδικοποίηση απαιτεί το αρχείο βαρών Stable Diffusion μεγέθους 4 GB και επιπλέον χρόνο αποκωδικοποίησης.
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now