Jump to content



  • astrolabos
    astrolabos

    Το "μαζικά πολύγλωσσο" μοντέλο τεχνητής νοημοσύνης της Meta μεταφράζει έως και 100 γλώσσες, ομιλία ή κείμενο

      Η Meta στοχεύει σε έναν παγκόσμιο μεταφραστή όπως το "Babel Fish" από το "The Hitchhiker’s Guide to the Galaxy"

    Την Τρίτη, η Meta ανακοίνωσε το SeamlessM4T, ένα πολυτροπικό μοντέλο TN για μεταφράσεις ομιλίας και κειμένου. Ως νευρωνικό δίκτυο που μπορεί να επεξεργαστεί τόσο κείμενο όσο και ήχο, μπορεί να εκτελέσει μεταφράσεις από κείμενο σε ομιλία, ομιλία σε κείμενο, ομιλία σε ομιλία και κείμενο σε κείμενο για "έως και 100 γλώσσες", σύμφωνα με τη Meta. Στόχος του είναι να βοηθήσει τους ανθρώπους που μιλούν διαφορετικές γλώσσες να επικοινωνούν μεταξύ τους πιο αποτελεσματικά.

     

    Συνεχίζοντας τη σχετικά ανοιχτή προσέγγιση της Meta στην τεχνητή νοημοσύνη, η Meta κυκλοφορεί το SeamlessM4T με ερευνητική άδεια (CC BY-NC 4.0) που επιτρέπει στους προγραμματιστές να "κτίσουν" πάνω σε αυτό. Επίσης, απελευθερώνουν το SeamlessAlign, το οποίο η Meta αποκαλεί "το μεγαλύτερο ανοιχτό σύνολο δεδομένων πολυτροπικής μετάφρασης μέχρι σήμερα, το οποίο περιλαμβάνει συνολικά 270.000 ώρες εξορυγμένων ευθυγραμμίσεων ομιλίας και κειμένου". Αυτό πιθανότατα θα δώσει το έναυσμα για την εκπαίδευση μελλοντικών μεταφραστικών μοντέλων τεχνητής νοημοσύνης από άλλους ερευνητές.

     

    Μεταξύ των χαρακτηριστικών του SeamlessM4T που προβάλλονται στο ιστολόγιο της Meta, η εταιρεία αναφέρει ότι το μοντέλο μπορεί να εκτελέσει αναγνώριση ομιλίας (του δίνετε ήχο ομιλίας και το μετατρέπει σε κείμενο), μετάφραση ομιλίας σε κείμενο (μεταφράζει τον προφορικό ήχο σε διαφορετική γλώσσα σε κείμενο), μετάφραση ομιλίας σε ομιλία (του δίνετε ήχο ομιλίας και εξάγει μεταφρασμένο ήχο ομιλίας), μετάφραση κειμένου σε κείμενο (παρόμοια με τη λειτουργία του Google Translate) και μετάφραση κειμένου σε ομιλία (του δίνετε κείμενο και το μεταφράζει και το εκφωνεί σε άλλη γλώσσα). Κάθε μία από τις λειτουργίες μετάφρασης κειμένου υποστηρίζει σχεδόν 100 γλώσσες και οι λειτουργίες εξόδου ομιλίας υποστηρίζουν περίπου 36 γλώσσες εξόδου.

     

    Στην ανακοίνωση του SeamlessM4T, η Meta αναφέρεται στο Babel Fish, ένα φανταστικό ψάρι από την κλασική σειρά επιστημονικής φαντασίας του Douglas Adams, το οποίο, όταν τοποθετείται στο αυτί κάποιου, μπορεί να μεταφράσει αμέσως οποιαδήποτε ομιλούμενη γλώσσα:

     

    Η δημιουργία ενός παγκόσμιου μεταφραστή γλωσσών, όπως το φανταστικό Babel Fish στο "The Hitchhiker’s Guide to the Galaxy", αποτελεί πρόκληση, επειδή τα υπάρχοντα συστήματα ομιλίας-σε-ομιλία και ομιλίας-σε-κείμενο καλύπτουν μόνο ένα μικρό μέρος των γλωσσών του κόσμου. Πιστεύουμε όμως ότι το έργο που ανακοινώνουμε σήμερα αποτελεί ένα σημαντικό βήμα προς τα εμπρός σε αυτό το ταξίδι.

    Πώς το εκπαίδευσαν; Σύμφωνα με το ερευνητικό έγγραφο Seamless4MT, οι ερευνητές της Meta "δημιούργησαν ένα πολυτροπικό σώμα αυτόματα ευθυγραμμισμένων μεταφράσεων ομιλίας περισσότερων από 470.000 ωρών, το οποίο ονομάστηκε SeamlessAlign". Στη συνέχεια "φιλτράρισαν ένα υποσύνολο αυτού του σώματος με ανθρώπινα επισημασμένα και ψευδοεπισημασμένα δεδομένα, συνολικής διάρκειας 406.000 ωρών".

     

    Ως συνήθως, η Meta είναι λίγο ασαφής σχετικά με το πού βρήκε τα δεδομένα εκπαίδευσης. Τα δεδομένα κειμένου προήλθαν από "το ίδιο σύνολο δεδομένων που αναπτύχθηκε στο NLLB" (σύνολα προτάσεων που αντλήθηκαν από τη Wikipedia, πηγές ειδήσεων, σεναριακές ομιλίες και άλλες πηγές και μεταφράστηκαν από επαγγελματίες ανθρώπινους μεταφραστές). Και τα δεδομένα ομιλίας του SeamlessM4T προήλθαν από "4 εκατομμύρια ώρες ακατέργαστου ήχου που προέρχονταν από ένα δημόσια διαθέσιμο αποθετήριο δεδομένων από το διαδίκτυο", εκ των οποίων 1 εκατομμύριο ώρες ήταν στα αγγλικά, σύμφωνα με το ερευνητικό έγγραφο. Η Meta δεν διευκρίνισε ποιο αποθετήριο ή την προέλευση των κλιπ ήχου που χρησιμοποιήθηκαν.

     

    Η Meta απέχει πολύ από την πρώτη εταιρεία τεχνητής νοημοσύνης που προσφέρει εργαλεία μετάφρασης με μηχανική μάθηση. Το Google Translate χρησιμοποιεί τεχνικές μηχανικής μάθησης από το 2006 και τα μεγάλα γλωσσικά μοντέλα (όπως το GPT-4) είναι γνωστά για την ικανότητά τους να μεταφράζουν. Αλλά πιο πρόσφατα, η τεχνολογία έχει θερμανθεί στο μέτωπο της επεξεργασίας ήχου. Τον Σεπτέμβριο, η OpenAI κυκλοφόρησε το δικό της μοντέλο μετάφρασης ομιλίας σε κείμενο ανοιχτού κώδικα, το οποίο ονομάζεται Whisper και μπορεί να αναγνωρίζει την ομιλία στον ήχο και να τη μεταφράζει σε κείμενο με υψηλό επίπεδο ακρίβειας.

     

    Το SeamlessM4T βασίζεται σε αυτή την τάση επεκτείνοντας την πολυτροπική μετάφραση σε πολλές περισσότερες γλώσσες. Επιπλέον, η Meta αναφέρει ότι η "προσέγγιση του ενιαίου συστήματος" του SeamlessM4T -ένα μονολιθικό μοντέλο τεχνητής νοημοσύνης αντί για πολλαπλά μοντέλα που συνδυάζονται σε μια αλυσίδα (όπως κάποιες από τις προηγούμενες τεχνικές επεξεργασίας ήχου της Meta)- μειώνει τα σφάλματα και αυξάνει την αποτελεσματικότητα της μεταφραστικής διαδικασίας.

     

    Περισσότερες τεχνικές λεπτομέρειες σχετικά με τον τρόπο λειτουργίας του SeamlessM4T είναι διαθέσιμες στον ιστότοπο της Meta, ενώ ο κώδικας και τα βάρη του (τα πραγματικά εκπαιδευμένα αρχεία του νευρωνικού δικτύου) βρίσκονται στο Hugging Face.


    Πηγή
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.