Το εργαλείο φωνητικής τεχνητής νοημοσύνης της Microsoft, που ονομάζεται Vall-E, εκπαιδεύεται σε «διακριτούς κώδικες που προέρχονται από ένα μοντέλο νευρωνικού κωδικοποιητή ήχου off-the-shelf» καθώς και σε 60.000 ώρες ομιλίας —100 φορές περισσότερες από τα υπάρχοντα συστήματα— από περισσότερα από 7.000 ηχεία, τα περισσότερα από τα οποία προέρχονται από ηχητικά βιβλία που που είναι ελεύθερα από πνευματικά δικαιώματα, στο LibriVox.
Η Ars Technica αναφέρει ότι το Vall-E βασίζεται σε μια τεχνολογία που ονομάζεται EnCodec που ανακοίνωσε η Meta τον Οκτώβριο του 2022. Λειτουργεί αναλύοντας τη φωνή ενός ατόμου, αναλύοντας τις πληροφορίες σε στοιχεία και χρησιμοποιώντας την εκπαίδευσή του για να συνθέσει πώς θα ακουγόταν η φωνή αν μιλούσε διαφορετικές φράσεις. Ακόμη και αφού ακούσει ένα δείγμα μόλις τριών δευτερολέπτων, το Vall-E μπορεί να αναπαράγει τη χροιά και τον συναισθηματικό τόνο ενός ομιλητή.
«Τα αποτελέσματα του πειράματος δείχνουν ότι το Vall-E ξεπερνά σημαντικά το υπερσύγχρονο σύστημα zero-shot TTS [Τεχνητή νοημοσύνη που αναδημιουργεί φωνές χωρίς να τις έχει ακούσει] όσον αφορά τη φυσικότητα της ομιλίας και την ομοιότητα των ηχείων», αναφέρει η ερευνητική εργασία, διαθέσιμη στο Πανεπιστήμιο Cornell. "Επιπλέον, βρίσκουμε ότι το Vall-E θα μπορούσε να διατηρήσει το συναίσθημα του ομιλητή και το ακουστικό περιβάλλον της ακουστικής προτροπής στη σύνθεση."
Μπορείτε να ακούσετε παραδείγματα Vall-E που αναδημιουργεί φωνές στο GitHub. Πολλά είναι πραγματικά εκπληκτικά, ακούγονται σχεδόν πανομοιότυπα με το πρωτότυπο, παρά το γεγονός ότι βασίζονται σε ένα τόσο σύντομο δείγμα ήχου. Υπάρχουν μερικά που είναι ελαφρώς πιο ρομποτικά και ακούγονται λίγο πιο κοντά στο παραδοσιακό λογισμικό κειμένου σε φωνή, αλλά εξακολουθεί να είναι εντυπωσιακό και μπορούμε να περιμένουμε ότι η τεχνητή νοημοσύνη θα βελτιωθεί με την πάροδο του χρόνου.
Οι ερευνητές της Microsoft πιστεύουν ότι το Vall-E θα μπορούσε να χρησιμοποιηθεί ως εργαλείο κειμένου σε φωνή, τρόπος επεξεργασίας ομιλίας και σύστημα δημιουργίας ήχου, συνδυάζοντάς το με άλλα τεχνητή νοημοσύνη παραγωγής όπως το GPT-3.
Όπως συμβαίνει με όλες τα προγράμματα τεχνητής νοημοσύνης, υπάρχουν ανησυχίες σχετικά με την πιθανή κακή χρήση του Vall-E. Η πλαστοπροσωπία δημοσίων προσώπων όπως οι πολιτικοί είναι ένα παράδειγμα, ειδικά όταν χρησιμοποιείται μαζί με το Deepfakes. Ακόμα, θα μπορούσε να ξεγελάσει τους ανθρώπους ώστε να πιστέψουν ότι μιλούν με την οικογένεια, τους φίλους ή τους δημόσιους λειτουργούς παραδίδοντας έτσι ευαίσθητα δεδομένα. Υπάρχει επίσης το γεγονός ότι ορισμένα συστήματα ασφαλείας χρησιμοποιούν φωνητική αναγνώριση. Όσον αφορά τον αντίκτυπό του στις θέσεις εργασίας, το Vall-E θα ήταν πιθανότατα μια φθηνότερη εναλλακτική από την πρόσληψη ηθοποιών φωνητικών.
Αντιμετωπίζοντας τους κινδύνους κακής χρήσης του Vall-E, οι ερευνητές είπαν ότι θα μπορούσε να μετριαστεί "Είναι δυνατό να δημιουργηθεί ένα μοντέλο ανίχνευσης για να γίνει διάκριση εάν ένα ηχητικό κλιπ συντέθηκε από τον Vall-E. Θα εφαρμόσουμε επίσης τις αρχές Τεχνητής Νοημοσύνης της Microsoft στην πράξη στην περαιτέρω ανάπτυξη των μοντέλων."
Recommended Comments
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now