Το OpenAI αναπτύσσει νέες λειτουργίες για το ChatGPT που θα επιτρέπουν την εκτέλεση προτροπών με εικόνες και φωνητικές οδηγίες εκτός από κείμενο. Τη Δευτέρα ανακοινώθηκε ότι θα διατεθούν αυτές τις νέες λειτουργίες μέσα στις επόμενες δύο εβδομάδες στους χρήστες ChatGPT Plus και Enterprise. Η φωνητική λειτουργία είναι διαθέσιμη σε iOS και Android με δυνατότητα επιλογής, ενώ η λειτουργία εικόνων είναι διαθέσιμη σε όλες τις πλατφόρμες ChatGPT. Η OpenAI σημειώνει ότι σκοπεύει να επεκτείνει τη διαθεσιμότητα των χαρακτηριστικών εικόνων και φωνής πέρα από τους χρήστες που πληρώνουν μετά τη σταδιακή ανάπτυξη.
Η φωνητική συνομιλία λειτουργεί ως ακουστική συνομιλία μεταξύ του χρήστη και του ChatGPT. Πατάτε το κουμπί και λέτε την ερώτησή σας. Αφού επεξεργαστεί τις πληροφορίες, το chatbot σας δίνει μια απάντηση σε ακουστική ομιλία αντί σε κείμενο. Η διαδικασία είναι παρόμοια με τη χρήση εικονικών βοηθών όπως η Alexa ή ο Google Assistant και θα μπορούσε να αποτελέσει το προοίμιο για μια πλήρη ανανέωση των εικονικών βοηθών στο σύνολό τους. Η ανακοίνωση του OpenAI έρχεται λίγες ημέρες μετά την αποκάλυψη της Amazon ότι ένα παρόμοιο χαρακτηριστικό έρχεται στην Alexa.
Για να υλοποιήσει τη φωνητική και ηχητική επικοινωνία με το ChatGPT, η OpenAI χρησιμοποιεί ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία, το οποίο είναι σε θέση να παράγει "ήχο που μοιάζει με ανθρώπινο από ένα απλό κείμενο και μερικά δευτερόλεπτα δείγματος ομιλίας". Επιπλέον, το μοντέλο Whisper μπορεί να "μεταγράψει τα προφορικά σας λόγια σε κείμενο".
Η OpenAI λέει ότι έχει επίγνωση των ζητημάτων που θα μπορούσαν να προκύψουν λόγω της δύναμης που κρύβεται πίσω από αυτό το χαρακτηριστικό, όπως, "η δυνατότητα κακόβουλων φορέων να υποδυθούν δημόσια πρόσωπα ή να διαπράξουν απάτη".
Αυτός είναι ένας από τους κύριους λόγους για τους οποίους η εταιρεία σχεδιάζει να περιορίσει τη χρήση των νέων χαρακτηριστικών της σε "συγκεκριμένες περιπτώσεις χρήσης και συνεργασίες". Ακόμη και όταν τα χαρακτηριστικά θα είναι ευρύτερα διαθέσιμα, θα είναι προσβάσιμα κυρίως σε πιο προνομιούχους χρήστες, όπως οι προγραμματιστές.
Η λειτουργία εικόνας σας επιτρέπει να καταγράψετε μια εικόνα και να την εισαγάγετε στο ChatGPT μαζί με την ερώτηση ή την προτροπή σας. Μπορείτε να χρησιμοποιήσετε το εργαλείο σχεδίασης με την εφαρμογή για να διευκρινίσετε την απάντησή σας και να έχετε μια συνομιλία με το chatbot μέχρι να επιλυθεί το θέμα σας. Αυτό είναι παρόμοιο με τη νέα λειτουργία Copilot της Microsoft στα Windows, η οποία βασίζεται στο μοντέλο του OpenAI.
Η OpenAI έχει επίσης αναγνωρίσει τις προκλήσεις του ChatGPT, όπως το συνεχιζόμενο πρόβλημα των "ψευδαισθήσεων". Κατά την ευθυγράμμιση με το χαρακτηριστικό εικόνας, η μάρκα αποφάσισε να περιορίσει ορισμένες λειτουργίες, όπως η "ικανότητα του chatbot να αναλύει και να κάνει άμεσες δηλώσεις για τους ανθρώπους".
Όταν το GPT-4 κυκλοφόρησε για πρώτη φορά τον Μάρτιο, η OpenAI ανακοίνωσε διάφορες συνεργασίες με επιχειρήσεις, όπως η Duolingo, η οποία χρησιμοποίησε το μοντέλο τεχνητής νοημοσύνης για να βελτιώσει την ακρίβεια των μαθημάτων που βασίζονται στην ακρόαση και την ομιλία στην εφαρμογή εκμάθησης γλωσσών. Η OpenAI συνεργάστηκε με το Spotify για τη μετάφραση podcasts σε άλλες γλώσσες, διατηρώντας παράλληλα τον ήχο της φωνής του podcaster. Η εταιρεία μίλησε επίσης για το έργο της με την εφαρμογή για κινητά, Be My Eyes, η οποία λειτουργεί για να βοηθήσει τυφλούς και άτομα με χαμηλή όραση. Πολλές από αυτές τις εφαρμογές και υπηρεσίες ήταν διαθέσιμες πριν από την ενημέρωση εικόνων και φωνής.
Recommended Comments
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now