Jump to content



  • astrolabos
    astrolabos

    Το Χάρβαρντ διαθέτει ανοιχτό dataset 1 εκατομμυρίου βιβλίων για εκπαίδευση Τεχνητής Νοημοσύνης

      Η νέα βάση δεδομένων υπόσχεται υψηλής ποιότητας δεδομένα, ανοίγοντας δρόμους για ηθική εκπαίδευση AI μοντέλων.

    Το Πανεπιστήμιο του Χάρβαρντ ανακοίνωσε τη διάθεση ενός εκτεταμένου dataset με σχεδόν 1 εκατομμύριο βιβλία που δεν έχουν πνευματικά δικαιώματα, το οποίο μπορεί να χρησιμοποιηθεί για την εκπαίδευση μεγάλων γλωσσικών μοντέλων και άλλων εργαλείων AI. Το dataset δημιουργήθηκε από τη νέα πρωτοβουλία Institutional Data Initiative (IDI) του Χάρβαρντ, με χρηματοδότηση από τη Microsoft και την OpenAI. Περιλαμβάνει βιβλία που σαρώθηκαν μέσω του Google Books και δεν καλύπτονται πλέον από πνευματικά δικαιώματα.

     

    Μεγαλύτερο κατά πέντε φορές από το γνωστό dataset Books3, που χρησιμοποιήθηκε για την εκπαίδευση του Llama της Meta, το νέο dataset περιλαμβάνει έργα από κλασικούς συγγραφείς όπως τον Σαίξπηρ και τον Δάντη, αλλά και σπάνιες συλλογές όπως τσέχικα μαθηματικά βιβλία και ουαλικά λεξικά. Ο Greg Leppert, εκτελεστικός διευθυντής του IDI, δήλωσε ότι στόχος της πρωτοβουλίας είναι η "εξίσωση των όρων ανταγωνισμού", παρέχοντας πρόσβαση σε μικρούς παίκτες της βιομηχανίας AI και ανεξάρτητους ερευνητές.

     

    Η πρωτοβουλία IDI συνεργάζεται επίσης με τη Δημόσια Βιβλιοθήκη της Βοστώνης για την ψηφιοποίηση εκατομμυρίων άρθρων δημόσιου τομέα, ενώ εξετάζει επιπλέον συνεργασίες. Παράλληλα, άλλες παρόμοιες πρωτοβουλίες, όπως το Common Corpus από τη γαλλική startup Pleias, αποδεικνύουν τη ζήτηση για νόμιμα δεδομένα εκπαίδευσης AI. Το Common Corpus έχει ήδη χρησιμοποιηθεί για την εκπαίδευση μοντέλων που συμμορφώνονται με την ευρωπαϊκή νομοθεσία για την τεχνητή νοημοσύνη.

     

    Αν και η διάθεση αυτών των δεδομένων θεωρείται βήμα προς τη σωστή κατεύθυνση, παραμένουν ανοιχτά ερωτήματα σχετικά με το εάν θα μπορέσουν να αντικαταστήσουν εξ ολοκλήρου τα δεδομένα που συλλέγονται χωρίς άδεια. Σύμφωνα με τον ειδικό Ed Newton-Rex, τέτοιες πρωτοβουλίες μπορούν να φέρουν θετική αλλαγή μόνο εάν χρησιμοποιηθούν για την αντικατάσταση δεδομένων που περιλαμβάνουν μη αδειοδοτημένο υλικό.


    Πηγή
    Φωτογραφία: Getty Images
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.