Το Χάρβαρντ διαθέτει ανοιχτό dataset 1 εκατομμυρίου βιβλίων για εκπαίδευση Τεχνητής Νοημοσύνης
Μεγαλύτερο κατά πέντε φορές από το γνωστό dataset Books3, που χρησιμοποιήθηκε για την εκπαίδευση του Llama της Meta, το νέο dataset περιλαμβάνει έργα από κλασικούς συγγραφείς όπως τον Σαίξπηρ και τον Δάντη, αλλά και σπάνιες συλλογές όπως τσέχικα μαθηματικά βιβλία και ουαλικά λεξικά. Ο Greg Leppert, εκτελεστικός διευθυντής του IDI, δήλωσε ότι στόχος της πρωτοβουλίας είναι η "εξίσωση των όρων ανταγωνισμού", παρέχοντας πρόσβαση σε μικρούς παίκτες της βιομηχανίας AI και ανεξάρτητους ερευνητές.
Η πρωτοβουλία IDI συνεργάζεται επίσης με τη Δημόσια Βιβλιοθήκη της Βοστώνης για την ψηφιοποίηση εκατομμυρίων άρθρων δημόσιου τομέα, ενώ εξετάζει επιπλέον συνεργασίες. Παράλληλα, άλλες παρόμοιες πρωτοβουλίες, όπως το Common Corpus από τη γαλλική startup Pleias, αποδεικνύουν τη ζήτηση για νόμιμα δεδομένα εκπαίδευσης AI. Το Common Corpus έχει ήδη χρησιμοποιηθεί για την εκπαίδευση μοντέλων που συμμορφώνονται με την ευρωπαϊκή νομοθεσία για την τεχνητή νοημοσύνη.
Αν και η διάθεση αυτών των δεδομένων θεωρείται βήμα προς τη σωστή κατεύθυνση, παραμένουν ανοιχτά ερωτήματα σχετικά με το εάν θα μπορέσουν να αντικαταστήσουν εξ ολοκλήρου τα δεδομένα που συλλέγονται χωρίς άδεια. Σύμφωνα με τον ειδικό Ed Newton-Rex, τέτοιες πρωτοβουλίες μπορούν να φέρουν θετική αλλαγή μόνο εάν χρησιμοποιηθούν για την αντικατάσταση δεδομένων που περιλαμβάνουν μη αδειοδοτημένο υλικό.
361