Jump to content



  • astrolabos
    astrolabos

    DeepSeek: Επαναστατική προσέγγιση στην εκπαίδευση AI με 671 δισεκατομμύρια παραμέτρους

    Η DeepSeek αναστάτωσε τη βιομηχανία τεχνητής νοημοσύνης με το νέο της γλωσσικό μοντέλο Mixture-of-Experts (MoE), το οποίο διαθέτει 671 δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε σε μόλις δύο μήνες με τη χρήση 2.048 Nvidia H800 GPUs. Το πιο εντυπωσιακό είναι ότι η αποδοτικότητα της προσέγγισης της DeepSeek είναι 10 φορές υψηλότερη από αυτή των ηγετών της αγοράς, όπως η Meta. Η επιτυχία της εταιρείας αποδίδεται σε βελτιστοποιήσεις χαμηλού επιπέδου και στην αξιοποίηση της γλώσσας PTX (Parallel Thread Execution) της Nvidia αντί της συνήθους CUDA, κάτι που επιτρέπει ακριβέστερο έλεγχο στη διαχείριση των πόρων των GPUs.

     

    Η PTX είναι μια ενδιάμεση αρχιτεκτονική εντολών που βρίσκεται πιο κοντά στο υλικό από τη CUDA, επιτρέποντας εκτεταμένες βελτιστοποιήσεις, όπως δυναμική κατανομή καταχωρητών και προσαρμογή των threads σε επίπεδο warp. Η DeepSeek αξιοποίησε αυτή τη δυνατότητα αναδιαμορφώνοντας τους Nvidia H800 GPUs της: από τους 132 διαθέσιμους streaming multiprocessors, διέθεσε 20 αποκλειστικά για επικοινωνία μεταξύ server nodes, πιθανώς για τη συμπίεση και αποσυμπίεση δεδομένων, με στόχο την υπέρβαση των περιορισμών στη διασύνδεση. Εφαρμόζοντας επίσης εξελιγμένους αλγόριθμους pipeline, η εταιρεία πέτυχε δραματική επιτάχυνση στην εκπαίδευση του μοντέλου της.

     

    Η καινοτόμος προσέγγιση της DeepSeek έχει προκαλέσει έντονη αβεβαιότητα στην αγορά των GPUs. Με την προοπτική ότι οι μελλοντικές AI εφαρμογές θα μπορούσαν να απαιτούν λιγότερη εξειδικευμένη υποδομή, ορισμένοι επενδυτές ανησυχούν για τον αντίκτυπο στις πωλήσεις της Nvidia, η οποία μόλις μέσα σε μία ημέρα είδε απώλειες 589 δισεκατομμυρίων δολαρίων στη χρηματιστηριακή της αξία. Ωστόσο, αναλυτές, συμπεριλαμβανομένου του πρώην CEO της Intel, Pat Gelsinger, θεωρούν ότι η εξέλιξη αυτή δεν θα μειώσει τη ζήτηση για υπολογιστική ισχύ, αλλά μάλλον θα καταστήσει τις δυνατότητες AI πιο προσιτές σε μαζικές εφαρμογές.

     

    Παρότι η DeepSeek πέτυχε μια τεχνολογική ανακάλυψη, παραμένουν ερωτήματα σχετικά με το κόστος ανάπτυξης και τη βιωσιμότητα αυτής της προσέγγισης σε βάθος χρόνου. Οι βελτιστοποιήσεις σε επίπεδο PTX απαιτούν εξαιρετικά υψηλή τεχνική εξειδίκευση και είναι δύσκολες στη συντήρηση, καθιστώντας αβέβαιη την επανάληψή τους σε μελλοντικά έργα AI. Ωστόσο, η επιτυχία της DeepSeek υπογραμμίζει τη σημασία της εστίασης στη χαμηλού επιπέδου προγραμματιστική βελτιστοποίηση, ανοίγοντας νέους δρόμους για τη βελτίωση της αποδοτικότητας των μεγάλων γλωσσικών μοντέλων.


    Πηγή
    Φωτογραφία: Nvidia
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.