All'inizio del 2025 la startup tecnologica cinese DeepSeek ha fatto irruzione nel mondo dell'intelligenza artificiale proponendo un modello low cost. Quanto è bastato per far tremare le Big Tech americane del settore, che per la stessa causa avevano invece speso fior di miliardi di dollari. La piattaforma dell'azienda cinese si basava principalmente su un uso limitato dei costosi e potenti chip di Nvidia garantendo però al contempo le stesse prestazioni di modelli già affermati come quelli di OpenAI e Meta Platforms.
Ma quanto è costato realmente addestrare il modello DeepSeek noto come R1? Secondo quanto comunicato in un documento aggiornato da parte dello sviluppatore con sede a Hangzhou e apparso sulla rivista accademica Nature,
la spesa complessiva per l'addestramento è ammontata a 294 mila dollari (Secrets of DeepSeek AI model revealed in landmark paper).
I costi di addestramento sono quelli che alimentano i chatbot di intelligenza artificiale e si riferiscono all'esecuzione di un cluster di potenti semiconduttori per elaborare una quantità enorme di testi e codici. Il modello utilizza 512 chip Nvidia H800, progettati appositamente per il mercato cinese dopo che nell'ottobre 2022 gli Stati Uniti hanno imposto il veto all'esportazione in Cina dei più potenti processori legati all'intelligenza artificiale H100 e A100.
Se le cifre indicate da DeepSeek sono autentiche, si tratta di una spesa enormemente più bassa rispetto al costo sostenuto dalle grandi aziende americane. Ad esempio, nel 2023
Sam Altman, Amministratore delegato di OpenAI, ha affermato che per addestrare i suoi modelli ha dovuto investire più di 100 milioni di dollari.
DeepSeek: le accuse statunitensi
Molti hanno messo in dubbio sia i costi effettivi per lo sviluppo dei modelli AI (Artificial Intelligence) di DeepSeek sia la tecnologia utilizzata. Secondo un'indagine del governo statunitense, la startup cinese in realtà avrebbe avuto accesso a grandi volumi di chip H100 vietati. Un aspetto negato da Nvidia, ma successivamente ammesso da DeepSeek in documento informativo supplementare che accompagnava un articolo di Nature sebbene la società avesse dichiarato l'uso di processori A100 nelle fasi preparatorie dello sviluppo.
Dopo la fase iniziale, l'azienda sarebbe passata agli H800. Su questo punto, però, sono montate le polemiche, in quanto si è ritenuto che uno dei motivi che hanno attirato verso DeepSeek le menti più brillanti sia stata proprio la gestione di un cluster di supercalcolo A100.
La società fondata da
Liang Wenfeng è stata anche accusata dalla Casa Bianca e da altri esperti in tema di intelligenza artificiale di
"distillazione". Si tratta di una tecnica attraverso cui un sistema AI apprende da un altro più efficiente raccogliendo in questo modo tutti i benefici in termini di potenza di calcolo e tempo impiegato senza sostenere costi associati.
Nell'ultimo articolo su Nature, DeepSeek ha difeso il suo modus operandi affermando che questo le ha consentito di produrre migliori prestazioni e permesso l'accesso più ampio alle tecnologie basate sull'intelligenza artificiale. Nello specifico, la startup ha utilizzato il modello open source Llama AI di Meta Platforms per alcune versioni distillate delle proprie piattaforme.
Inoltre, su Nature ha dichiarato che il suo V3 è stato addestrato sulla base di pagine Web scansionate che contenevano un "numero significativo di risposte generate dal modello OpenAI, le quali possono portare il modello di base ad acquisire conoscenze da altri potenti modelli indirettamente". Tuttavia, la società ha precisato che ciò è avvenuto in maniera casuale e "non intenzionale".