approfondimento

Kimi K2 di Moonshot AI: il modello da 1 trilione di parametri che sfida GPT‑4.1



Indirizzo copiato

L’ultimo LLM aperto di Moonshot AI impiega un’architettura Mixture‑of‑Experts con 1 trilione di parametri totali e soli 32 miliardi attivati per inferenza. Costa molto meno delle varianti proprietarie, offre capacità agentiche avanzate e supera GPT‑4.1 su benchmark di codifica e ragionamento scientifico, pur richiedendo hardware molto potente

Pubblicato il 28 lug 2025



Kimi K2

Moonshot AI, startup cinese sostenuta da Alibaba e fondata nel 2023, ha lanciato Kimi K2. Questo modello linguistico (LLM) rappresenta un punto di svolta nell’intelligenza artificiale open‑weight: con 1 trilione di parametri totali e solo 32 miliardi attivi per inferenza, combina potenza elevata ed efficienza operativa.

Kimi K2 utilizza un design Mixture‑of‑Experts (MoE)

Kimi K2 utilizza un design Mixture‑of‑Experts che attiva solo un sottoinsieme di esperti in ogni passaggio. In pratica, su 384 esperti complessivi, ne vengono attivati circa 8 per token, consentendo velocità e costo ridotti senza sacrificare capacità di ragionamento e comprensione. Questa modalità rende il modello notevolmente più leggero in inferenza di quanto suggeriscano i numeri totali.

Ottimizzazione con Muon e MuonClip

La fase di addestramento si è basata su Muon, un ottimizzatore avanzato di tipo second‑order, combinato con il sistema MuonClip che limita la crescita dei logit prima che destabilizzino l’allenamento. Stando al team, sono stati elaborati oltre 15,5 trilioni di token senza problemi di instabilità. Questa strategia ha permesso a Kimi K2 di raggiungere livelli elevati di efficienza nella convergenza del training.

ArchitectureMixture-of-Experts (MoE)
Total Parameters1T
Activated Parameters32B
Number of Layers (Dense layer included)61
Number of Dense Layers1
Attention Hidden Dimension7168
MoE Hidden Dimension (per Expert)2048
Number of Attention Heads64
Number of Experts384
Selected Experts per Token8
Number of Shared Experts1
Vocabulary Size160K
Context Length128K
Attention MechanismMLA
Activation FunctionSwiGLU
Model summary

Prestazioni sui benchmark

Codifica e debugging

Nei test LiveCodeBench v6 e SWE‑Bench Verified, Kimi K2 ha ottenuto tassi di successo superiori a GPT‑4.1 in vari compiti di codifica. Ad esempio, su SWE‑Bench Verified (agentic coding), ha raggiunto il 65,8 %, contro il 54,6 % di GPT‑4.1.

Ragionamento scientifico e matematico

Su benchmark come AIME 2025 e GPQA‑Diamond, il modello ha registrato punteggi di 49,5 e 75,1 rispettivamente, superando GPT‑4.1 (37,0 e 66,3) e pari con Claude Opus su GPQA, in alcuni casi superandolo.

Competenze agentiche e uso di strumenti

Nel benchmark Tau2 (ragionamento multi-hop e cambio tra strumenti) Kimi K2 ha registrato valori competitivi:

  • 66,1 punti contro 67,6 di Claude Opus e 54,4 di GPT‑4.1.
  • Su AceBench, ha ottenuto 76,5, risultando tra i migliori modelli agentici disponibili.
Kimi K2

Costi molto contenuti

Secondo alcune fonti, Kimi K2 costa circa 0,14 € per milione di token di input e 2,30 € per milione di token di output, contro i 7,30 € di GPT‑4.1 e gli oltre 68 € di Claude Opus 4, rendendolo estremamente competitivo in termini di prezzo/performance.

BenchmarkMetricKimi K2 InstructDeepSeek-V3-0324Qwen3-235B-A22B
(non-thinking)
Claude Sonnet 4
(w/o extended thinking)
Claude Opus 4
(w/o extended thinking)
GPT-4.1Gemini 2.5 Flash
Preview (05-20)
Coding Tasks
LiveCodeBench v6
(Aug 24 – May 25)
Pass@153.746.937.048.547.444.744.7
OJBenchPass@127.124.011.315.319.619.519.5
MultiPL-EPass@185.783.178.288.689.686.785.6
SWE-bench Verified
(Agentless Coding)
Single Patch w/o Test (Acc)51.836.639.450.253.040.832.6
SWE-bench Verified
(Agentic Coding)
Single Attempt (Acc)65.838.834.472.7*72.5*54.6
Multiple Attempts (Acc)71.680.279.4*
SWE-bench Multilingual
(Agentic Coding)
Single Attempt (Acc)47.325.820.951.031.5
TerminalBenchInhouse Framework (Acc)30.035.543.28.3
Terminus (Acc)25.016.36.630.316.8
Aider-PolyglotAcc60.055.161.856.470.752.444.0
Tool Use Tasks
Tau2 retailAvg@470.669.157.075.081.874.864.3
Tau2 airlineAvg@456.539.026.555.560.054.542.5
Tau2 telecomAvg@465.832.522.145.257.038.616.9
AceBenchAcc76.572.770.576.275.680.174.5
Math & STEM Tasks
AIME 2024Avg@6469.659.4*40.1*43.448.246.561.3
AIME 2025Avg@6449.546.724.7*33.1*33.9*37.046.6
MATH-500Acc97.494.0*91.2*94.094.492.495.4
HMMT 2025Avg@3238.827.511.915.915.919.434.7
CNMO 2024Avg@1674.374.748.660.457.656.675.0
PolyMath-enAvg@465.159.551.952.849.854.049.9
ZebraLogicAcc89.084.037.7*73.759.358.557.9
AutoLogiAcc89.588.983.389.886.188.284.1
GPQA-DiamondAvg@875.168.4*62.9*70.0*74.9*66.368.2
SuperGPQAAcc57.253.750.255.756.550.849.6
Humanity’s Last Exam
(Text Only)
4.75.25.75.87.13.75.6
Evaluation Results

Varianti del modello

Moonshot ha rilasciato Kimi‑K2‑Base, versione modulare per ricerca e tuning, e Kimi‑K2‑Instruct, specializzato in conversazioni guidate con capacità agentica out-of-the-box. Quest’ultima è ideale per applicazioni immediatamente operative senza logiche di orchestrazione esterne.

Accessibilità e limitazioni

Pur essendo open‑weight, Kimi K2 richiede risorse hardware considerevoli. Alcuni utenti Reddit suggeriscono la necessità di sistemi con GPU H200 o almeno più di 1 TB di RAM per prestazioni accettabili; in quantizzazioni a 4 bit può essere usato su setup come due Mac Studio M3 Ultra con 512 GB. L’accesso via API e interfaccia web è invece più agevole, offerto da provider come NovitaAI o Parasail su piattaforme come OpenRouter.

Base model evaluation results

BenchmarkMetricShotKimi K2 BaseDeepseek-V3-BaseQwen2.5-72BLlama 4 Maverick
General Tasks
MMLUEM5-shot87.887.186.184.9
MMLU-proEM5-shot69.260.662.863.5
MMLU-redux-2.0EM5-shot90.289.587.888.2
SimpleQACorrect5-shot35.326.510.323.7
TriviaQAEM5-shot85.184.176.079.3
GPQA-DiamondAvg@85-shot48.150.540.849.4
SuperGPQAEM5-shot44.739.234.238.8
Coding Tasks
LiveCodeBench v6Pass@11-shot26.322.921.125.1
EvalPlusPass@180.365.666.065.5
Mathematics Tasks
MATHEM4-shot70.260.161.063.0
GSM8kEM8-shot92.191.790.486.3
Chinese Tasks
C-EvalEM5-shot92.590.090.980.9
CSimpleQACorrect5-shot77.672.150.553.5

Sono stati valutati solo modelli preaddestrati open source. Si riportano i risultati per Qwen2.5-72B perché il checkpoint di base per Qwen3-235B-A22B non è open source al momento dello studio.

Tutti i modelli sono valutati utilizzando lo stesso protocollo di valutazione.

Impatto sull’ecosistema AI

Il lancio globale quasi contemporaneo al modello DeepSeek dimostra che l’industria cinese dell’AI open‑source è sempre più rilevante. Kimi K2 è già considerato un momento storico simile al rilascio del modello R1 di DeepSeek: un punto di riferimento per l’innovazione aperta. È stato scaricato decine di migliaia di volte in pochi giorni tramite Hugging Face.

Applicazioni pratiche

Sviluppo software

Kimi K2 è particolarmente utile per sviluppatori che desiderano affiancarlo alle pipeline di sviluppo: può scrivere codice, eseguire test, correggere bug e iterare in modo autonomo con strumenti come spedizioni bash_exec.

Prototipazione e agenti autonomi

Grazie alla progettazione agentica, può orchestrare multi-step task, integrarsi con API esterne e comporre azioni complesse. Questo lo rende adatto alla costruzione di agenti intelligenti personalizzati senza l’uso di planner esterni.

Kimi K2, sfide e limiti

Complessità infrastrutturale

L’uso efficace richiede infrastrutture ad alta capacità, che solo organizzazioni con budget importanti possono permettersi. L’operatività su dispositivi “leggeri” resta limitata a esperimenti con quantizzazione estrema.

Incertezze su comportamento agentico

Al momento, alcune delle capacità agentiche proclamate da Moonshot non sono ancora state completamente replicate o verificate dalla comunità scientifica. Ci sono dubbi su fallimenti in determinati task complessi, specialmente senza supervisione attiva o strutture guidanti.

Licenza modificata

Nonostante il modello sia open‑weight, presenta una clausola nella licenza non compatibile OSI: richiede la visualizzazione del nome “Kimi K2” se utilizzato in prodotti commerciali ad alto traffico (oltre 100 milioni MAU o 20 milioni USD mensili).

Conclusioni

Kimi K2 rappresenta un importante salto in avanti per l’AI aperta: combina performance eccellenti, costi contenuti e capacità agentiche avanzate in un modello da 1 trilione di parametri. Rappresenta un’alternativa credibile a GPT‑4.1 e Claude, specialmente in scenari professionali e di ricerca. Tuttavia, l’hardware necessario e le complessità operative ne limitano ad oggi un’adozione di massa.

Chi desidera sperimentarlo su piccola scala può farlo tramite API cloud; chi ha accesso a risorse importanti potrà invece valutarne un deployment completo per stimolare agenti personalizzati. Moonshot, con questo modello, segna un altro capitolo nell’espansione dell’AI accessibile e flessibile.

Articoli correlati