B

benchmark


  • SWE-bench Verified
  • tecnologia

    SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?

    25 Feb 2026

    di Fabio Lalli

    Condividi
  • GPT-5.3 Codex
  • ai coding

    GPT-5.3-Codex: l’agente AI che lavora sul computer come un professionista

    06 Feb 2026

    di Pierluigi Sandonnini

    Condividi
  • Claude Opus 4.5
  • approfondimento

    Claude per i professionisti e le aziende: il punto di forza sta nell'ecosistema

    26 Gen 2026

    di Paolo Dalprato

    Condividi
  • valutazione agenti AI
  • guida

    Valutazione degli agenti AI in azienda: framework, architettura e gestione operativa

    22 Gen 2026

    di Fabio Lalli

    Condividi
  • GPT-5.2 analisi
  • approfondimento

    Dentro GPT-5.2: cosa dicono davvero i benchmark

    15 Dic 2025

    di Giovanni Masi

    Condividi
  • GPT-5.2
  • ai generativa

    GPT-5.2, il nuovo standard dell’AI professionale di OpenAI

    12 Dic 2025

    di Pierluigi Sandonnini

    Condividi
  • Google Gemini 3 prova
  • tecnologia

    Gemini 3 alla prova: cosa dicono veramente i test sul nuovo modello di Google

    26 Nov 2025

    di Giovanni Masi

    Condividi
  • OpenAI evals
  • tecnologia

    Come gli evals stanno guidando l'introduzione dell’AI nelle imprese

    20 Nov 2025

    di Alessandra Castelli

    Condividi
Pagina 1 di 2 Pagina successiva
  • Archivio Newsletter

  • Newsletter
    Iscriviti alla newsletter di AI4Business

    Vuoi ricevere le news più importanti, gli approfondimenti e le interviste di AI4Business?

    Cliccando su "ISCRIVITI ALLA NEWSLETTER", dichiaro di aver letto l' Informativa Privacy e di voler ricevere la Newsletter.
  • Segui gli ultimi update

    Entra nella community

  • Contattaci

    Vuoi maggiori informazioni?

  • redazione@ai4business.it