Claude Opus 4.8: el nou model d'Anthropic
Anthropic llança Claude Opus 4.8, amb millores en tasques agentives, codificació i honestitat. Més ràpid, més barat i més fiable que el seu predecessor.
Claude Opus 4.8: el nou model d’Anthropic més honest i eficient
Anthropic ha presentat Claude Opus 4.8, la nova versió del seu model més potent, que arriba amb millores notables en tasques agentives, codificació i, especialment, en honestitat. El model està disponible des d’avui al mateix preu que l’anterior versió, i s’acompanya d’un conjunt de funcions noves que amplien les capacitats de la plataforma.
Opus 4.8: més ràpid i més barat en mode accelerat
Una de les novetats més destacades d’aquest llançament és el mode ràpid, que permet al model treballar a 2,5 vegades la velocitat habitual. Però el que crida més l’atenció és el preu: aquest mode accelerat ara costa tres vegades menys que en versions anteriors, una reducció significativa que fa el model molt més accessible per a empreses i desenvolupadors que necessiten processar grans volums de tasques.
Al mateix temps, Anthropic ha introduït dues funcions addicionals rellevants. Els usuaris de claude.ai ara poden controlar directament el nivell d’esforç que el model dedica a cada tasca, una opció que permet ajustar el comportament del sistema segons les necessitats de cada moment. D’altra banda, Claude Code —l’eina d’Anthropic orientada al desenvolupament de programari— estrena els anomenats dynamic workflows, una característica dissenyada per abordar problemes a molt gran escala que requereixen múltiples passos encadenats.
Rendiment destacat en benchmarks agentius i legals
Els resultats en proves de rendiment situen Claude Opus 4.8 en una posició molt competitiva. En el benchmark Super-Agent, és l’únic model que completa tots els casos d’extrem a extrem, superant versions anteriors d’Opus i igualant GPT-5.5 en cost. En CursorBench, supera els models precedents a tots els nivells d’esforç, amb una crida d’eines més eficient que requereix menys passos per assolir el mateix resultat.
Especialment rellevant és el rendiment en l’àmbit legal. Opus 4.8 aconsegueix la puntuació més alta registrada en el Legal Agent Benchmark i és el primer model a superar el 10% en el criteri all-pass, un llindar que els professionals jurídics consideren significatiu per delegar feina real als sistemes d’IA. En tasques d’ús de l’ordinador i navegació web, el model obté un 84% a l’Online-Mind2Web, una millora considerable respecte a la versió anterior.
L’honestitat com a eix central del nou model
Un dels aspectes que Anthropic subratlla amb més èmfasi és la millora en honestitat. Els models d’IA tendeixen a afirmar que han completat tasques o a presentar resultats amb més confiança de la que justifiquen les evidències. Opus 4.8 corregeix aquest comportament de manera mesurable: les avaluacions internes mostren que és quatre vegades menys probable que deixi passar errors en codi que ha generat sense alertar-ne l’usuari.
Això es tradueix en un model que pregunta quan no n’està segur, que identifica problemes en les entrades i sortides d’una anàlisi de manera proactiva, i que rebutja plans que considera poc sòlids. Per als equips que treballen amb fluxos autònoms —és a dir, sense supervisió humana constant—, aquesta característica és especialment valuosa, ja que redueix el risc d’errors que passen desapercebuts.
Alineament i seguretat: una aposta continuada
Anthropic ha completat una avaluació d’alineament exhaustiva abans del llançament. Els resultats indiquen que Opus 4.8 assoleix nous màxims en trets prosocials com el suport a l’autonomia de l’usuari i l’actuació en el seu millor interès. A més, les taxes de comportament no alineat —com ara l’engany o la cooperació amb usos indeguts— són substancialment inferiors a les d’Opus 4.7 i comparables a les de Claude Mythos Preview, un dels models més segurs de la companyia fins ara.
Amb Claude Opus 4.8, Anthropic consolida la seva aposta per models que no només siguin capaços, sinó també fiables i transparents. En un sector on la competència creix a ritme accelerat, la combinació de millores en rendiment, reducció de costos i avanços en honestitat converteix aquest llançament en un pas rellevant per a tots els que construeixen sistemes d’IA per a entorns professionals exigents.