Claude Opus 4.5 resol un problema proposat per Donald Knuth

Una de les ments més brillants de la informàtica teòrica, Donald Knuth, va plantejar un problema matemàtic que la darrera versió de Claude, el model d’intel·ligència artificial d’Anthropic, ha aconseguit resoldre amb èxit. Aquesta fita ha encès el debat a la comunitat tecnològica sobre fins on arriben realment les capacitats de raonament de les IA actuals.

Qui és Donald Knuth i per què importa aquest repte

Donald Knuth no és un nom qualsevol en el món de la informàtica. Aquest professor emèrit de la Universitat de Stanford és considerat el pare de l’anàlisi d’algoritmes i és l’autor de The Art of Computer Programming, una obra enciclopèdica que ha marcat generacions d’informàtics i matemàtics. Quan Knuth proposa un problema, la comunitat acadèmica para l’orella: no es tracta d’un exercici rutinari, sinó d’un repte dissenyat per posar a prova les fronteres del raonament formal.

Que un sistema d’intel·ligència artificial sigui capaç de resoldre’l no és una anècdota menor. És una mena de litmus test informal sobre la profunditat real del raonament matemàtic que poden assolir els models de llenguatge de gran escala.

Què ha fet exactament Claude Opus 4.5

El model Claude Opus 4.5 d’Anthropic ha demostrat ser capaç d’abordar i resoldre el problema plantejat per Knuth de manera satisfactòria. Encara que els detalls tècnics del problema concret es troben documentats en un informe específic de l’empresa, el que transcendeix és la naturalesa del repte: no es tracta d’una simple consulta de recuperació d’informació ni d’una tasca de generació de text, sinó d’un exercici de raonament matemàtic pas a pas que requereix coherència lògica, precisió formal i capacitat deductiva.

Això és precisament el que diferencia aquest tipus de prova de moltes altres comparatives habituals entre models d’IA. Resoldre un problema de Knuth implica seguir cadenes d’arguments rigorosos, detectar patrons no trivials i arribar a conclusions verificables. No n’hi ha prou amb aproximar-se a la resposta: o és correcta o no ho és.

Per què la comunitat tecnològica hi ha prestat tanta atenció

La notícia ha generat un volum considerable de debat en fòrums especialitzats, amb centenars de professionals i investigadors compartint opinions sobre el que representa aquesta fita. Les reaccions oscil·len entre l’entusiasme i la cautela.

Els més entusiastes veuen en aquest resultat una prova que els models de llenguatge estan creuant un llindar qualitatiu: ja no es limiten a imitar patrons superficials del text humà, sinó que semblen capaços de raonar sobre estructures matemàtiques abstractes. Els més escèptics, en canvi, recorden que cal analitzar amb cura si el model ha aplicat raonament genuí o si ha trobat una solució gràcies a l’exposició massiva a textos matemàtics durant l’entrenament.

Aquesta tensió és, en el fons, el debat central de la IA contemporània: quan un sistema produeix una resposta correcta a un problema difícil, fins a quin punt podem parlar de comprensió real?

El context dels avanços d’Anthropic en raonament

Anthropic porta temps invertint de manera notable en millorar les capacitats de raonament dels seus models. La família Claude ha evolucionat ràpidament en els darrers mesos, i Opus representa la versió més potent i orientada a tasques complexes. L’empresa ha apostat per tècniques que reforcen el raonament estructurat, incloent-hi aproximacions que permeten als models «pensar» en veu alta abans de donar una resposta final.

Aquest enfocament, conegut popularment com a chain-of-thought reasoning, ha demostrat millorar significativament el rendiment en problemes matemàtics i lògics. El fet que Claude Opus 4.5 hagi superat un repte proposat per una figura de l’altura de Knuth suggereix que aquests esforços comencen a donar fruits mesurables i verificables per part d’experts externs.

Un termòmetre del progrés real de la IA

Més enllà del cas concret, el que fa valuosa aquesta notícia és que proporciona un punt de referència extern i creïble per mesurar el progrés dels models d’IA. En un sector on les comparatives sovint es fan amb benchmarks dissenyats per les mateixes empreses, que un expert independent com Knuth plantegi un problema i que un model el resolgui satisfactòriament ofereix una perspectiva diferent i més robusta. La pregunta que queda a l’aire és evident: quin serà el proper repte que definirà la frontera del que les màquines poden o no poden fer?

Claude Opus 4.5 resol un problema de Donald Knuth