Claude Mythos: Anthropic filtra el seu model d’IA més potent

Anthropic té entre mans el model d’intel·ligència artificial més potent que ha desenvolupat mai, i el món se n’ha assabentat d’una manera poc habitual: per culpa d’una filtració de dades. El nou sistema, anomenat Claude Mythos —o Capybara, segons altres referències internes—, promet un salt qualitatiu significatiu en capacitats de raonament, programació i, especialment, ciberseguretat.

Claude Mythos: un salt de categoria per a Anthropic

Fins ara, Anthropic organitzava els seus models en tres nivells de potència i preu: Haiku (el més ràpid i econòmic), Sonnet (equilibrat) i Opus (el més potent). Doncs bé, Claude Mythos supera fins i tot aquesta categoria superior. Internament, l’empresa l’anomena Capybara per designar un nou nivell de model que se situa per sobre dels Opus i que representa, en paraules de la pròpia companyia, “un canvi d’escala” respecte a tot el que havia publicat anteriorment.

Els documents filtrats, que formaven part d’un esborrany d’entrada de bloc emmagatzemat en un espai de dades públicament accessible per error de configuració, descrivien el model com “el més potent que hem desenvolupat de llarg”. La companyia ha confirmat que el sistema ja ha completat l’entrenament i que es troba en fase de proves amb un grup reduït de clients en accès anticipat.

Una filtració per error humà amb gairebé 3.000 documents exposats

L’origen de la revelació no té res d’espectacular ni de maliciós: un error humà en la configuració del sistema de gestió de continguts d’Anthropic va deixar accessibles prop de 3.000 actius digitals vinculats al bloc de l’empresa, incloent-hi esborranys de publicacions, documents interns i detalls d’esdeveniments corporatius no anunciats. Entre aquests materials hi havia, per exemple, informació sobre una cimera privada per a directors executius a Europa, pensada per impulsar les vendes del model entre grans empreses.

Un investigador de seguretat d’una empresa especialitzada i un acadèmic de la Universitat de Cambridge van ser dels primers a identificar i analitzar el contingut exposat. Un cop alertada, Anthropic va bloquejar l’accés públic a l’espai de dades i va reconèixer la filtració, qualificant-la d‘“error humà” i descrivint els materials com “esborranys primerencs de contingut considerat per a publicació”.

El risc de ciberseguretat, la gran preocupació d’Anthropic

Més enllà de les capacitats impressionants en raonament acadèmic i programació, el que sembla preocupar més Anthropic és el potencial del model en l’àmbit de la ciberseguretat. L’esborrany filtrat advertia que Claude Mythos es troba “molt per davant de qualsevol altre model d’IA en capacitats cibernètiques” i que podria explotar vulnerabilitats de programari a una velocitat que superaria la capacitat de resposta dels defensors.

Aquesta preocupació marca de manera directa l’estratègia de llançament: en lloc d’una publicació oberta, Anthropic preveu posar el model inicialment a disposició d’organitzacions especialitzades en ciberseguretat defensiva, per tal que puguin reforçar els seus sistemes abans que actors maliciosos puguin aprofitar les mateixes capacitats. La lògica és clara: donar avantatge als defensors en un moment en què les eines ofensives basades en IA es tornen cada vegada més accessibles.

No és un problema exclusiu d’Anthropic. Altres laboratoris de frontera han topat amb reptes similars. Quan OpenAI va publicar el seu model GPT-5.3-Codex al febrer, el va classificar com el primer de la seva història en assolir un nivell “d’alta capacitat” en tasques relacionades amb la ciberseguretat, i va reconèixer que havia estat entrenat específicament per identificar vulnerabilitats en codi.

Un sector que avança més ràpid que les seves pròpies cauteles

El cas de Claude Mythos il·lustra dues tensions que defineixen el moment actual del sector de la intel·ligència artificial. D’una banda, la cursa per construir models cada vegada més potents avança a un ritme que fa difícil gestionar-ne els riscos associats amb la profunditat necessària. De l’altra, fins i tot les empreses que es presenten com les més responsables del sector —Anthropic és coneguda per posar la seguretat al centre del seu discurs— no estan exemptes d’errors operatius bàsics com deixar dades sensibles en espais públics.

La companyia ha confirmat que el model és car d’operar i que encara no està llest per a una publicació generalitzada. El procés de revisió i avaluació de riscos continuarà, presumiblement, fins que Anthropic consideri que les salvaguardes necessàries estan a punt. Mentrestant, el nom Mythos ja ha entrat en el vocabulari del sector, tant si l’empresa estava preparada per anunciar-lo com si no.

Claude Mythos: Anthropic filtra el seu model d'IA més potent

Claude Mythos: Anthropic filtra el seu model d’IA més potent

Claude Mythos: un salt de categoria per a Anthropic

Una filtració per error humà amb gairebé 3.000 documents exposats

El risc de ciberseguretat, la gran preocupació d’Anthropic

Un sector que avança més ràpid que les seves pròpies cauteles