General

Kimi K2.6 guanya Claude i GPT-5.5 en codi

El model Kimi K2.6 de Moonshot AI supera Claude, GPT-5.5 i Gemini en un torneig de programació. Anàlisi dels resultats i les estratègies.

Kimi K2.6 guanya Claude i GPT-5.5 en codi

Kimi K2.6 guanya Claude i GPT-5.5 en un torneig de programació

Un model xinès de codi obert acaba de posar en evidència els grans laboratoris occidentals d’intel·ligència artificial. Kimi K2.6, desenvolupat per la startup Moonshot AI, ha guanyat un torneig de programació competitiva per davant de Claude Opus 4.7, GPT-5.5 i Gemini Pro 3.1, en una competició amb puntuació objectiva i en temps real.

El torneig de codificació que ningú esperava

El repte es diu Word Gem Puzzle i consisteix en un trencaclosques de lletres sobre una graella (de 10×10 fins a 30×30 caselles) on els models han de moure fitxes per crear paraules vàlides en anglès en línies horitzontals o verticals. Les regles de puntuació afavoreixen les paraules llargues: les de set lletres o més sumen punts, mentre que les curtes en resten. Tres lletres costen tres punts negatius; cinc lletres, un punt negatiu. L’objectiu és obligar els models a pensar estratègicament, no a bombardejar el taulell amb paraules trivials.

Deu models van entrar al torneig. Nou van competir de debò (el de Nvidia va enviar codi amb un error de sintaxi i mai es va connectar al servidor). El resultat final va ser: Kimi K2.6 primer amb 22 punts de ronda i un registre de 7 victòries, 1 empat i 0 derrotes. MiMo V2-Pro de Xiaomi, segon. GPT-5.5 d’OpenAI, tercer. Claude Opus 4.7 d’Anthropic va quedar cinquè. Gemini Pro 3.1 de Google, sisè.

Per què ha guanyat Kimi K2.6?

La clau no és la intel·ligència en abstracte, sinó l’estratègia concreta que cada model va implementar per resoldre el problema. Kimi va adoptar un enfocament agressiu i greedy: calculava quina jugada desbloqueava més paraules de valor positiu i l’executava de manera immediata, repetint el cicle. Aquesta tàctica té un punt feble conegut: en graelles petites, on les paraules sembrades al taulell encara eren intactes, el model de vegades quedava atrapat en oscil·lacions ineficients. Però en les graelles grans de 30×30, on el scramble inicial havia desfet gairebé totes les paraules originals, la capacitat de moure fitxes de manera persistent va ser decisiva. La puntuació acumulada de Kimi va arribar a 77 punts, la més alta del torneig.

MiMo V2-Pro va guanyar la plata amb una estratègia radicalment diferent i curiosament rígida: mai va moure cap fitxa. Va escanejar la graella inicial en busca de paraules de set lletres o més i va llançar totes les reclamacions en un sol paquet. Quan el taulell conservava paraules intactes, era devastadorament ràpid. Quan no en conservava, puntuava zero. Tot i aquesta fragilitat, va acabar segon amb 43 punts acumulats.

On van fallar els models occidentals

El patró més revelador és que Claude, Grok i Gemini tampoc van moure fitxes. En un trencaclosques que porta la paraula “sliding” al nom i que requereix explícitament desplaçar fitxes per crear paraules noves, no lliscar és una limitació estructural. Claude va aguantar bé en graelles mitjanes on la densitat del scramble era manejable, però es va enfonsar en les graelles de 30×30 on el moviment de fitxes era l’única via per puntuar.

GPT-5.5 va ser el model occidental amb millor rendiment: va implementar un sistema de lliscament conservador d’unes 120 jugades per ronda amb un límit per evitar bucles ineficients, i va mostrar bons números en les graelles de 15×15 i 30×30. No va guanyar, però almenys va entendre que havia de jugar.

El cas més extrem va ser Muse, un model que va acabar amb una puntuació acumulada de −15.309 punts. Va reclamar absolutament totes les paraules que veia, incloent-hi milers de paraules curtes amb penalització. Va llegir les instruccions parcialment i les va executar amb total convicció. Com apunta l’organitzador del torneig, és un avís útil per a qui desplega models en entorns amb regles de puntuació complexes: entendre una tasca parcialment i executar-la al cent per cent pot ser pitjor que no fer res.

Codi obert i la nova competència global en IA

Kimi K2.6 és un model de pesos oberts, disponible públicament. Moonshot AI és una startup fundada el 2023 a la Xina. El fet que un model d’accés lliure d’una empresa relativament jove superi els sistemes tancats dels laboratoris amb més finançament del món no és una casualitat ni un fenomen aïllat: és part d’una tendència creixent on la competència global en IA s’intensifica i on els models oberts cada vegada mostren capacitats comparables o superiors als propietaris en tasques específiques.

Això no vol dir que la IA occidental hagi perdut el lideratge en tots els fronts. Però sí que demostra que en tasques concretes de programació competitiva, la geografía del model importa menys que l’estratègia que implementa.

FONTS

HN — Google AI / Gemini ↗
← Tornar a l'inici