DeepSeek OCR: el model que revoluciona la visió per IA
DeepSeek OCR és el nou model d'intel·ligència artificial que comprimeix i extreu text de imatges amb una eficiència sense precedents. T'expliquem com funciona.
DeepSeek OCR: el model que revoluciona la visió per IA
DeepSeek OCR és el nou model d’intel·ligència artificial del laboratori xinès DeepSeek que planteja una nova manera d’entendre el reconeixement òptic de caràcters. Més que una eina convencional d’extracció de text, aquest sistema explora els límits de la compressió visual i textual des d’una perspectiva centrada en els models de llenguatge de gran escala.
Què és DeepSeek OCR i per què és diferent
El reconeixement òptic de caràcters, conegut per les seves sigles en anglès OCR, és una tecnologia que converteix imatges que contenen text en dades digitals llegibles per màquines. Fins ara, la majoria de sistemes tractaven aquesta tasca de manera relativament independent dels grans models de llenguatge. DeepSeek OCR trenca amb aquesta lògica: investiga quin paper juguen els codificadors visuals quan es dissenyen des del punt de vista del model de llenguatge, no al revés.
Això significa que el sistema no simplement «llegeix» una imatge i n’extreu lletres, sinó que comprimeix la informació visual de manera intel·ligent per tal que el model lingüístic pugui processar-la de forma més eficient i precisa. L’enfocament s’anomena «Contexts Optical Compression» i representa un canvi de paradigma en la manera com la IA integra la visió i el llenguatge.
Resolució nativa i modes de funcionament
Un dels aspectes més destacats de DeepSeek OCR és la seva flexibilitat en termes de resolució. El model admet quatre modes de resolució nativa: des del mode Tiny, que treballa amb imatges de 512×512 píxels i genera únicament 64 tokens visuals, fins al mode Large, amb imatges de 1.280×1.280 i 400 tokens visuals. Entremig hi ha les variants Small i Base, que ofereixen un equilibri entre velocitat i precisió.
A més, el sistema incorpora un mode de resolució dinàmica anomenat Gundam, que combina múltiples fragments d’imatge de 640×640 amb una vista global de 1.024×1.024. Aquesta capacitat el fa especialment útil per processar documents llargs o complexos, com ara pàgines PDF amb taules, gràfics i text barrejats.
Els casos d’ús que cobreix el model són variats: des de la conversió de documents a format Markdown fins a l’anàlisi de figures dins documents, passant per l’OCR lliure sense estructures de maquetació o la descripció general d’imatges. Tot això es controla mitjançant instruccions de text molt senzilles que l’usuari passa directament al model.
Com s’instal·la i quines eines necessita
DeepSeek OCR és un model de codi obert disponible públicament a través de Hugging Face i GitHub. Per fer-lo funcionar cal un entorn amb CUDA 11.8 i PyTorch 2.6.0, la qual cosa implica disposar d’una targeta gràfica NVIDIA compatible. En condicions òptimes —concretament amb una GPU A100 de 40 GB de memòria— el model és capaç de processar PDFs a una velocitat d’aproximadament 2.500 tokens per segon, una xifra notable per a tasques d’extracció massiva de text.
El model és compatible amb dues de les biblioteques més populars de l’ecosistema Python per a IA: vLLM i Transformers d’Hugging Face. Això facilita enormement la seva integració en pipelines existents, ja que molts equips ja treballen amb una d’aquestes dues eines. De fet, l’octubre de 2025 el model va ser incorporat oficialment a la versió principal de vLLM, amb la col·laboració de l’equip d’aquest projecte.
DeepSeek OCR 2: una evolució ja anunciada
El gener de 2026, DeepSeek va anunciar l’arribada de DeepSeek-OCR2, la segona versió del model. Encara que els detalls tècnics complets d’aquesta nova iteració no s’han publicat en el moment de redactar aquest article, l’anunci confirma que l’equip continua apostant activament pel desenvolupament d’aquesta línia de recerca.
L’aparició de DeepSeek OCR s’emmarca en una tendència més àmplia dins la intel·ligència artificial: la integració cada vegada més profunda entre models visuals i lingüístics. Sistemes com aquest demostren que la frontera entre «veure» i «entendre» el text és, per a les màquines, cada cop més difusa. Per a empreses i desenvolupadors que treballen amb grans volums de documents digitalitzats, eines com DeepSeek OCR obren possibilitats que fins fa poc eren exclusives de solucions propietàries i de cost elevat.
FONTS
HN — DeepSeek ↗