DeepSeek: La historia completa de su nacimiento y construcción

Potenciado con: Charlie
Fecha: 1 de febrero, 2025

Orígenes

DeepSeek surge de la visión futurista y el talento técnico de Liang Wenfeng, un empresario nacido en Guangdong y formado en Zhejiang. Antes de fundar DeepSeek, Liang ya había demostrado sus habilidades en el campo de las matemáticas y la ingeniería, lo que le permitió cofundar el fondo de cobertura High-Flyer Quant en 2015. Este fondo, especializado en el uso de modelos de aprendizaje automático para operar en los mercados financieros, le permitió acumular experiencia y, especialmente, recursos en GPUs de Nvidia.

"En 2021, Liang comenzó a comprar miles de GPUs, llegando incluso a adquirir hasta 10.000 unidades, con el objetivo de explorar el potencial de la inteligencia artificial."

Estas adquisiciones y la experiencia acumulada en High-Flyer sentaron las bases para el ambicioso proyecto que más tarde se convertiría en DeepSeek.

Fundación de DeepSeek

En 2023, aprovechando el know-how y la infraestructura desarrollada en High-Flyer, Liang Wenfeng funda DeepSeek. La idea central era desarrollar modelos de lenguaje grandes (LLMs) que pudieran competir con gigantes tecnológicos como OpenAI y Google, pero a una fracción del costo. Los tres pilares sobre los que se asienta DeepSeek son:

1. Eficiencia en costos: Mientras que entrenar modelos comparables requería inversiones de cientos de millones de dólares, DeepSeek logró desarrollar su modelo DeepSeek-R1 con alrededor de 5,6 millones de dólares.
2. Código abierto: A diferencia de modelos cerrados, DeepSeek decidió compartir abiertamente su código y documentación, fomentando la colaboración y la transparencia.
3. Optimización de recursos: Con el stock masivo de GPUs adquirido en High-Flyer y técnicas innovadoras de entrenamiento, DeepSeek superó las limitaciones impuestas por las restricciones en la exportación de chips.

"DeepSeek se concibió como un laboratorio de investigación pura, donde la prioridad no era el lucro inmediato, sino avanzar en la frontera del conocimiento en IA."

Desarrollo técnico y lanzamientos

Modelos iniciales y la evolución temprana

Durante los primeros meses tras su fundación, el equipo de DeepSeek, formado en gran parte por jóvenes graduados de universidades chinas de élite, experimentó con arquitecturas basadas en Transformers. Se optimizó el uso de recursos mediante técnicas como:

Extensión del contexto: Uso de métodos propios (como YaRN) para aumentar la capacidad del modelo y permitirle procesar secuencias de texto muy largas.
Mezcla de expertos (MoE) y atención de bajo rango (MLA): Estas técnicas permiten que solo se activen los "expertos" necesarios para cada tarea, maximizando la eficiencia.
Entrenamiento en precisión mixta: La adopción de aritmética en 8 bits y 12 bits para ciertas operaciones redujo significativamente los costos computacionales.

El Impactante Lanzamiento del Modelo DeepSeek-R1

A principios de 2025, DeepSeek lanzó su modelo DeepSeek-R1, especializado en tareas de razonamiento complejo, matemáticas y generación de código. Este modelo se posicionó como un rival directo de los sistemas de OpenAI, provocando reacciones en cadena en el mercado tecnológico, como la histórica caída en las acciones de Nvidia.

"El modelo R1, desarrollado con una inversión mínima, ha sido descrito como un 'momento Sputnik' para la IA, demostrando que es posible alcanzar capacidades de razonamiento comparables a las de los gigantes tecnológicos."

Innovaciones Clave

DeepSeek implementó varias innovaciones técnicas que han marcado la diferencia:

Ajuste de la longitud del contexto: Permite el procesamiento de hasta 128k tokens, ideal para documentos extensos.
Uso de técnicas MoE y MLA: Optimiza el uso de GPUs al activar solo los módulos necesarios para cada tarea.
Entrenamiento en precisión mixta: Reduce el consumo de memoria y energía sin sacrificar el rendimiento.

Además, el compromiso con el código abierto ha permitido que otros investigadores puedan replicar y mejorar sus avances, acelerando la innovación en el campo.

Impacto y Perspectivas Futuras

Impacto en el Mercado y la Competencia

La irrupción de DeepSeek ha desafiado el paradigma de inversión masiva en hardware para IA. El hecho de lograr resultados de alto rendimiento con costos reducidos ha provocado que inversores y competidores reconsideren sus estrategias. Este movimiento ha generado un efecto dominó que ha afectado incluso a empresas de semiconductores como Nvidia.

Implicaciones Geopolíticas

El éxito de DeepSeek no solo es técnico, sino también estratégico. Al sortear las restricciones de exportación de chips impuestas por Estados Unidos, DeepSeek se posiciona como un actor clave en la carrera global por la supremacía en IA, lo que podría reconfigurar el equilibrio tecnológico entre Oriente y Occidente.

Cultura de Innovación Abierta

El compromiso con el código abierto y la colaboración es otro de los grandes diferenciadores de DeepSeek. Esta estrategia no solo promueve la transparencia, sino que también impulsa el desarrollo colaborativo y la adaptación de la tecnología a diferentes contextos y necesidades, lo que podría acelerar el avance global en inteligencia artificial.

Conclusión

La historia de DeepSeek es la de un emprendedor visionario, Liang Wenfeng, que ha sabido transformar la experiencia y los recursos acumulados en High-Flyer en un proyecto disruptivo en el campo de la IA. Desde sus orígenes en 2015 hasta la consolidación de DeepSeek en 2023 y el impactante lanzamiento de su modelo R1 en 2025, la compañía ha demostrado que la innovación en inteligencia artificial no depende únicamente de grandes inversiones, sino también de creatividad, eficiencia y apertura.

DeepSeek no solo ofrece una alternativa competitiva a los modelos tradicionales como GPT-4, sino que también plantea un nuevo paradigma de desarrollo basado en la eficiencia, el código abierto y la colaboración global. Este enfoque podría definir el futuro de la IA, impulsando cambios significativos tanto en el mercado como en la geopolítica tecnológica.

Fuentes

Artículos y reportajes de El País, The Guardian, HuffPost y Wikipedia
Documentos técnicos y publicaciones de DeepSeek en GitHub y Hugging Face

Esta narrativa refleja la convergencia de ingenio, estrategia y audacia en la construcción de una de las startups de inteligencia artificial más disruptivas de la actualidad.