En su informe mensual, Bankinter Gestión de Activos comparte su análisis sobre el impacto sobre el sector de DeepSeek y por qué es tan disruptivo.
IA : ¿Cómo se entrena un modelo de inteligencia artificial generativa?
El proceso se divide en tres fases principales y una cuarta etapa operativa o de inferencia
1. Entrenamiento inicial – Pre-Training
Es la fase más costosa y demandante en recursos computacionales y tiempo. Aquí el modelo aprende las reglas básicas del lenguaje y el mundo. Se alimenta con cantidades masivas de datos: billones de tokens (palabras, frases, fragmentos de texto) de internet, libros, artículos científicos, foros, etc. El objetivo es que aprenda patrones, estructuras gramaticales, relaciones semánticas y conocimientos generales. Para procesar estos datos y entrenar los pesos (coeficientes que determinan cómo procesa la información), se usan miles de GPUs de gama alta durante semanas o meses. Los modelos de última generación alcanzan unos 500 mil millones de parámetros, lo que implica una gran carga computacional. Es la etapa más cara, por el coste energético y de hardware. El entrenamiento puede costar cientos de millones de dólares, como en modelos como GPT-4 o Grok. A pesar de su capacidad, el modelo aún no está especializado ni adaptado a tareas concretas, solo genera texto coherente.
2. Especialización -Fine tuning
El fine-tuning es una fase de ajuste donde un modelo general se entrena adicionalmente para realizar tareas específicas o mejorar su rendimiento en áreas concretas. Se emplean conjuntos de datos más pequeños y especializados (cientos de miles de ejemplos) en lugar de los billones usados en el entrenamiento inicial. Esta fase permite afinar el modelo para áreas como derecho o medicina, o mejorar su capacidad conversacional para tareas como chatbots. Durante el proceso, el modelo aprende a reconocer contextos específicos y a adaptar su lenguaje y respuestas según el entorno deseado. Además, se le enseña a seguir estructuras definidas, como responder preguntas o mantener conversaciones fluidas. Por ejemplo, un LLM ajustado para derecho puede comprender conceptos legales complejos y ofrecer respuestas precisas en ese ámbito. El coste es significativamente menor que en la fase de entrenamiento inicial, requiriendo menos tiempo y recursos, aunque sigue siendo intensivo en datos especializados.
3. Inferencia – Post-Training
La inferencia es la fase en la que un modelo de IA entrenado se utiliza para generar respuestas sin modificar sus parámetros. Esta fase es distinta en función de que el modelo sea un LLM o un modelo razonador. En el caso de un LLM, la inferencia convierte las entradas de los usuarios en salidas coherentes, procesando texto token por token.
En el caso de un modelo razonador, en esta fase se entrena con un Reinforcement Learning with Human Feedback (RLHF) lo que es muy pesado. Para estos modelos el entrenamiento en la fase de alineamiento es más ligero porque solo limita en base a contenido ético, etc. Sin embargo, el entrenamiento en fase de inferencia para los modelos razonadores exige un entrenamiento con uso intensivo de datos y, sobre todo, una participación de los humanos en labores de clasificación, de generación de respuestas y feedback en los resultados generados por la máquina durante el entrenamiento.
Para optimizar el rendimiento, se aplican técnicas que procuran reducir el tamaño y acelerar la generación de respuestas
La inferencia se usa en aplicaciones como chatbots, asistentes virtuales, traducción automática y generación de contenido.
¿Por qué DeepSeek ha sido tan disruptivo?
Hace el entrenamiento en fase de inferencia para desarrollar la capacidad de razonar del modelo minimizando la intervención humana.
1. En fase de inferencia
Entrenamiento ultra-eficiente y de bajo coste
DeepSeek logró entrenar su modelo R1 por apenas 5,5 millones USD, una cifra extremadamente baja en comparación con otros modelos líderes que requieren cientos de millones.
Es más barato en fase de inferencia porque no usa los 671 billones de parámetros que tiene en cada prompt, sino que emplea únicamente 37 billones. Esto lo logra activando solamente ciertos parámetros según el criterio de sus modelos expertos.
Esto fue posible gracias a:
-
Arquitecturas optimizadas, como variantes eficientes del Mixture of Experts (MoE).
-
Uso de GPUs H800 (menos potentes que las H100 de Nvidia) debido a restricciones de exportación a China, demostrando que se puede lograr un rendimiento top sin el hardware más avanzado.
-
Compresión del caché KV en los mecanismos de atención, reduciendo hasta un 90% el consumo de memoria y acelerando el proceso de entrenamiento
-
En lugar de centrar la innovación únicamente en el pre-entrenamiento masivo, DeepSeek desplazó el enfoque hacia técnicas más ligeras y optimizadas en las etapas posteriores, como el razonamiento y el alineamiento, batiendo en costes todo lo que había hecho el mercado hasta entonces, reduciendo significativamente los tiempos sin perder calidad
En fase de Post-Training para razonar
Uso de Reinforcement Learning Puro (RL) para razonamiento. En vez de usar datos humanos, los generó sintéticamente, así que no tuvo problemas de escalabilidad (encontrar gran cantidad de datos disponibles) ni de coste (no tuvo que pagar por ello), simplemente pagó el coste de computación, muy inferior.
DeepSeek implementó un proceso de aprendizaje por refuerzo puro (sin ejemplos humanos iniciales) durante la fase de alineamiento.
El modelo aprendió a razonar por sí mismo, desarrollando la capacidad de revisar y corregir sus propias respuestas antes de generarlas, replicando un comportamiento más "humano". Se le definían objetivos en vez de decirle por dónde ir. De manera autónoma emergió el razonamiento dentro del modelo
Reducción de la dependencia del RLHF tradicional: El proceso eliminó gran parte de la necesidad de utilizar Reinforcement Learning with Human Feedback (RLHF), que requiere costosas horas de trabajo humano para evaluar respuestas.
Esto no solo redujo costes, sino que también eliminó algunos sesgos humanos inherentes al RLHF.
¿Por qué DeepSeek ha sido tan disruptivo? Impacto sobre el sector
Desplome de “ventajas competitivas”
El supuesto "foso" de la IA desaparece. Las barreras de entrada se reducen al mínimo. Se pueden entrenar modelos avanzados con presupuestos muy inferiores.
Grandes inversiones en IA ya no garantizan ventaja competitiva.
Cambio de paradigma
Muestra que el poder de la IA no depende exclusivamente de más datos y más GPUs, sino de estrategias de entrenamiento inteligentes y eficientes.
Surgen nuevas oportunidades para hardware alternativo.
Democratización del acceso a la IA avanzada
Ahora “start ups” y pequeños desarrolladores pueden competir con gigantes tecnológicos.
Fomenta un ecosistema más abierto y diverso.
Adopción de código abierto
Al liberar el modelo R1 bajo licencia de código abierto permite que cualquier desarrollador lo use y modifique.
Ya existen miles de variantes en Hugging Face(*) en pocas semanas, lo que potencia la innovación.
Impacto geopolítico y empresarial
China desafía la hegemonía de Silicon Valley en este sector.
Se intensifica la competencia tecnológica global.
Innovación en razonamiento
La capacidad de automejora y razonamiento emergente es un hito significativo en un modelo de este tipo.
¿Cómo puede afectar al negocio de las principales compañías relacionadas?
Nvidia
Impacto negativo.
Nvidia tiene una posición dominante porque hace los chips más potentes con un bajo coste de producción.
En este caso, como consecuencia del bloqueo, el modelo ha sido entrenado con GPUs de menor potencia y esto hará que otras empresas se animen a desarrollar este tipo de dispositivos, en los cuales sí que pueden competirle a Nvidia.
Si más empresas adoptan arquitecturas eficientes como la de DeepSeek, la demanda de GPUs de gama alta podría estancarse.
Impacto negativo.
Posiblemente es la tecnológica con más que perder.
Google ya ha invertido miles de millones desarrollando PaLM y Gemini. En particular es una fuerte competencia para su Gemini 2 Flash Lite.
El éxito de DeepSeek le hace competencia, en primer lugar, a su negocio principal, que son los motores de búsqueda, dado que es muy sencillo y más barato ahora facilitar la creación de buscadores impulsados por IA que desafíen su hegemonía.
En el lado positivo, le ha enseñado el camino para usar más eficientemente sus propios papers.
Open AI
Impacto negativo.
El éxito de DeepSeek cuestiona la superioridad tecnológica de Open AI, y este es el impacto principal.
Por otro lado, se puede beneficiar de la experiencia de DeepSeek para ganar eficiencia, pero también necesita ofrecer una opción competidora para tareas menos complicadas.
Esto es relevante porque si no lo hace las empresas podrían usar OpenAI exclusivamente para el pequeño porcentaje de tareas más exigente y emplear otras IA para el resto de las tareas (la mayoría) que no requieran de una IA tan avanzada
Apple / Samsung
Impacto positivo.
Podrían ser ganadores inesperados. Tienen que decidir qué IA integran.
Apple, que hasta ahora iba muy rezagada en IA podría usar modelos como DeepSeek R1 para acelerar su entrada en el mercado sin tener que desarrollar desde cero.
Esto le da la posibilidad de integrar IA avanzada en productos como Siri o sus sistemas operativos, recuperando terreno.
Samsung se ve también favorecida por los modelos ligeros, porque al igual que Apple, aspiran a ejecutarlos en local.
Amazon
Impacto positivo.
Podrían ser ganadores inesperados.
Amazon se beneficia indirectamente porque el auge de modelos open source aumentará la demanda de infraestructura en la nube, favoreciendo a AWS.
También puede integrar estos modelos en sus productos y por tanto reduce su coste frente a depender de OpenAI o Anthropic.
Asimismo, abre la posibilidad de que cualquiera se ponga a entrenar un modelo, lo que aumentaría el uso de AWS.
Microsoft
Impacto neutral.
Microsoft tiene menos riesgo directo porque su negocio principal está anclado a Windows y Office, lo que no es replicable incluso con IA avanzada.
Con relación a su vínculo con OpenAI, Microsoft ya ha incluido los modelos de DeepSeek en su pool de modelos, por lo que cubre el riesgo de quedarse sin esa parte del mercado.
La posible extensión del uso corporativo de IA para tareas en las que antes no era rentable emplearla evitaría el perjuicio que se deriva del menor uso de computación en los modelos ligeros.