DeepSeek

DeepSeek 734u36

Noticias y novedades

DeepSeek deja en ridículo a ChatGPT con el nuevo modelo destilado de su IA: R1 puede funcionar en una única GPU 3q5d3e

Los primeros benchmarks están dejando resultados asombrosos para lo que ha sido una "una pequeña actualización" a R1 según la startup china. 6e1y4s

Más información: La IA que superó a ChatGPT vuelve a desafiarlo y anuncia el modo de voz: así es la conversación natural de Claude 2q1g6o

Publicada
Actualizada

Ayer la startup china actualizó DeepSeek R1 para dejarnos asombrados de nuevo con lo que denominó como una "pequeña actualización". De pequeña tiene poco, porque en sus primeras 24 horas ha deslumbrado: puede funcionar en una única GPU.

El laboratorio de IA chino ha publicado ahora una versión más pequeña y destilada de su nuevo modelo de razonamiento R1, DeepSeek-R1-0528-Qwen3-8B, y clama que bate a modelos mayores en ciertos benchmarks.

El modelo actualizado DeepSeek R1, que ha sido capaz de alcanzar OpenAI o3, rinde mejor que el nuevo Gemini 2.5 Flash de Google en AIME 2025, una serie de desafíos vinculados a preguntas matemáticas.

DeepSeek-R1-0528-Qwen3-8B también se acerca al recientemente publicado modelo de razonamiento Phi4 de Microsoft en otro test de matemáticas, el HMMT. Y la importancia de estos modelos destilados, según TechCrunch, es que demandan menos recursos computacionales.

El modelo destilado rinde menos por este motivo, pero según mantiene la plataforma cloud NodeShift, Qwen3-8B solo requiere una GPU con 40 GB - 80 GB de RAM para funcionar. El modelo R1 actualizado hace 24 horas sí que necesita una docena de GPUs de 80 GB.

DeepSeek R1 actualizado en distintas pruebas frente a otros modelos de IA

DeepSeek R1 actualizado en distintas pruebas frente a otros modelos de IA

La startup china explica desde la publicación en Hugging Face que ha entrenado DeepSeek-R1-0528-Qwen3-8B con texto generado por la versión actualizada R1 para ajustar Qwen3-8B. Es un modelo destilado muy especial tanto para la investigación académica en modelos de razonamiento como para el desarrollo industrial enfocado en modelos de escala pequeña.

Hay otro detalle muy especial del R1 actualizado: al estar bajo una licencia MIT permisiva se puede usar comercialmente sin restricción. Lo que vuelve a dar alas a la verdadera esencia de DeepSeek R1, ser open source.

Volvemos a recalcar que una "pequeña actualización" de DeepSeek R1 ha sido capaz de poner al modelo a la altura de o3 de OpenAI y de Gemini 2.5 Pro de Google en el razonamiento matemático.

Su rendimiento es inaudito 2p2d1r

En estas primeras 24 horas, DeepSeek R1 ya ha dejado claro que se involucra más en procesos de razonamiento más profundos y exhaustivos en vez de apresurarse a sacar conclusiones. Sus índices de alucinación han caído gracias a la función llamada "reliability".

Las mejoras en codificación se deben a lo llamado como "vibe coding", que es la habilidad del modelo para entender la intención del desarrollador y producir soluciones más naturales y apropiadas al contexto.

Para entender mejor la dimensión de DeepSeek R1 actualizado, al batir a Grok-3 Mini y acercarse a o3 / o4-mini de OpenAI para ChatGPT, representa un progreso muy notable al ser un modelo open source, ya que suele existir una gran distancia entre las soluciones abiertas y cerradas.

Aquí, aunque Sam Altman, CEO de OpenAI, declarase hace poco que quieren publicar una versión open source que sea el estándar de la industria, deja la sensación de que la compañía sigue empecinada en ser lo más cerrada posible, justo en la dirección opuesta a lo que indica su propio nombre, una IA "Abierta". Y lo van a tener muy difícil ante DeepSeek.

DeepSeek-R1-0528-Qwen3-8B está disponible para su descarga desde Ollama y la versión actualizada DeepSeek R1 se puede usar desde ayer mismo tanto en las apps para móviles como en la versión web.