Home Tecnología Deepseek: lo que necesitas saber sobre la IA que destronó el chatgpt

Deepseek: lo que necesitas saber sobre la IA que destronó el chatgpt

39
0

Tabla de contenido Tabla de contenido ¿Qué es Deepseek? ¿Qué puede hacer Deepseek? ¿Quién puede usar Deepseek? ¿Por qué Deepseek de repente es tan importante?

Una startup de un año de China está tomando por asalto la industria de la IA después de lanzar un chatbot que rivaliza con el rendimiento de ChatGPT mientras usa una fracción de los gastos de poder, enfriamiento y capacitación de lo que exigen los sistemas de Openi, Google y Anthrope. Aquí está todo lo que necesita saber sobre los modelos V3 y R1 de Deepseek y por qué la compañía podría cambiar fundamentalmente las ambiciones de IA de Estados Unidos.

¿Qué es Deepseek?

Deepseek (técnicamente, “Hangzhou Deepseek Artificial Intelligence Technology Research Co., Ltd.”) es una startup china de IA que se fundó originalmente como un laboratorio de IA para su empresa matriz, High-Flyer, en abril de 2023. Eso puede, Deepseek Sseek fue escindido a su propia compañía (con un alto flyer restante como inversor) y también lanzó su modelo Deepseek-V2. V2 ofreció rendimiento a la par con otras empresas de IA chinas líderes, como Bytedance, Tencent y Baidu, pero a un costo operativo mucho más bajo.

La compañía siguió con el lanzamiento de V3 en diciembre de 2024. V3 es un modelo de 671 mil millones de parámetros que, según los informes, tardó menos de 2 meses en entrenar. Además, según un análisis reciente de Jeffries, el “costo de capacitación de Deepseek de solo US $ 5,6 millones (suponiendo un costo de alquiler de $ 2/h800 horas). Eso es menos del 10% del costo de la llama de Meta “. Esa es una pequeña fracción de los cientos de millones a miles de millones de dólares que las empresas estadounidenses como Google, Microsoft, Xai y OpenAI han gastado entrenando sus modelos.

🚀 Presentación de Deepseek-V3!

El mayor salto hacia adelante hasta ahora:
⚡ 60 tokens/segundo (¡3x más rápido que V2!)
💪 Capacidades mejoradas
🛠 Compatibilidad de API intacta
🌍 Modelos y documentos de código abierto

🐋 1/n pic.twitter.com/p1dv9gj2sd

– Deepseek (@deepseek_ai) 26 de diciembre de 2024

Las pruebas de referencia ponen el rendimiento de V3 a la par con el soneto GPT-4O y Claude 3.5. Un artículo de opinión de diciembre de 2024 en la colina categorizó el éxito de Deepseek como el “momento Sputnik” de Estados Unidos.

Deepseek lanzó su modelo R1-Lite-previa en noviembre de 2024, alegando que el nuevo modelo podría superar a la familia de modelos de razonamiento O1 de OpenAI (y hacerlo a una fracción del precio). La compañía estima que el modelo R1 es entre 20 y 50 veces menos costoso de ejecutar, dependiendo de la tarea, que el O1 de OpenAI. Deepseek posteriormente lanzó Deepseek-R1 y Deepseek-R1-Zero en enero de 2025. El modelo R1, a diferencia de su rival O1, es de código abierto, lo que significa que cualquier desarrollador puede usarlo.

Como tales V3 y R1 han explotado en popularidad desde su lanzamiento, con el asistente de IA de AI de Deepseek desplazando el chatgpt en la parte superior de las tiendas de aplicaciones. El capitalista de riesgo, Marc Andreesen, en una reciente publicación en las redes sociales, llamada Chatbot de Deepseek “uno de los avances más sorprendentes e impresionantes que he visto” y un “regalo profundo para el mundo”.

¿Qué puede hacer Deepseek?

Como modelo de lenguaje grande de código abierto, los chatbots de Deepseek pueden hacer esencialmente todo lo que Chatgpt, Gemini y Claude pueden. Eso incluye texto, audio, imagen y generación de videos. Además, la familia de modelos multimodales recién lanzadas de Deepseek, denominado Janus Pro, supuestamente supera a Dall-E 3, así como a Pixart-Alpha, EMU3-Gen y Diffusion XL, en un par de puntos de referencia de la industria. Deepseek-r1, Rivaling O1, está diseñado específicamente para realizar tareas de razonamiento complejas, mientras se genera soluciones paso a paso a problemas y establece “cadenas lógicas de pensamiento”, donde explica su proceso de razonamiento paso a paso al resolver un problema .

oh chico #deepseek

-Alexios mantzarlis (@mantzarlis.com) 2025-01-27T16: 50: 40.640Z

Lo que los productos de Deepseek no pueden hacer es hablar sobre Tienanmen Square. O las protestas de paraguas amarillas. O la semejanza del presidente Xi Jinping con Winnie the Pooh. Básicamente, si es un tema considerado verboten por el Partido Comunista Chino, los chatbots de Deepseek no lo abordarán ni participarán de una manera significativa.

¿Quién puede usar Deepseek? Andrew Tarantola / Deepseek / Tendencias digitales

Como LLM de código abierto, el modelo de Deepseek puede ser utilizado por cualquier desarrollador de forma gratuita. Openai cobra $ 200 por mes por la suscripción Pro necesaria para acceder a O1. Los modelos de Deepseek están disponibles en la web, a través de la API de la compañía y a través de aplicaciones móviles. Deberá registrarse para obtener una cuenta gratuita en el sitio web de Deepseek para usarlo, sin embargo, la compañía ha detenido temporalmente los nuevos registros en respuesta a “ataques maliciosos a gran escala contra los servicios de Deepseek”. Los usuarios existentes pueden iniciar sesión y usar la plataforma de manera normal, pero aún no se sabe cuándo los nuevos usuarios podrán probar Deepseek por sí mismos.

¿Por qué Deepseek de repente es tan importante?

Desde el lanzamiento de CHATGPT en noviembre de 2023, las compañías estadounidenses de IA se han centrado en los modelos de idiomas grandes más grandes, más potentes, más expansivos, más potenciales y de gran cantidad de recursos. En lugar de tratar de construir LLM más rentables y eficientes en energía, compañías como OpenAi, Microsoft, Anthropy y Google consideraron apropiadas simplemente forzar el avance de la tecnología, en la tradición estadounidense, simplemente arrojando cantidades absurdas de dinero y recursos en el problema. Solo en 2024, se esperaba que el CEO de XAI, Elon Musk, gaste personalmente de más de $ 10 mil millones en iniciativas de IA. Operai y sus socios acaban de anunciar una iniciativa Stargate Project de $ 500 mil millones que aceleraría drásticamente la construcción de servicios de energía verde y centros de datos de IA en los Estados Unidos. Google planea priorizar la escala de la plataforma Géminis durante 2025, según el CEO Sundar Pichai, y se espera que gaste miles de millones este año en busca de ese objetivo. Meta anunció a mediados de enero que gastaría hasta $ 65 mil millones este año en desarrollo de IA.

Deepseek acaba de mostrar el mundo que nada de eso es realmente necesario, que el “boom de IA” que ha estado ayudando a estimular la economía estadounidense en los últimos meses y que ha hecho que las compañías de GPU como Nvidia sea exponencialmente más rica que en octubre de 2023, puede ser Nada más que una farsa. También pone en duda cuánto de plomo en realidad tiene en los Estados Unidos en la IA, a pesar de prohibir repetidamente los envíos de GPU de vanguardia a China durante el año pasado.

“La conclusión es que el rendimiento superior de los Estados Unidos ha sido impulsado por la tecnología y el protagonista que las compañías estadounidenses tienen en IA”, dijo Keith Lerner, analista de Truist, a CNN. “El despliegue del modelo Deepseek está llevando a los inversores a cuestionar el protagonista que tienen las empresas estadounidenses y cuánto se gasta y si ese gasto conducirá a ganancias (o gastos excesivos)”.

En resumen, Deepseek solo venció a la industria estadounidense de IA en su propio juego, lo que demuestra que el mantra actual de “crecimiento a toda costa” ya no es válido. “Deepseek claramente no tiene acceso a tanto cómputo como los hiperscalers de EE. UU. Y de alguna manera logró desarrollar un modelo que parezca altamente competitivo”, dijo a CNBC Srini Pajjuri, analista de semiconductores de Raymond James. Si una startup china puede construir un modelo de IA que funcione tan bien como el último y lo mejor de Openai, y hacerlo en menos de dos meses y por menos de $ 6 millones, ¿qué uso es Sam Altman?

“El tiempo dirá si la amenaza de Deepseek es real: la carrera se realiza en cuanto a lo que funciona la tecnología y cómo los grandes jugadores occidentales responderán y evolucionarán”, dijo a CNN los jugadores de Big Western “, dijo a CNN. “Los mercados se habían vuelto demasiado complacientes al comienzo de la era Trump 2.0 y pueden haber estado buscando una excusa para retirarse, y obtuvieron una excelente aquí”.