أعلنت شركة DeepSeek عن إطلاق الجيل الأول من نماذج الذكاء الاصطناعي DeepSeek-R1 وDeepSeek-R1-Zero، المصممة للتعامل مع المهام الاستدلالية المعقدة. يتميز نموذج DeepSeek-R1-Zero بكونه الأول من نوعه الذي يعتمد كلياً على التعلم التعزيزي واسع النطاق (RL)، متجاوزاً الحاجة إلى الضبط الدقيق الخاضع للإشراف (SFT) في المراحل الأولية.

وأوضحت الشركة أن هذا النهج أدى إلى تطوير قدرات استدلال طبيعية مثل التحقق الذاتي، التأمل، وتوليد سلاسل التفكير الواسعة النطاق (CoT)، مما يتيح للنموذج التعامل مع مهام متقدمة تعادل تلك التي يواجهها طلاب الدراسات العليا في القانون.

معالجة التحديات في DeepSeek-R1-Zero
رغم القدرات المبتكرة للنموذج، واجه DeepSeek-R1-Zero مشكلات مثل التكرار اللانهائي، ضعف قابلية القراءة، وخلط اللغات، ما حد من إمكانية استخدامه في التطبيقات العملية. لتجاوز هذه العقبات، أطلقت الشركة نموذج DeepSeek-R1، الذي أُضيف إليه تدريب مسبق باستخدام بيانات البداية الباردة. هذا التحديث حسّن قدرات النموذج الاستدلالية بشكل كبير، مما عزز موثوقيته في الاستخدام.

تفوق DeepSeek-R1 في الاختبارات الاستدلالية
تمكّن نموذج DeepSeek-R1 من تحقيق أداء يماثل نظام o1 من OpenAI في مجالات متعددة، تشمل الرياضيات، الترميز، والمنطق العام، مما يجعله منافساً بارزاً في الذكاء الاصطناعي الاستدلالي. كما أظهر الإصدار DeepSeek-R1-Distill-Qwen-32B نتائج استثنائية، متفوقاً على o1-mini وفق معايير عدة.

إتاحة النماذج كمصدر مفتوح
في خطوة لافتة، أتاحت DeepSeek نماذجها، بما في ذلك DeepSeek-R1 وDeepSeek-R1-Zero، كمصدر مفتوح تحت ترخيص MIT، مما يتيح استخدامها في التطبيقات التجارية وتطوير نماذج جديدة. هذه الخطوة تفتح آفاقاً واسعة أمام الباحثين والمطورين للاستفادة من التكنولوجيا وتوسيع حدود الابتكار في الذكاء الاصطناعي.