نماذج التفكير من OpenAI تفشل في تجاوز أزمة "الهلوسة"

في الوقت الذي يراهن فيه قطاع الذكاء الاصطناعي على نماذج التفكير، كخطوة ثورية نحو تحسين أداء النماذج وتقليل الاعتماد على البيانات الضخمة، كشفت تقارير حديثة أن أحدث إصدارات OpenAI – النموذجان o3 وo4-mini – تعاني من ارتفاع ملحوظ في معدل الهلوسة مقارنة بنماذج سابقة، مما يضع تحديات جديدة أمام الباحثين والمطورين.
هلوسة مضاعفة في اختبارات داخلية
وبحسب تقرير نشره موقع TechCrunch المتخصص، وأوردته العربية Business ، سجل نموذج "o3" نسبة هلوسة وصلت إلى 33% في اختبار داخلي أجرته OpenAI لقياس مدى دقة معرفة النموذج بالشخصيات العامة والمعروفة (PersonQA) .
وتعد هذه النسبة ضعف معدل الهلوسة المسجل في النماذج السابقة مثل "o1" و"o3-mini" التي بلغت نسبتها 16% و14.8% على التوالي، والأسوأ من ذلك أن النموذج الأصغر "o4-mini" سجّل معدلًا كارثيًا بلغت نسبته48% في نفس الاختبار.
ما السبب في هذه الهلاوس؟
ما يزيد الوضع تعقيدًا أن OpenAI نفسها لم تتوصل إلى تفسير واضح لهذه الزيادة في معدل الهلوسة، رغم التحسينات التقنية في النماذج الجديدة، وأشارت الشركة إلى أن هناك حاجة لمزيد من البحث لفهم العلاقة بين توسيع حجم نماذج التفكير وزيادة ميلها إلى اختلاق أو تلفيق المعلومات.
تفوق في البرمجة والرياضيات... لكن بثمن
ورغم مشكلات الهلوسة، إلا أن نماذجي "o3" و"o4-mini" قدما أداءً متقدمًا في مهام متخصصة مثل البرمجة والرياضيات، ولكن هذه القوة لم تأتِ بدون تكلفة، فوفقًا لتقرير OpenAI فإن النماذج الجديدة تُطلق ادعاءات أكثر عمومًا ما يؤدي بها إلى تقديم معلومات دقيقة في بعض الأحيان، ومعلومات مهلوسة في أحيان أخرى.
تحذيرات من مؤسسات بحثية مستقلة
وأيدت اختبارات أجرتها مؤسسة Transluce غير الربحية هذه النتائج، حيث أظهرت ميل نموذج "o3" إلى اختلاق خطوات غير حقيقية أثناء شرح الإجابات، وهو نمط هلوسي خطير قد يسبب مشاكل كبيرة عند استخدام النموذج في السياقات المهنية أو التعليمية.
التفكير سلاح ذو حدين
تعد نماذج التفكير محاولة للالتفاف على قيود تحسين النماذج التقليدية حيث يُفترض أن تساعد في تنفيذ مهام معقدة باستخدام قدرات منطقية واستنتاجية دون الحاجة لموارد ضخمة، ومع ذلك يبدو أن هذا النهج يفاقم في المقابل مشكلة الهلوسة التي تعد من أبرز تحديات الذكاء الاصطناعي في الوقت الراهن.