ألغاز الراديو تكشف نقاط ضعف الذكاء الاصطناعي في التفكير المنطقي

الخميس - 06 فبراير 2025 - الساعة 06:30 م بتوقيت العاصمة عدن

عدن سيتي / متابعات

في كل يوم أحد، يجذب برنامج "لغز الأحد" الذي تبثه إذاعة NPR آلاف المستمعين لحل تحديات عقلية صعبة، ويبدو أن هذه الألغاز لم تعد مخصصة للبشر فقط، بل أصبحت معيارًا جديدًا لاختبار قدرات الذكاء الاصطناعي.

ففي دراسة حديثة، استخدم باحثون من عدة جامعات أميركية، بالتعاون مع شركة Cursor الناشئة، ألغاز البرنامج لمعايرة أداء نماذج الذكاء الاصطناعي في الاستدلال المنطقي.

النتائج كانت مفاجئة، إذ أظهرت أن بعض النماذج المتقدمة، مثل o1 من "OpenAI" وR1 من "ديب سيك" لا تكتفي بإعطاء إجابات خاطئة، بل "تستسلم" أحيانًا وتصرّح بأنها عاجزة عن الحل قبل تقديم إجابة غير صحيحة عشوائية، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".

ويؤكد الباحثون أن هذه الألغاز تتمتع بميزة خاصة، فهي لا تعتمد على المعرفة الموسوعية، مما يجعلها اختبارًا مثاليًا لقدرات الذكاء الاصطناعي في التفكير المجرد، بدلًا من مجرد استرجاع المعلومات.

ومع ذلك، فإن النماذج لا تزال تواجه صعوبات في التعامل مع هذه التحديات، حيث أظهرت سلوكيات غريبة، مثل تقديم إجابة خاطئة ثم التراجع عنها، أو حتى "التفكير" بلا نهاية من دون الوصول إلى حل.

حاليًا، يتصدر نموذج o1 القائمة بأفضل أداء بنسبة 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35% فقط.

ويخطط الباحثون لتوسيع نطاق التجربة عبر إضافة مزيد من النماذج، بهدف تحسين قدرتها على التفكير وحل المشكلات بشكل أكثر كفاءة.