ChatGPT يكتسح Gemini في 3 مهارات أساسية

كريترنيوز /متابعات /رضا أبوالعينين
أظهرت أحدث الدراسات المقارنة بين أنظمة الذكاء الاصطناعي الكبرى أن ChatGPT يتفوق على منافسه Gemini في ثلاثة مجالات رئيسية تشمل المعرفة العلمية المتقدمة، حل مشكلات البرمجة الواقعية، والتفكير المجرد البصري.
مع انتشار عشرات الآلاف من منتجات الذكاء الاصطناعي في الأسواق العالمية، يظل تحديد النظام الأفضل أمرا معقدا، خاصة عند الحديث عن علامات تجارية كبيرة مثل OpenAI وGoogle، فبينما يمكن لمقارنات بسيطة بين نموذجين أن تعطي انطباعات أولية، فإن مخرجات نماذج اللغة الكبيرة تحمل عنصرا من العشوائية، مما يجعل الاعتماد على اختبار واحد غير دقيق.
في هذا السياق، اعتمدت الدراسات الحديثة على معايير تقييم رسمية تختبر قدرات الأنظمة على التفكير، المنطق، وحل المشكلات، وأظهرت النتائج أن ChatGPT-5.2 يتفوق على Gemini-3 Pro في اختبار GPQA Diamond، المصمم لاختبار التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء.
ويتميز هذا الاختبار بأسئلة مقاومة للبحث في Google، ما يتطلب من النظام تطبيق مفاهيم علمية متعددة، وتجنب الافتراضات، والتغلب على المعلومات المضللة، وسجل ChatGPT نسبة 92.4% مقابل 91.9% لـ Gemini، في حين يحصل خريج الدكتوراه على 65%، والأشخاص العاديون على 34%.
وفي مجال البرمجة، أظهرت نتائج SWE-Bench Pro (Private Dataset) تفوق ChatGPT في حل المشكلات الواقعية المعقدة المأخوذة من منصة GitHub، حيث تمكن من حل 24% من المشكلات مقارنة بـ 18% لـ Gemini.
ويعتبر هذا الاختبار أحد أصعب اختبارات SWE-Bench، إذ تتطلب كل مهمة فهم قاعدة كود غير مألوفة، تفسير الغرض من تقرير الأخطاء، وإنتاج حلول عملية، وللمقارنة، يحل البشر جميع التحديات بنسبة 100%.
يذكر أن اختبارات SWE-Bench هي معيار (Benchmark) لتقييم قدرات نماذج الذكاء الاصطناعي في هندسة البرمجيات، وتُستخدم لقياس مدى قدرة النموذج على فهم الشيفرة البرمجية، إصلاح الأخطاء، وتنفيذ تعديلات واقعية كما يفعل مهندس برمجيات حقيقي.
أما في مجال التفكير المجرد البصري، فقد سجل ChatGPT-5.2 معدل 54.2% في اختبار ARC-AGI-2، المصمم لتقييم قدرة الذكاء الاصطناعي على استخلاص الأنماط وتطبيقها على تحديات جديدة، فيما سجل Gemini 3 Pro نسبة 31.1%، في حين وصلت نسخة محسنة منه إلى 54% فقط، ما يؤكد تفوق ChatGPT على Gemini في هذا النوع من التفكير.
وأكدت منهجية الدراسة على الاعتماد على أحدث الإصدارات المدفوعة من النظامين، مع التركيز على المعايير التي تقيس المعرفة والتفكير وحل المشكلات، مستبعدة الاختبارات ذات الطابع الشخصي مثل LLMArena، رغم أن هذه الأخيرة تشير إلى تفضيل المستخدمين لـ Gemini على ChatGPT.
وتؤكد هذه النتائج أن ChatGPT لا يزال يتصدر في عدة مجالات أساسية للذكاء الاصطناعي، ما يعكس التطورات السريعة في قدرات النماذج الحديثة وقدرتها على التعامل مع المهام المعقدة التي تتطلب منطقا علميا، مهارات برمجية، وتفكيرا تجريديا عالي المستوى.