Home أخبار هل يمكنك أن تفعل ما هو أفضل من نماذج الذكاء الاصطناعي عالية...

هل يمكنك أن تفعل ما هو أفضل من نماذج الذكاء الاصطناعي عالية المستوى في اختبارات الرؤية الأساسية هذه؟

15
0

تكبير / مهما فعلت، لا تسأل الذكاء الاصطناعي عن عدد الخطوط الأفقية الموجودة في هذه الصورة.

صور جيتي

في العامين الماضيين، شهدنا تقدمًا مذهلاً في أنظمة الذكاء الاصطناعي عندما يتعلق الأمر بالتعرف على محتويات الصور المعقدة وتحليلها. لكن ورقة بحثية جديدة تسلط الضوء على مدى فشل العديد من “نماذج التعلم البصري” الحديثة في أداء مهام التحليل البصري البسيطة منخفضة المستوى والتي يسهل على الإنسان القيام بها.

في ورقة بحثية قبل الطباعة بعنوان “نماذج لغة الرؤية عمياء” (تحتوي على نسخة PDF تتضمن رمزًا تعبيريًا لنظارة شمسية داكنة في العنوان)، ابتكر باحثون من جامعة أوبورن وجامعة ألبرتا ثمانية اختبارات بسيطة لحِدة البصر بإجابات صحيحة موضوعيًا. وتتراوح هذه الاختبارات من تحديد عدد مرات تقاطع خطين ملونين إلى تحديد الحرف الذي تم وضع دائرة حوله في كلمة طويلة إلى حساب عدد الأشكال المتداخلة الموجودة في صورة (يمكن الاطلاع على أمثلة ونتائج تمثيلية على صفحة الويب الخاصة بفريق البحث).

إذا تمكنت من حل هذه الأنواع من الألغاز، فقد يكون لديك تفكير بصري أفضل من الذكاء الاصطناعي المتطور.

الألغاز الموجودة على اليمين تشبه شيئًا ما من مجلة Highlights.

تظهر عينة تمثيلية نماذج الذكاء الاصطناعي تفشل في أداء مهمة قد يجدها معظم الأطفال البشر تافهة.

والأمر الحاسم هنا هو أن هذه الاختبارات يتم إنشاؤها بواسطة أكواد مخصصة ولا تعتمد على صور أو اختبارات موجودة مسبقًا يمكن العثور عليها على الإنترنت العام، وبالتالي “تقليل احتمالات قدرة أجهزة VLM على حل المشكلات عن طريق الحفظ”، وفقًا للباحثين. كما تتطلب الاختبارات “معرفة ضئيلة أو معدومة بالعالم” تتجاوز الأشكال الأساسية ثنائية الأبعاد، مما يجعل من الصعب استنتاج الإجابة من “الأسئلة النصية والخيارات وحدها” (وهو ما تم تحديده كمشكلة لبعض معايير الذكاء الاصطناعي المرئي الأخرى).

هل أنت أذكى من في الصف الخامس؟

بعد إجراء اختبارات متعددة عبر أربعة نماذج بصرية مختلفة – GPT-4o و Gemini-1.5 Pro و Sonnet-3 و Sonnet-3.5 – وجد الباحثون أن جميع النماذج الأربعة كانت أقل بكثير من الدقة بنسبة 100 في المائة التي قد تتوقعها لمثل هذه المهام التحليلية البصرية البسيطة (والتي لن يواجه معظم البشر المبصرين صعوبة كبيرة في تحقيقها). لكن حجم ضعف أداء الذكاء الاصطناعي كان يختلف اختلافًا كبيرًا اعتمادًا على المهمة المحددة. على سبيل المثال، عندما طُلب منه حساب عدد الصفوف والأعمدة في شبكة فارغة، أعطى النموذج الأفضل أداءً إجابة دقيقة أقل من 60 في المائة من الوقت فقط. من ناحية أخرى، حقق Gemini-1.5 Pro دقة تقترب من 93 في المائة في تحديد الحروف الدائرية، وهو ما يقترب من الأداء البشري.

لسبب ما، تميل النماذج إلى تخمين أن الحرف “o” محاط بدائرة بشكل غير صحيح أكثر بكثير من جميع الحروف الأخرى في هذا الاختبار.

وقد نجحت النماذج في عد خمس دوائر متشابكة بشكل مثالي، وهو نمط قد يكونون على دراية به من الصور الشائعة للحلقات الأولمبية.

هل تجد أن حساب الأعمدة في الشبكة أسهل من حساب الصفوف؟ إذا كان الأمر كذلك، فمن المحتمل أنك لست من الذكاء الاصطناعي.

وحتى التغييرات الصغيرة في المهام قد تؤدي أيضًا إلى تغييرات هائلة في النتائج. وبينما تمكنت النماذج الأربعة المختبرة من تحديد خمس دوائر مجوفة متداخلة بشكل صحيح، انخفضت الدقة عبر جميع النماذج إلى أقل من 50 بالمائة عندما كانت ست إلى تسع دوائر متضمنة. افترض الباحثون أن هذا “يشير إلى أن VLMs متحيزة نحو شعار الألعاب الأوليمبية الشهير، والذي يحتوي على خمس دوائر”. في حالات أخرى، كانت النماذج تتوهم أحيانًا إجابات غير منطقية، مثل تخمين “9” أو “n” أو “©” كحرف محاط بدائرة في كلمة “Subdermatoglyphic”.

بشكل عام، تسلط النتائج الضوء على كيف أن نماذج الذكاء الاصطناعي التي يمكنها الأداء الجيد في التفكير البصري عالي المستوى لديها بعض “النقاط العمياء” المهمة (آسف) عندما يتعلق الأمر بالصور المجردة منخفضة المستوى. كل هذا يذكرنا إلى حد ما بفجوات القدرات المماثلة التي نراها غالبًا في نماذج اللغة الكبيرة الحديثة، والتي يمكنها إنشاء ملخصات مقنعة للغاية لنصوص طويلة بينما تفشل في نفس الوقت في أسئلة الرياضيات والإملاء الأساسية للغاية.

وقد ترجع هذه الفجوات في قدرات VLM إلى عدم قدرة هذه الأنظمة على التعميم بما يتجاوز أنواع المحتوى التي تم تدريبها عليها صراحة. ومع ذلك، عندما حاول الباحثون ضبط نموذج باستخدام صور محددة مأخوذة من إحدى مهامهم (اختبار “هل تتلامس دائرتان؟”)، أظهر هذا النموذج تحسنًا متواضعًا فقط، من دقة 17% إلى حوالي 37%. وكتب الباحثون: “كانت قيم الخسارة لجميع هذه التجارب قريبة جدًا من الصفر، مما يشير إلى أن النموذج يبالغ في ملاءمة مجموعة التدريب ولكنه يفشل في التعميم”.

يقترح الباحثون أن الفجوة في قدرة VLM قد تكون مرتبطة بما يسمى “الاندماج المتأخر” لمشفرات الرؤية في نماذج اللغة الكبيرة المدربة مسبقًا. يقترح الباحثون أن نهج التدريب “الاندماج المبكر” الذي يدمج التشفير البصري جنبًا إلى جنب مع تدريب اللغة قد يؤدي إلى نتائج أفضل في هذه المهام منخفضة المستوى (دون تقديم أي نوع من التحليل لهذه المسألة).

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here