Home أخبار حصري: قدرات تحليل البيانات في جيميني ليست جيدة كما تدعي جوجل

حصري: قدرات تحليل البيانات في جيميني ليست جيدة كما تدعي جوجل

18
0

إن إحدى نقاط البيع الرئيسية لنماذج الذكاء الاصطناعي التوليدي الرائدة من جوجل، Gemini 1.5 Pro و1.5 Flash، هي كمية البيانات التي يُفترض أنها يمكن معالجتها وتحليلها. في الإحاطات الصحفية والعروض التوضيحية، زعمت جوجل مرارًا وتكرارًا أن النماذج يمكنها إنجاز مهام كانت مستحيلة سابقًا بفضل “سياقها الطويل”، مثل تلخيص مستندات متعددة مكونة من مئات الصفحات أو البحث عبر مشاهد في لقطات فيلمية.

لكن الأبحاث الجديدة تشير إلى أن النماذج ليست، في الواقع، جيدة جدًا في هذه الأشياء.

بحثت دراستان منفصلتان في مدى نجاح نماذج جيميني التي طورتها جوجل وغيرها من النماذج في الاستفادة من كمية هائلة من البيانات – فكر في نجاح “الحرب والسلام”. يجد كلاهما أن Gemini 1.5 Pro و1.5 Flash يكافحان للإجابة على الأسئلة المتعلقة بمجموعات البيانات الكبيرة بشكل صحيح؛ وفي سلسلة واحدة من الاختبارات المستندة إلى المستندات، أعطت النماذج الإجابة الصحيحة بنسبة 40% فقط في 50% من الوقت.

“في حين أن نماذج مثل Gemini 1.5 Pro يمكنها معالجة السياقات الطويلة تقنيًا، فقد رأينا العديد من الحالات التي تشير إلى أن النماذج لا تفهم المحتوى في الواقع،” مارزينا كاربينسكا، باحثة ما بعد الدكتوراه في جامعة UMass Amherst ومؤلفة مشاركة في أحد الأبحاث. الدراسات، قال TechCrunch.

نافذة سياق الجوزاء غير موجودة

يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، كما يمكن أن يكون نص فيلم أو عرض أو مقطع صوتي. ومع نمو نوافذ السياق، يتزايد أيضًا حجم المستندات التي يتم وضعها فيها.

تستطيع أحدث إصدارات جيميني استيعاب ما يزيد على مليوني رمز كسياق. (الرموز هي أجزاء مقسمة من البيانات الخام، مثل المقاطع “fan” و”tas” و”tic” في كلمة “fantastic”). وهذا يعادل نحو 1.4 مليون كلمة، أو ساعتين من الفيديو، أو 22 ساعة من الصوت ــ وهو السياق الأكبر لأي نموذج متاح تجاريا.

في مؤتمر صحفي في وقت سابق من هذا العام، عرضت Google العديد من العروض التوضيحية المسجلة مسبقًا والتي تهدف إلى توضيح إمكانات Gemini ذات السياق الطويل. طلب أحدهم من برنامج Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البث التلفزيوني يبدو مشابهًا لرسم بالقلم الرصاص.

ووصف نائب رئيس الأبحاث في Google DeepMind Oriol Vinyals، الذي قاد الإحاطة، النموذج بأنه “ساحر”.

وقال: “(1.5 Pro) ينفذ هذا النوع من المهام المنطقية عبر كل صفحة وكل كلمة”.

ربما كان ذلك مبالغة.

في إحدى الدراسات المذكورة أعلاه لقياس هذه القدرات، طلبت كاربينسكا، جنبًا إلى جنب مع باحثين من معهد ألين للذكاء الاصطناعي وبرينستون، من النماذج تقييم البيانات الصحيحة/الخاطئة حول الكتب الخيالية المكتوبة باللغة الإنجليزية. اختار الباحثون الأعمال الحديثة بحيث لا تتمكن النماذج من “الغش” من خلال الاعتماد على المعرفة المسبقة، وقاموا بملء البيانات بإشارات إلى تفاصيل محددة ونقاط حبكة سيكون من المستحيل فهمها دون قراءة الكتب بأكملها.

بالنظر إلى بيان مثل “باستخدام مهاراتها كأبوث، تتمكن نوسيس من إجراء هندسة عكسية لنوع البوابة التي يتم فتحها بواسطة مفتاح الكواشف الموجود في صندوق رونا الخشبي”، كان على جيميني 1.5 برو و1.5 فلاش – بعد تناول الكتاب ذي الصلة – أن يقولوا ما إذا كان البيان صحيحًا أم خاطئًا ويشرحوا منطقهم.

اعتمادات الصورة: جامعة ماساتشوستس أمهرست

تم اختباره على كتاب واحد يبلغ طوله حوالي 260.000 كلمة (حوالي 520 صفحة)، ووجد الباحثون أن 1.5 Pro أجاب على عبارات الصواب/الخطأ بشكل صحيح بنسبة 46.7% من الوقت بينما أجاب Flash بشكل صحيح بنسبة 20% فقط من الوقت. وهذا يعني أن العملة المعدنية أفضل بكثير في الإجابة على الأسئلة المتعلقة بالكتاب من أحدث نموذج للتعلم الآلي من Google. وبحساب متوسط ​​جميع النتائج المرجعية، لم يتمكن أي من النموذجين من تحقيق فرصة عشوائية أعلى من حيث دقة الإجابة على الأسئلة.

وقالت كاربينسكا: “لقد لاحظنا أن النماذج تواجه صعوبة أكبر في التحقق من الادعاءات التي تتطلب النظر في أجزاء أكبر من الكتاب، أو حتى الكتاب بأكمله، مقارنة بالادعاءات التي يمكن حلها عن طريق استرجاع الأدلة على مستوى الجملة”. “من الناحية النوعية، لاحظنا أيضًا أن النماذج تكافح من أجل التحقق من الادعاءات حول المعلومات الضمنية الواضحة للقارئ البشري ولكن لم يتم ذكرها صراحةً في النص.”

اختبرت الدراسة الثانية، التي شارك في تأليفها باحثون في جامعة كاليفورنيا في سانتا باربرا، قدرة Gemini 1.5 Flash (ولكن ليس 1.5 Pro) على “التفكير المنطقي” في مقاطع الفيديو – أي البحث في الأسئلة المتعلقة بالمحتوى الموجود فيها والإجابة عنها. .

قام المؤلفون المشاركون بإنشاء مجموعة بيانات من الصور (على سبيل المثال، صورة لكعكة عيد ميلاد) مقترنة بأسئلة للنموذج للإجابة عليها حول الأشياء الموضحة في الصور (على سبيل المثال، “ما هي شخصية الرسوم المتحركة الموجودة على هذه الكعكة؟”). لتقييم النماذج، اختاروا إحدى الصور عشوائيًا وأدخلوا صورًا “مشتتة” قبلها وبعدها لإنشاء لقطات تشبه عرض الشرائح.

لم يكن أداء الفلاش جيدًا. في اختبار قام فيه النموذج بنسخ ستة أرقام مكتوبة بخط اليد من “عرض شرائح” مكون من 25 صورة، نجح Flash في تسجيل حوالي 50% من النسخ بشكل صحيح. انخفضت الدقة إلى حوالي 30% بثمانية أرقام.

صرح مايكل ساكسون، طالب الدكتوراه في جامعة كاليفورنيا سانتا باربرا وأحد المشاركين في الدراسة، لموقع TechCrunch: “في مهام الإجابة على الأسئلة الحقيقية عبر الصور، يبدو الأمر صعبًا بشكل خاص بالنسبة لجميع النماذج التي اختبرناها. قد يكون هذا القدر الضئيل من التفكير – التعرف على وجود رقم في إطار وقراءته – هو ما يكسر النموذج”.

جوجل تبالغ في الوعود مع جيميني

لم تتم مراجعة أي من الدراستين من قبل النظراء، كما أنها لم تحقق في إصدارات Gemini 1.5 Pro و1.5 Flash مع سياقات مكونة من 2 مليون رمز مميز. (كلاهما اختبر إصدارات سياق المليون رمز مميز.) وليس من المفترض أن يكون Flash بنفس قدرة Pro من حيث الأداء؛ تعلن Google عنه كبديل منخفض التكلفة.

ومع ذلك، فإن كليهما يصب الزيت على النار التي كانت جوجل تبالغ في وعودها – وتقصر في الوفاء بها – مع جيميني منذ البداية. لم يكن أداء أي من النماذج التي اختبرها الباحثون، بما في ذلك GPT-4o من OpenAI و Claude 3.5 Sonnet من Anthropic، جيدًا. لكن شركة Google هي المزود النموذجي الوحيد الذي يمنح نافذة سياقية أعلى الفواتير في إعلاناته.

قال ساكسون: “لا يوجد خطأ في الادعاء البسيط، “نموذجنا يمكن أن يأخذ عددًا X من الرموز المميزة” بناءً على التفاصيل الفنية الموضوعية”. “لكن السؤال هو، ما الشيء المفيد الذي يمكنك فعله به؟”

بشكل عام، أصبح الذكاء الاصطناعي التوليدي يخضع لتدقيق متزايد مع تزايد إحباط الشركات (والمستثمرين) من القيود التي تفرضها التكنولوجيا.

في استطلاعين حديثين أجرتهما مجموعة بوسطن الاستشارية، قال حوالي نصف المشاركين – جميعهم من كبار المسؤولين التنفيذيين – إنهم لا يتوقعون أن يحقق الذكاء الاصطناعي التوليدي مكاسب إنتاجية كبيرة وأنهم قلقون بشأن احتمال حدوث أخطاء واختراقات للبيانات ناجمة عن أدوات الذكاء الاصطناعي التوليدي. أفاد موقع PitchBook مؤخرًا أنه على مدار ربعين متتاليين، انخفضت صفقات الذكاء الاصطناعي التوليدي في المراحل المبكرة، بنسبة 76٪ عن ذروتها في الربع الثالث من عام 2023.

في مواجهة روبوتات الدردشة التي تلخص الاجتماعات والتي تستحضر تفاصيل خيالية عن الأشخاص ومنصات بحث الذكاء الاصطناعي التي ترقى في الأساس إلى مولدات الانتحال، يبحث العملاء عن أدوات تمييز واعدة. جوجل – التي تسابقت، في بعض الأحيان بطريقة خرقاء، للحاق بمنافسيها في مجال الذكاء الاصطناعي – كانت يائسة لجعل سياق جيميني أحد تلك الفروق.

لكن الرهان كان سابقًا لأوانه، على ما يبدو.

وقالت كاربينسكا: “لم نستقر بعد على طريقة لإظهار أن “الاستدلال” أو “الفهم” للوثائق الطويلة يحدث بالفعل، وكل مجموعة تطلق هذه النماذج تقوم بتجميع تقييماتها الخاصة لتقديم هذه الادعاءات”. . “بدون معرفة المدة التي يتم فيها تنفيذ معالجة السياق – ولا تشارك الشركات هذه التفاصيل – فمن الصعب تحديد مدى واقعية هذه الادعاءات”.

ولم تستجب جوجل لطلب التعليق.

يعتقد كل من ساكسون وكاربينسكا أن الترياق للمزاعم المبالغ فيها حول الذكاء الاصطناعي التوليدي هو معايير أفضل، وعلى نفس المنوال، التركيز بشكل أكبر على نقد الطرف الثالث. يلاحظ ساكسون أن أحد الاختبارات الأكثر شيوعًا للسياق الطويل (الذي تستشهد به جوجل بسخاء في موادها التسويقية)، “الإبرة في كومة القش”، يقيس فقط قدرة النموذج على استرجاع معلومات معينة، مثل الأسماء والأرقام، من مجموعات البيانات – وليس الإجابة على أسئلة معقدة حول هذه المعلومات.

وقال ساكسون: “إن جميع العلماء ومعظم المهندسين الذين يستخدمون هذه النماذج متفقون بشكل أساسي على أن ثقافة المعايير المرجعية الحالية لدينا مكسورة، لذلك من المهم أن يفهم الجمهور أنه يجب أخذ هذه التقارير العملاقة التي تحتوي على أرقام مثل “الذكاء العام عبر المعايير المرجعية” بحذر شديد”.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here