Home أخبار ما نوع الخطأ الذي قد يجعل التعلم الآلي أسوأ بنسبة 40% فجأة...

ما نوع الخطأ الذي قد يجعل التعلم الآلي أسوأ بنسبة 40% فجأة في NetHack؟

72
0

أوريش لوسون

أعضاء المحكمة الأسطورية لأخطاء الكمبيوتر، أيها الضيوف الكرام، هل تسمحون لي بلفت انتباهكم؟ أود بكل تواضع أن أقدم منافسًا جديدًا لحكمكم الموقر. قد تجدها أو لا تجدها جديدة، بل قد تتنازل عن تسميتها “خطأ”، لكنني أؤكد لك أنك ستجدها مسلية.

خذ بعين الاعتبار NetHack. إنها واحدة من ألعاب روجلايك على الإطلاق، وأعني ذلك بالمعنى الأكثر صرامة لهذا المصطلح. يتم إنشاء المحتوى بشكل إجرائي، والوفيات دائمة، والشيء الوحيد الذي تحتفظ به من لعبة إلى أخرى هو مهارتك ومعرفتك. أنا أفهم أن الشيء الوحيد الذي يمكن أن يتفق عليه اثنان من مشجعي روجلايك هو مدى خطأ معجب روجلايك الثالث في تعريفهم لروجلايك، ولكن، من فضلك، دعنا نمضي قدمًا.

يعد NetHack رائعًا للتعلم الآلي…

كونها لعبة صعبة مليئة بالاختيارات المتتابعة والتحديات العشوائية، فضلاً عن كونها لعبة “عميل واحد” يمكن إنشاؤها وتشغيلها بسرعة البرق على أجهزة الكمبيوتر الحديثة، فإن NetHack تعتبر رائعة لأولئك الذين يعملون في مجال التعلم الآلي – أو التعلم بالتقليد، في الواقع. ، كما هو مفصل في ورقة Jens Tuyls حول كيفية تأثير القياس الحسابي على تعلم الألعاب ذات الوكيل الفردي. باستخدام نموذج Tuyls لسلوك NetHack الخبير، قام Bartłomiej Cupiał وMaciej Wołczyk بتدريب شبكة عصبية على اللعب وتحسين نفسها باستخدام التعلم المعزز.

وبحلول منتصف شهر مايو من هذا العام، تمكن نموذجهما من تسجيل 5000 نقطة باستمرار وفقًا لمقاييسهما الخاصة. ثم، في إحدى التجارب، أصبح النموذج أسوأ فجأة، بنسبة 40%. وسجل 3000 نقطة. يسير التعلم الآلي عمومًا، تدريجيًا، في اتجاه واحد مع هذه الأنواع من المشكلات. لم يكن الأمر منطقيًا.

لقد جرب كل من Cupiał وWołczyk عددًا لا بأس به من الأشياء: التراجع عن التعليمات البرمجية الخاصة بهم، واستعادة حزمة البرامج بالكامل من نسخة احتياطية من Singularity، واستعادة مكتبات CUDA الخاصة بهم. النتائج؟ 3000 نقطة. لقد أعادوا بناء كل شيء من الصفر، ولا يزال هناك 3000 نقطة.

إعلان

NetHack، يلعبها إنسان عادي.

NetHack، يلعبها إنسان عادي.

… إلا في ليالي معينة

كما هو مفصل في موضوع Cupiał’s X (Twitter سابقًا)، كانت هذه عدة ساعات من التجربة والخطأ المشوش من قبله وWołczyk. “لقد بدأت أشعر وكأنني رجل مجنون. كتب كوبيال: “لا أستطيع حتى مشاهدة برنامج تلفزيوني وأنا أفكر باستمرار في هذا الخطأ”. في حالة من اليأس، سأل المؤلف النموذجي تويلز إذا كان يعرف ما يمكن أن يكون خطأ. يستيقظ في كراكوف للحصول على إجابة:

“أوه نعم، من المحتمل أن يكون القمر مكتملاً اليوم.”

في NetHack، اللعبة التي فكر فيها DevTeam في كل شيء، إذا اكتشفت اللعبة من ساعة نظامك أنه يجب أن يكون قمرًا مكتملاً، فسوف تولد رسالة: “أنت محظوظ! اكتمال القمر الليلة.” يمنح البدر بعض الفوائد للاعب: نقطة واحدة تضاف إلى الحظ، وتحتفظ المخلوقات في الغالب بأشكالها الحيوانية.

إنها لعبة أسهل، مع أخذ كل الأمور في الاعتبار، فلماذا تكون نتيجة وكيل التعلم أقل؟ إنه ببساطة لا يحتوي على بيانات حول متغيرات اكتمال القمر في بيانات التدريب الخاصة به، لذا من المحتمل أن تؤدي سلسلة القرارات المتفرعة إلى نتائج أقل، أو مجرد ارتباك. لقد كان بالفعل اكتمال القمر كراكوف عندما بدأت نتائج الـ 3000 في الظهور. يا لها من ليلة رهيبة أن يكون لديك نموذج للتعلم.

بالطبع، “النتيجة” ليست مقياسًا حقيقيًا للنجاح في NetHack، كما أشار كوبيال نفسه. اطلب من أحد العارضات الحصول على أفضل النتائج، وسوف يتخلص من الوحوش ذات المستوى المنخفض لأنه لا يشعر بالملل أبدًا. “كتب كوبيال: “إن العثور على العناصر المطلوبة من أجل (الصعود) أو حتى (مجرد) القيام بالمهمة هو أمر أكثر من اللازم بالنسبة إلى وكيل RL الخالص”. وتقوم شبكة عصبية أخرى، AutoAscend، بعمل أفضل في التقدم خلال اللعبة، ولكن “حتى يمكنها حل المشكلة فقط. “يشير كوبيال إلى أن سوكوبان وتصل إلى نهاية الألغام”.

هل هذه حقيب؟

أؤكد لك أنه على الرغم من أن NetHack استجاب للقمر بالطريقة المقصودة، إلا أن هذه المحطة الغريبة التي يصعب فهمها في رحلة التعلم الآلي كانت في الواقع خطأً وجديرًا في البانثيون. إنها ليست فراشة هارفارد، ولا بريدًا إلكترونيًا بطول 500 ميل، ولكن ما هو؟

نظرًا لأن الفريق استخدم Singularity لإجراء نسخ احتياطي واستعادة مكدسهم، فقد قاموا عن غير قصد بترحيل وقت الآلة والأخطاء الناتجة في كل مرة حاولوا حلها. كان سلوك الآلة الناتج غريبًا جدًا، ويبدو أنه يعتمد على قوى غير مرئية، مما دفع أحد المبرمجين إلى النوبات. وللقصة بداية، ووسط ذروة، وخاتمة تعلمنا شيئًا مهما كان غامضًا.

أعتقد أن برنامج NetHack Lunar Learning Bug يستحق أن نتذكره. شكرا لك على وقتك.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here