Home أخبار يقوم الباحثون بقلب الوضع الراهن للذكاء الاصطناعي من خلال القضاء على مضاعفة...

يقوم الباحثون بقلب الوضع الراهن للذكاء الاصطناعي من خلال القضاء على مضاعفة المصفوفات في ماجستير إدارة الأعمال

57
0

تكبير / رسم توضيحي للدماغ داخل المصباح الكهربائي.

يدعي الباحثون أنهم طوروا طريقة جديدة لتشغيل نماذج لغة الذكاء الاصطناعي بشكل أكثر كفاءة من خلال إزالة مضاعفة المصفوفات من العملية. يؤدي هذا بشكل أساسي إلى إعادة تصميم عمليات الشبكة العصبية التي يتم تسريعها حاليًا بواسطة شرائح GPU. يمكن أن يكون لهذه النتائج، المفصلة في ورقة بحثية حديثة أعدها باحثون في جامعة كاليفورنيا سانتا كروز، وجامعة كاليفورنيا في ديفيس، وLuxiTech، وجامعة سوتشو، آثار عميقة على التأثير البيئي والتكاليف التشغيلية لأنظمة الذكاء الاصطناعي.

يعد مضاعفة المصفوفة (غالبًا ما يتم اختصاره إلى “MatMul”) في مركز معظم المهام الحسابية للشبكة العصبية اليوم، ووحدات معالجة الرسوميات جيدة بشكل خاص في تنفيذ العمليات الحسابية بسرعة لأنها تستطيع إجراء أعداد كبيرة من عمليات الضرب بالتوازي. هذه القدرة جعلت Nvidia مؤقتًا الشركة الأكثر قيمة في العالم الأسبوع الماضي؛ تمتلك الشركة حاليًا ما يقدر بنحو 98 بالمائة من حصة السوق لوحدات معالجة الرسومات في مراكز البيانات، والتي تُستخدم عادةً لتشغيل أنظمة الذكاء الاصطناعي مثل ChatGPT وGoogle Gemini.

في الورقة الجديدة التي تحمل عنوان “نمذجة اللغة الخالية من MatMul القابلة للتطوير”، يصف الباحثون إنشاء نموذج معلمة مخصص يبلغ 2.7 مليار دون استخدام MatMul الذي يتميز بأداء مماثل لنماذج اللغة التقليدية الكبيرة (LLMs). لقد أظهروا أيضًا تشغيل نموذج معلمة 1.3 مليار بمعدل 23.8 رمزًا في الثانية على وحدة معالجة الرسومات التي تم تسريعها بواسطة شريحة FPGA مبرمجة خصيصًا والتي تستخدم حوالي 13 واط من الطاقة (دون احتساب سحب طاقة وحدة معالجة الرسومات). وكتبوا أن المعنى الضمني هو أن FPGA الأكثر كفاءة “تمهد الطريق لتطوير بنيات أكثر كفاءة وصديقة للأجهزة”.

إعلان

لا توفر الورقة تقديرات الطاقة لماجستير القانون التقليدي، ولكن هذا المنشور من جامعة كاليفورنيا في سانتا كروز يقدر حوالي 700 واط للنموذج التقليدي. ومع ذلك، في تجربتنا، يمكنك تشغيل إصدار معلمة 2.7B من Llama 2 بكفاءة على جهاز كمبيوتر منزلي باستخدام RTX 3060 (الذي يستخدم حوالي 200 واط من الذروة) مدعومًا بمصدر طاقة بقدرة 500 واط. لذا، إذا كان بإمكانك نظريًا تشغيل LLM بالكامل بقدرة 13 واط فقط على FPGA (بدون وحدة معالجة الرسومات)، فسيكون ذلك بمثابة انخفاض بمقدار 38 ضعفًا في استخدام الطاقة.

لم تخضع هذه التقنية بعد لمراجعة النظراء، لكن الباحثين – روي جي تشو، ويو تشانغ، وإيثان سيفرمان، وتايلر شيفز، وييكياو وانغ، وداستن ريتشموند، وبنغ تشو، وجيسون إشراغيان – يزعمون أن عملهم يتحدى النموذج السائد القائل بأن لا غنى عن عمليات ضرب المصفوفات لبناء نماذج لغوية عالية الأداء. ويجادلون بأن نهجهم يمكن أن يجعل نماذج اللغات الكبيرة أكثر سهولة وكفاءة واستدامة، خاصة عند نشرها على أجهزة محدودة الموارد مثل الهواتف الذكية.

التخلص من الرياضيات المصفوفة

في هذه الورقة، ذكر الباحثون أن BitNet (ما يسمى بتقنية المحولات “1 بت” التي قامت بجولات كطبعة أولية في أكتوبر) كمقدمة مهمة لعملهم. وفقًا للمؤلفين، أثبتت BitNet جدوى استخدام الأوزان الثنائية والثلاثية في نماذج اللغة، ونجحت في توسيع نطاق ما يصل إلى 3 مليارات معلمة مع الحفاظ على الأداء التنافسي.

ومع ذلك، فقد لاحظوا أن BitNet لا تزال تعتمد على مضاعفات المصفوفات في آلية الاهتمام الذاتي الخاصة بها. كانت القيود المفروضة على BitNet بمثابة حافز للدراسة الحالية، مما دفعهم إلى تطوير بنية “خالية من MatMul” تمامًا يمكنها الحفاظ على الأداء مع القضاء على مضاعفات المصفوفات حتى في آلية الانتباه.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here