Home أخبار كانت شركة أبل من بين الشركات التي قامت بتدريب الذكاء الاصطناعي الخاص...

كانت شركة أبل من بين الشركات التي قامت بتدريب الذكاء الاصطناعي الخاص بها على مقاطع فيديو يوتيوب

38
0

تكبير / يناقش اليوتيوبر ماركيز براونلي نظام التشغيل iOS 18 في مقطع فيديو جديد. لم يكن هذا الفيديو بالتحديد جزءًا من مجموعة البيانات الكبيرة التي تم استخدامها لتدريب نماذج الذكاء الاصطناعي، ولكن العديد من مقاطع الفيديو الأخرى كانت جزءًا منها.

تم تدريب نماذج الذكاء الاصطناعي في Apple و Salesforce و Anthropic وغيرها من اللاعبين الرئيسيين في مجال التكنولوجيا على عشرات الآلاف من مقاطع الفيديو على YouTube دون موافقة المبدعين وربما في انتهاك لشروط YouTube، وفقًا لتقرير جديد ظهر في Proof News و Wired.

وقد قامت الشركات بتدريب نماذجها جزئيًا باستخدام “الكومة”، وهي مجموعة من قبل مؤسسة EleutherAI غير الربحية والتي تم تجميعها كوسيلة لتقديم مجموعة بيانات مفيدة للأفراد أو الشركات التي لا تملك الموارد للتنافس مع شركات التكنولوجيا الكبرى، على الرغم من أنها استخدمت أيضًا منذ ذلك الحين من قبل تلك الشركات الأكبر.

تتضمن المجموعة كتبًا ومقالات ويكيبيديا وغير ذلك الكثير. ويشمل ذلك ترجمات يوتيوب التي تم جمعها بواسطة واجهة برمجة تطبيقات ترجمات يوتيوب، والتي تم جمعها من 173536 مقطع فيديو على يوتيوب عبر أكثر من 48000 قناة. ويشمل ذلك مقاطع فيديو من كبار مستخدمي يوتيوب مثل MrBeast وPewDiePie والمعلق التقني الشهير Marques Brownlee. في X، انتقد براونلي استخدام Apple لمجموعة البيانات، لكنه أقر بأن إلقاء اللوم أمر معقد عندما لا تجمع Apple البيانات بنفسها. وكتب:

حصلت شركة Apple على البيانات الخاصة بالذكاء الاصطناعي من عدة شركات

قام أحدهم بجمع كميات هائلة من البيانات/النصوص من مقاطع فيديو يوتيوب، بما في ذلك مقاطع الفيديو الخاصة بي

تتجنب شركة Apple من الناحية الفنية “الخطأ” هنا لأنها ليست الجهة التي تقوم بالتنظيف

لكن هذه سوف تكون مشكلة متطورة لفترة طويلة

كما أنها تشمل قنوات العديد من العلامات التجارية الإعلامية السائدة والمتاحة عبر الإنترنت، بما في ذلك مقاطع الفيديو التي كتبتها وأنتجتها ونشرتها شركة Ars Technica وموظفوها والعديد من العلامات التجارية الأخرى لشركة Condé Nast مثل Wired وThe New Yorker.

بالمصادفة، كان أحد مقاطع الفيديو المستخدمة في مجموعة البيانات فيلمًا قصيرًا من إنتاج Ars Technica حيث كانت النكتة هي أنه تم كتابته بالفعل بواسطة الذكاء الاصطناعي. كما ذكر مقال Proof News أنه تم تدريبه على مقاطع فيديو لببغاء، لذا فإن نماذج الذكاء الاصطناعي تقوم بببغاء، وتكرار الكلام البشري، بالإضافة إلى ببغاء الذكاء الاصطناعي الآخر، وتكرار البشر.

مع استمرار انتشار المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي على الإنترنت، سيكون من الصعب بشكل متزايد تجميع مجموعات البيانات لتدريب الذكاء الاصطناعي التي لا تتضمن المحتوى الذي تم إنتاجه بالفعل بواسطة الذكاء الاصطناعي.

ولكي نكون واضحين، فإن بعض هذا ليس خبراً جديداً. فغالباً ما يتم استخدام “الكومة” والإشارة إليها في دوائر الذكاء الاصطناعي، ومن المعروف أن شركات التكنولوجيا تستخدمها للتدريب في الماضي. وقد تم الاستشهاد بها في دعاوى قضائية متعددة من قبل أصحاب الملكية الفكرية ضد شركات الذكاء الاصطناعي والتكنولوجيا. ويقول المدعى عليهم في تلك الدعاوى القضائية، بما في ذلك شركة OpenAI، إن هذا النوع من الكشط هو استخدام عادل. ولم يتم حل الدعاوى القضائية بعد في المحكمة.

ومع ذلك، قام موقع Proof News ببعض البحث لتحديد تفاصيل محددة حول استخدام ترجمات YouTube وذهب إلى حد إنشاء أداة يمكنك استخدامها للبحث في Pile عن مقاطع فيديو أو قنوات فردية.

يكشف العمل عن مدى قوة جمع البيانات ويلفت الانتباه إلى مدى ضآلة سيطرة أصحاب الملكية الفكرية على كيفية استخدام أعمالهم إذا كانت على شبكة الإنترنت المفتوحة.

من المهم ملاحظة أنه ليس من الضروري أن يتم استخدام هذه البيانات لتدريب النماذج لإنتاج محتوى تنافسي يصل إلى المستخدمين النهائيين. على سبيل المثال، ربما قامت شركة Apple بتدريب مجموعة البيانات لأغراض بحثية، أو لتحسين الإكمال التلقائي لكتابة النصوص على أجهزتها.

ردود الفعل من المبدعين

كما تواصلت Proof News مع العديد من هؤلاء المبدعين للحصول على بيانات، وكذلك مع الشركات التي استخدمت مجموعة البيانات. وقد فوجئ معظم المبدعين باستخدام محتواهم بهذه الطريقة، وانتقد أولئك الذين قدموا بيانات EleutherAI والشركات التي استخدمت مجموعة البيانات الخاصة بها. على سبيل المثال، قال ديفيد باكمان من برنامج ديفيد باكمان:

لم يأت أحد إليّ وقال: “نود استخدام هذا”… هذا هو مصدر رزقي، وأبذل الوقت والموارد والمال ووقت الموظفين في إنشاء هذا المحتوى. لا يوجد نقص في العمل حقًا.

قالت جوليا والش، الرئيس التنفيذي لشركة الإنتاج Complexly المسؤولة عن SciShow والمحتوى التعليمي الآخر لهانك وجون جرين:

نشعر بالإحباط عندما نعلم أن المحتوى التعليمي الذي أنتجناه بعناية قد تم استخدامه بهذه الطريقة دون موافقتنا.

هناك أيضًا مسألة ما إذا كان استخراج هذا المحتوى ينتهك شروط YouTube، التي تحظر الوصول إلى مقاطع الفيديو من خلال “وسائل آلية”. قال مؤسس EleutherAI سيد بلاك إنه استخدم برنامجًا نصيًا لتنزيل التعليقات التوضيحية عبر واجهة برمجة تطبيقات YouTube، تمامًا كما يفعل متصفح الويب.

تعد شركة Anthropic واحدة من الشركات التي قامت بتدريب النماذج على مجموعة البيانات، ومن جانبها، تدعي عدم وجود انتهاك هنا. قالت المتحدثة باسم الشركة جينيفر مارتينيز:

يتضمن The Pile مجموعة فرعية صغيرة جدًا من ترجمات YouTube… تغطي شروط YouTube الاستخدام المباشر لمنصتها، وهو أمر مختلف عن استخدام مجموعة بيانات The Pile. فيما يتعلق بالانتهاكات المحتملة لشروط خدمة YouTube، يتعين علينا إحالتك إلى مؤلفي The Pile.

صرح متحدث باسم جوجل لموقع Proof News أن جوجل اتخذت “إجراءات على مر السنين لمنع الاستخراج المسيء وغير المصرح به” لكنه لم يقدم استجابة أكثر تحديدًا. هذه ليست المرة الأولى التي تتعرض فيها شركات الذكاء الاصطناعي والتكنولوجيا لانتقادات بسبب تدريب النماذج على مقاطع فيديو YouTube دون إذن. ومن الجدير بالذكر أن OpenAI (الشركة التي تقف وراء ChatGPT وأداة إنشاء الفيديو Sora) يُعتقد أنها استخدمت بيانات YouTube لتدريب نماذجها، على الرغم من عدم تأكيد جميع مزاعم هذا.

في مقابلة مع نيلاي باتيل من The Verge، اقترح الرئيس التنفيذي لشركة Google، سوندار بيتشاي، أن استخدام مقاطع فيديو YouTube لتدريب Sora من OpenAI قد ينتهك شروط YouTube. ومن المؤكد أن هذا الاستخدام يختلف عن استخراج التعليقات التوضيحية عبر واجهة برمجة التطبيقات.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here