الجيل القادم من مقاطع الفيديو المصنوعة بالذكاء الاصطناعي على وشك أن يتم طرحه للعامة حيث تعلن Google عن أداة جديدة يمكنها إنشاء مقاطع صوتية فريدة تلقائيًا.
لقد أثار العديد من صانعي الفيديو المولدين بالذكاء الاصطناعي إعجاب المستخدمين لسنوات، مثل Sora من OpenAI، وRunway Gen-3 Alpha، وDream Machine من Luma AI.
3
أعلنت شركة جوجل عن أداة تحويل الفيديو إلى الصوت الجديدة لمولد DeepMind AI يوم الاثنينالائتمان: ا ف ب
3
ستنتج أداة V2A موسيقى تعمل مع حوار الشخصيات والعناصر النغمية الأخرى لإضفاء الجو السمعي المناسبالائتمان: جوجل
3
يمكن لـ DeepMind’s V2A إنشاء عدد لا حدود له من أفكار الموسيقى التصويرية أيضًاالائتمان: جوجل
لكن لم يتمكن أي من هؤلاء صانعي السحر من إنشاء موسيقى تصويرية مناسبة لتتماشى مع مقاطع الفيديو – حتى الآن.
أعلنت شركة جوجل عن أداة تحويل الفيديو إلى الصوت الجديدة لمولد DeepMind AI يوم الاثنين.
“جيل الفيديو عارضات ازياء تتقدم بوتيرة مذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة. واحد من التالي رئيسي خطوات وكتبت جوجل: “إن الهدف من جلب الأفلام التي تم إنشاؤها إلى الحياة هو إنشاء مقاطع صوتية لمقاطع الفيديو الصامتة هذه”.
“اليوم، نشارك التقدم المحرز في تحويل الفيديو إلى الصوت (V2A) تكنولوجيامما يجعل التوليد السمعي البصري المتزامن ممكنًا.”
“يجمع V2A بين وحدات بكسل الفيديو والبكسلات الطبيعية لغة وأوضحوا أن النص يطالب بإنشاء مقاطع صوتية غنية للحدث الذي يظهر على الشاشة.
يمكن إقران الأداة بنماذج إنشاء الفيديو مثل Veo لصياغة مقاطع صوتية درامية تتوافق تمامًا مع أي مشهد.
سينتج الذكاء الاصطناعي موسيقى تعمل مع حوار الشخصيات والعناصر النغمية الأخرى لخلق الجو السمعي المناسب.
وقالت DeepMind: “يمكنها أيضًا إنشاء مقاطع صوتية لمجموعة من اللقطات التقليدية، بما في ذلك المواد الأرشيفية والأفلام الصامتة والمزيد – مما يفتح نطاقًا أوسع من الفرص الإبداعية”.
شاركت جوجل أمثلة مثيرة للإعجاب للتكنولوجيا الجديدة أثناء العمل، بما في ذلك مقاطع من الموسيقى التصويرية على النمط الغربي التي رافقت راعي بقر على حصان وذئب بري يعوي على القمر.
التحكم الإبداعي الكامل
ستمنح أداة V2A الجديدة من Google المبدعين القدرة على السماح للذكاء الاصطناعي بإنشاء مقطع صوتي استنادًا إلى المدخلات المرئية والمطالبات اللغوية للمقطع، أو تصميم مقطع صوتي بأنفسهم.
يمكن للمستخدمين تقديم مطالبات ومؤشرات تحرير للأداة لتوجيه مخرجاتها في الاتجاه المطلوب.
تقول إحدى مجموعات التوجيهات: “اطلب الصوت: فيلم سينمائي، فيلم إثارة، فيلم رعب، موسيقى، توتر، أجواء، خطى على الخرسانة.”
يُظهر المشهد رجلاً يسير عبر مبنى مدمر قبل أن ينتهي بمنظر الرجل نفسه على جسر غريب.
يقوم الذكاء الاصطناعي بإنشاء مقطع صوتي مناسب تمامًا للمقطع الذي يتناسب مع نغمة السرد وسرعته.
خيارات الموسيقى التصويرية التي لا نهاية لها
يمكن لـ DeepMind’s V2A إنشاء عدد لا حدود له من أفكار الموسيقى التصويرية أيضًا.
أحد الأمثلة على ذلك يقرأ ما يلي: “مطالبة بالصوت: سفينة فضاء تندفع عبر الفضاء الشاسع، والنجوم تمر عبره، وسرعة عالية، وخيال علمي.”
وأظهر الفيديو مركبة فضائية تحلق في الفضاء الشاسع مع ضوء نجم يسطع في المسافة.
كانت الموسيقى التصويرية الأولى التي تم إنشاؤها بواسطة أداة V2A عبارة عن مقطوعة أوركسترا راقية تتوافق مع الصورة والموجه.
كانت الموسيقى التصويرية الثانية التي أنتجها الذكاء الاصطناعي من نفس الموجه أكثر قتامة وأبطأ.
ما هو جوجل ديب مايند؟
ولد مشروع Google DeepMind في عام 2010.
“يجمع Google DeepMind بين اثنين من مختبرات الذكاء الاصطناعي الرائدة في العالم – Google Brain و DeepMind – في فريق واحد مركز بقيادة الرئيس التنفيذي لدينا ديميس هاسابيس،” وفقًا لـ Google.
“على مدى العقد الماضي، كان الفريقان مسؤولين عن بعض أكبر الإنجازات البحثية في مجال الذكاء الاصطناعي، والتي يدعم الكثير منها صناعة الذكاء الاصطناعي المزدهرة التي نراها اليوم.”
تهدف المنظمة إلى إبراز الإمكانات الهائلة للذكاء الاصطناعي للجميع.
وكتبوا: “نحن فريق من العلماء والمهندسين وعلماء الأخلاق وغيرهم، نعمل على بناء الجيل القادم من أنظمة الذكاء الاصطناعي بأمان ومسؤولية”.
“من خلال حل بعض أصعب التحديات العلمية والهندسية في عصرنا، فإننا نعمل على إنشاء تقنيات متقدمة يمكنها تطوير العلوم وتحويل العمل وخدمة المجتمعات المتنوعة – وتحسين حياة المليارات من الناس.”
المصدر: جوجل ديب مايند
باستخدام “المطالبة بالصوت: جو التشيلو الأثيري،” غيّر الأمور أكثر.
حددت هذه الموسيقى التصويرية الثالثة على الفور نغمة أكثر حزنًا وتأملاً.
فقط التحسن
وقالت جوجل إن هذه التحديثات كانت مجرد أحدث محاولة لها لترقية مجموعتها الكاملة من موفري المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
إنهم يأملون في تحسين بعض المشكلات في الإصدارات القادمة.
وقالت جوجل: “نظرًا لأن جودة إخراج الصوت تعتمد على جودة إدخال الفيديو، فإن الشوائب أو التشوهات الموجودة في الفيديو، والتي تكون خارج نطاق توزيع تدريب النموذج، يمكن أن تؤدي إلى انخفاض ملحوظ في جودة الصوت”.
“نحن نعمل أيضًا على تحسين مزامنة الشفاه لمقاطع الفيديو التي تتضمن الكلام. يحاول V2A توليد الكلام من نصوص الإدخال ومزامنته مع حركات شفاه الشخصيات.”
وأضافوا: “لكن نموذج توليد الفيديو المقترن قد لا يكون مشروطًا بالنصوص. وهذا يخلق عدم تطابق، مما يؤدي غالبًا إلى مزامنة الشفاه بشكل غريب، لأن نموذج الفيديو لا يولد حركات الفم التي تتطابق مع النص”.