Home أخبار تكشف Google عن خطط لترقية الذكاء الاصطناعي في العالم الحقيقي من خلال...

تكشف Google عن خطط لترقية الذكاء الاصطناعي في العالم الحقيقي من خلال Gemini Live في Google I/O 2024

11
0

تعمل شركة جوجل على تحسين برنامج الدردشة الآلي Gemini الذي يعمل بالذكاء الاصطناعي حتى يتمكن من فهم العالم من حوله والأشخاص الذين يتحدثون معه بشكل أفضل.

وفي مؤتمر مطوري Google I/O 2024 يوم الثلاثاء، استعرضت الشركة تجربة جديدة في Gemini تسمى Gemini Live، والتي تتيح للمستخدمين إجراء محادثات صوتية “متعمقة” مع Gemini على هواتفهم الذكية. يمكن للمستخدمين مقاطعة Gemini أثناء حديث Chatbot لطرح أسئلة توضيحية، وسوف يتكيف مع أنماط كلامهم في الوقت الفعلي. ويمكن لـ Gemini رؤية المناطق المحيطة بالمستخدمين والاستجابة لها، إما عبر الصور أو مقاطع الفيديو التي تلتقطها كاميرات هواتفهم الذكية.

وقالت سيسي هسياو، المديرة العامة لتجارب Gemini في جوجل، خلال مؤتمر صحفي: “مع Live، يمكن لـ Gemini أن يفهمك بشكل أفضل”. “لقد تم ضبطه خصيصًا ليكون بديهيًا ويجري محادثة فعلية ذهابًا وإيابًا مع نموذج (الذكاء الاصطناعي الأساسي).”

يعد Gemini Live في بعض النواحي تطورًا لـ Google Lens، منصة رؤية الكمبيوتر طويلة الأمد من Google لتحليل الصور ومقاطع الفيديو، ومساعد Google، المساعد الافتراضي الذي يعمل بالذكاء الاصطناعي من Google ويولد الكلام ويتعرف عليه عبر الهواتف ومكبرات الصوت الذكية وأجهزة التلفزيون.

للوهلة الأولى، لا يبدو Live بمثابة ترقية جذرية للتكنولوجيا الحالية. لكن جوجل تدعي أنها تستفيد من التقنيات الأحدث من مجال الذكاء الاصطناعي التوليدي لتقديم تحليل صور متفوق وأقل عرضة للخطأ – وتجمع هذه التقنيات مع محرك كلام محسّن لإجراء حوار متعدد المنعطفات أكثر اتساقًا وتعبيرًا عاطفيًا وواقعيًا.

قال أوريول فينيالس، العالم الرئيسي في DeepMind، قسم أبحاث الذكاء الاصطناعي في Google، لـ TechCrunch في مقابلة: “إنها واجهة صوتية في الوقت الفعلي و(تتمتع) بقدرات قوية للغاية متعددة الوسائط مقترنة بسياق طويل”. “يمكنك أن تتخيل كيف سيكون هذا المزيج قويًا جدًا.”

تنبع الابتكارات التقنية التي تقود البث المباشر جزئيًا من Project Astra، وهي مبادرة جديدة ضمن DeepMind لإنشاء تطبيقات و”وكلاء” مدعومين بالذكاء الاصطناعي لتحقيق فهم متعدد الوسائط في الوقت الفعلي.

وقال ديميس هاسابيس، الرئيس التنفيذي لشركة DeepMind، خلال المؤتمر الصحفي: “لقد أردنا دائمًا بناء وكيل عالمي يكون مفيدًا في الحياة اليومية”. “تخيل وكلاء يمكنهم رؤية ما نقوم به وسماعه، وفهم السياق الذي نعيش فيه بشكل أفضل والاستجابة بسرعة في المحادثة، مما يجعل وتيرة التفاعلات وجودتها تبدو أكثر طبيعية.”

يمكن لـ Gemini Live – الذي لن يتم إطلاقه حتى وقت لاحق من هذا العام – الإجابة على أسئلة حول الأشياء التي تقع ضمن نطاق الرؤية (أو التي أصبحت متاحة مؤخرًا) لكاميرا الهاتف الذكي، مثل الحي الذي قد يتواجد فيه المستخدم أو اسم جزء من دراجة مكسورة. عند الإشارة إلى جزء من كود الكمبيوتر، يستطيع Live أن يشرح ما يفعله هذا الكود. أو عند سؤاله عن المكان الذي يمكن أن يكون فيه زوج من النظارات، يمكن لـ Live أن يقول أين “رأى” النظارات آخر مرة.

اعتمادات الصورة: جوجل

تم تصميم Live أيضًا ليكون بمثابة مدرب افتراضي من نوع ما، حيث يساعد المستخدمين على التدرب على الأحداث وتبادل الأفكار وما إلى ذلك. يمكن أن يقترح تطبيق Live المهارات التي يجب تسليط الضوء عليها في مقابلة عمل أو تدريب داخلي قادمة، على سبيل المثال، أو تقديم نصائح للتحدث أمام الجمهور.

قال Sissie: “يمكن لـ Gemini Live توفير المعلومات بشكل أكثر إيجازًا والإجابة بطريقة تحادثية أكثر مما، على سبيل المثال، إذا كنت تتفاعل عبر رسالة نصية فقط”. “نعتقد أن مساعد الذكاء الاصطناعي يجب أن يكون قادرًا على حل المشكلات المعقدة… وأن يشعر أيضًا بالطبيعية والسلاسة عند التعامل معه.”

أصبحت قدرة Gemini Live على “التذكر” ممكنة بفضل بنية النموذج الذي يقوم عليها: Gemini 1.5 Pro (وبدرجة أقل النماذج التوليدية الأخرى “المحددة المهمة”)، والتي تعد الرائد الحالي في عائلة Gemini من Google للذكاء الاصطناعي التوليدي عارضات ازياء. يحتوي على نافذة سياق أطول من المتوسط، مما يعني أنه يمكنه استيعاب الكثير من البيانات والتفكير فيها – حوالي ساعة من الفيديو (RIP، بطاريات الهواتف الذكية) – قبل صياغة الرد.

قال فينيالز: “هذه ساعات من الفيديو يمكنك التفاعل فيها مع النموذج، وسيتذكر كل ما حدث من قبل”.

يذكرنا Live بالذكاء الاصطناعي التوليدي وراء نظارات Meta’s Ray-Ban، والتي يمكنها بالمثل النظر إلى الصور الملتقطة بواسطة الكاميرا وتفسيرها في الوقت الفعلي تقريبًا. انطلاقًا من المقاطع التجريبية المسجلة مسبقًا التي عرضتها Google خلال المؤتمر الصحفي، فهي أيضًا مشابهة تمامًا – بشكل واضح – لـ ChatGPT الذي تم تجديده مؤخرًا من OpenAI.

أحد الاختلافات الرئيسية بين ChatGPT الجديد وGemini Live هو أن Gemini Live لن يكون مجانيًا. بمجرد إطلاقه، سيكون Live حصريًا لـ Gemini Advanced، وهو إصدار أكثر تطورًا من Gemini خلف خطة Google One AI Premium Plan، بسعر 20 دولارًا شهريًا.

ربما في ضربة قوية لـ Meta، أظهر أحد العروض التوضيحية لشركة Google شخصًا يرتدي نظارات الواقع المعزز المجهزة بتطبيق Gemini Live-like. ورفضت شركة جوجل – التي لا شك أنها حريصة على تجنب فشل آخر في قسم النظارات – الإفصاح عما إذا كانت تلك النظارات أو أي نظارات تعمل بتقنية الذكاء الاصطناعي التوليدية الخاصة بها ستطرح في السوق في المستقبل القريب.

ومع ذلك، لم يقم Vinyals بإغلاق الفكرة تمامًا. وقال: “ما زلنا نقوم بإعداد النماذج الأولية، وبالطبع نعرض (Astra وGemini Live) للعالم”. “نحن نرى رد فعل الأشخاص الذين يمكنهم تجربتها، وهذا سيحدد لنا أين سنذهب.”

تحديثات الجوزاء الأخرى

بعيدًا عن Live، تحصل لعبة Gemini على مجموعة من الترقيات لجعلها أكثر فائدة يومًا بعد يوم.

يمكن لمستخدمي Gemini Advanced في أكثر من 150 دولة وأكثر من 35 لغة الاستفادة من السياق الأكبر لـ Gemini 1.5 Pro لجعل برنامج الدردشة الآلي يقوم بتحليل وتلخيص والإجابة على الأسئلة المتعلقة بالمستندات الطويلة (التي تصل إلى 1500 صفحة). (بينما يصل Live في وقت لاحق من العام، يمكن لمستخدمي Gemini Advanced التفاعل مع Gemini 1.5 Pro بدءًا من اليوم.) يمكن الآن استيراد المستندات من Google Drive أو تحميلها مباشرة من جهاز محمول.

في وقت لاحق من هذا العام بالنسبة لمستخدمي Gemini Advanced، ستنمو نافذة السياق بشكل أكبر – إلى 2 مليون رمز – وستجلب معها دعمًا لتحميل مقاطع الفيديو (ما يصل إلى ساعتين) إلى Gemini وسيقوم Gemini بتحليل قواعد الأكواد الكبيرة (أكثر من 30000 سطر) من الكود).

تدعي Google أن نافذة السياق الكبيرة ستعمل على تحسين فهم صورة الجوزاء. على سبيل المثال، بالنظر إلى صورة طبق السمك، سيتمكن الجوزاء من اقتراح وصفة مماثلة. أو، في حالة وجود مشكلة رياضية، سيقدم لك Gemini تعليمات خطوة بخطوة حول كيفية حلها.

وسوف يساعد الجوزاء في التخطيط للرحلة.

اعتمادات الصورة: جوجل

في الأشهر المقبلة، ستكتسب Gemini Advanced “تجربة تخطيط” جديدة تنشئ مسارات سفر مخصصة من المطالبات. مع الأخذ في الاعتبار أشياء مثل أوقات الرحلات (من رسائل البريد الإلكتروني الموجودة في صندوق بريد Gmail الخاص بالمستخدم)، وتفضيلات الوجبات والمعلومات حول مناطق الجذب المحلية (من بحث Google وبيانات الخرائط)، بالإضافة إلى المسافات بين مناطق الجذب تلك، سيقوم Gemini بإنشاء خط سير يتم تحديثه تلقائيًا لتعكس أي تغييرات.

في المستقبل القريب، سيتمكن مستخدمو Gemini Advanced من إنشاء Gems، وهي روبوتات دردشة مخصصة مدعومة بنماذج Gemini من Google. على غرار GPTs الخاصة بـ OpenAI، يمكن إنشاء الجواهر من أوصاف اللغة الطبيعية – على سبيل المثال، “أنت مدرب الجري الخاص بي. “أعطني خطة تشغيل يومية” – ومشاركتها مع الآخرين أو الاحتفاظ بها خاصة. لا توجد معلومات حول ما إذا كانت Google تخطط لإطلاق واجهة متجر للأحجار الكريمة مثل متجر GPT الخاص بـ OpenAI؛ نأمل أن نتعلم المزيد مع استمرار مؤتمر I/O.

قريبًا، ستتمكن Gems وGemini من الاستفادة من مجموعة موسعة من عمليات التكامل مع خدمات Google، بما في ذلك تقويم Google، ومهام Google، وKeep، وYouTube Music، لإكمال العديد من المهام الموفرة للعمالة.

اعتمادات الصورة: جوجل

قال هسياو: “لنفترض أن لديك منشورًا من مدرسة طفلك، وهناك كل هذه الأحداث التي تريد إضافتها إلى تقويمك الشخصي”. “ستكون قادرًا على التقاط صورة لهذا المنشور ومطالبة تطبيق Gemini بإنشاء إدخالات التقويم هذه مباشرة في التقويم الخاص بك. سيكون هذا بمثابة توفير كبير للوقت.”

نظرًا لميل الذكاء الاصطناعي التوليدي إلى الحصول على ملخصات خاطئة والخروج عن المسار بشكل عام (بالإضافة إلى المراجعات المبكرة غير المتوهجة لـ Gemini)، خذ ادعاءات جوجل بحذر. ولكن إذا كان أداء Gemini وGemini Advanced المحسّنين بالفعل كما وصفه هسياو – وهذا أمر كبير إذا – فيمكن أن يكونا موفرين للوقت بشكل رائع بالفعل.

نحن نطلق نشرة إخبارية تعتمد على الذكاء الاصطناعي! قم بالتسجيل هنا لبدء تلقيها في صناديق البريد الوارد الخاصة بك في 5 يونيو.

مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here