تحديثات Google للبحث المباشر مع ترقية نموذج Gemini

قامت Google بتحديث Search Live باستخدام Gemini 2.5 Flash Native Audio، مما أدى إلى ترقية كيفية عمل الصوت داخل البحث مع توسيع استخدام النموذج عبر وكلاء الترجمة والصوت المباشر. يقدم التحديث استجابات منطوقة أكثر طبيعية في Search Live ويعكس جهود Google لتحسين الاستعلامات الصوتية الطبيعية، والتعامل مع الصوت كواجهة أساسية كوسيلة للمستخدمين للحصول على كل ما يمكنهم الحصول عليه من البحث العادي بالإضافة إلى تمكينهم من طرح أسئلة حول العالم المادي من حولهم وتلقي ترجمات صوتية فورية بين شخصين يتحدثان لغتين مختلفتين.

ستمكن الإمكانات الصوتية المحدثة الجديدة، والتي سيتم طرحها هذا الأسبوع في الولايات المتحدة، من أن تبدو استجابات Google الصوتية أكثر طبيعية ويمكن حتى إبطاؤها بالنسبة للمحتوى التعليمي.

وفقا لجوجل:

“عندما تبدأ البث المباشر باستخدام البحث، يمكنك إجراء محادثة صوتية ذهابًا وإيابًا في وضع الذكاء الاصطناعي للحصول على مساعدة في الوقت الفعلي والعثور بسرعة على المواقع ذات الصلة عبر الويب. والآن، بفضل أحدث نموذج Gemini للصوت الأصلي، ستكون الردود على Search Live أكثر مرونة وتعبيرًا من أي وقت مضى.”

طرح الصوت الأصلي لـ Gemini على نطاق أوسع

تعد ترقية البحث هذه جزءًا من تحديث أوسع لبرنامج Gemini 2.5 Flash Native Audio الذي يتم طرحه عبر نظام Google البيئي، بما في ذلك Gemini Live (في تطبيق Gemini)، وGoogle AI Studio، وVertex AI. يقوم النموذج بمعالجة الصوت المنطوق في الوقت الفعلي وينتج استجابات منطوقة سلسة، مما يقلل من الحواجز أمام المحادثة الطبيعية، ويقلل الاحتكاك في التفاعلات المباشرة. على الرغم من أن إعلان جوجل لم يذكر أن النموذج كان عبارة عن نموذج تحويل الكلام إلى كلام (بدلاً من تحويل الكلام إلى نص ثم تحويل النص إلى كلام)، فإن هذا التحديث يتبع إعلان جوجل في أكتوبر عن “تحويل الكلام إلى كلام (S2R). إنه نموذج لتعلم الآلة يعتمد على الشبكة العصبية ويتم تدريبه على مجموعات كبيرة من الاستعلامات الصوتية المقترنة.”

تُظهر هذه التغييرات أن Google تتعامل مع الصوت الأصلي كقدرة أساسية عبر المنتجات التي تواجه المستهلك، مما يسهل على المستخدمين طلب معلومات حول العالم المادي من حولهم وتلقيها بطريقة طبيعية لم تكن ممكنة في السابق.

تحسينات للأنظمة القائمة على الصوت

بالنسبة للمطورين والمؤسسات التي تبني أنظمة تعتمد على الصوت، تقول جوجل إن النموذج المحدث يعمل على تحسين الموثوقية في العديد من المجالات. يعمل برنامج Gemini 2.5 Flash Native Audio على تشغيل وظائف خارجية بشكل أكثر اتساقًا أثناء المحادثات، ويتبع التعليمات المعقدة، ويحافظ على السياق عبر دورات متعددة. تجعل هذه التحسينات وكلاء الصوت المباشر أكثر موثوقية في سير العمل في العالم الحقيقي، حيث تؤدي التعليمات الخاطئة أو تدفق المحادثة المعطلة إلى تقليل قابلية الاستخدام.

ترجمة محادثة سلسة

بالإضافة إلى وكلاء البحث والصوت، يقدم التحديث دعمًا أصليًا لـ “الترجمة المباشرة من الكلام إلى كلام”. يقوم برج الجوزاء بترجمة اللغة المنطوقة في الوقت الفعلي، إما عن طريق ترجمة الكلام المحيط بشكل مستمر إلى لغة مستهدفة أو عن طريق التعامل مع المحادثات بين المتحدثين بلغات مختلفة في كلا الاتجاهين. ويحافظ النظام على الخصائص الصوتية مثل إيقاع الكلام والتركيز، ويدعم الترجمة التي تبدو أكثر سلاسة وتحادثًا.

تسلط Google الضوء على العديد من الإمكانات التي تدعم ميزة الترجمة هذه، بما في ذلك التغطية اللغوية الواسعة، والكشف التلقائي عن اللغة، ومعالجة الإدخال متعدد اللغات، وتصفية الضوضاء للبيئات اليومية. تعمل هذه الميزات على تقليل الاحتكاك في الإعداد وتسمح بإجراء الترجمة بشكل سلبي أثناء المحادثة وليس من خلال عناصر التحكم اليدوية. والنتيجة هي تجربة ترجمة تشبه إلى حد كبير الشخص الفعلي الذي يقوم بالترجمة بين شخصين.

البحث الصوتي يحقق تطلعات جوجل

يعكس التحديث تكرار Google المستمر للبحث الصوتي نحو نموذج مثالي مستوحى في الأصل من التفاعلات الصوتية للخيال العلمي بين البشر وأجهزة الكمبيوتر في سلسلة الأفلام والتليفزيون الشهيرة Star Trek.