في حدث المطورين السنوي I/O 2025 كشفت جوجل الستار عن أحدث نماذجها لتوليد المحتوى والتي تمثل قفزة نوعية في قدرات الذكاء الاصطناعي التوليدي وكان النموذج الأبرز بين هذه الإعلانات هو "Veo 3" وهو الإصدار الأول من هذا النموذج الذي يمتلك قدرة فريدة على توليد مقاطع الفيديو مع الصوت المصاحب لها ويستطيع Veo 3 على سبيل المثال إنشاء فيديو لطيور وهي تطير مع تضمين صوت تغريدها بشكل متزامن أو توليد مشهد لشارع مزدحم في مدينة مع أصوات حركة المرور والضوضاء المحيطة.
وفقًا لجوجل يتميز Veo 3 بدقة فائقة في محاكاة الفيزياء الواقعية وتنسيق حركات الشفاه مع الكلام (lip-syncing) ما يجعله أداة قوية لإنتاج محتوى بصري وسمعي متكامل؛ وحاليًا يقتصر الوصول إلى Veo 3 على مشتركي خطة "Gemini Ultra" في الولايات المتحدة عبر تطبيق Gemini بالإضافة إلى المستخدمين من المؤسسات عبر منصة Vertex AI كما سيكون هذا النموذج متاحًا ضمن أداة صناعة الأفلام الجديدة من جوجل والتي تحمل اسم "Flow".
أداة Flow هي عبارة عن بيئة عمل متكاملة تجمع بين قوة نماذج Veo و Imagen و Gemini لتمكين المستخدمين من صناعة مقاطع ومشاهد سينمائية معقدة ويمكن للمستخدمين وصف المشهد الذي يرغبون في إنتاجه باستخدام اللغة الطبيعية وستقوم الأداة بتنفيذ عملية الإنتاج بشكل تلقائي.
![]() |
جوجل تكشف عن Veo 3 لتوليد الفيديو |
تتوفر أداة Flow في الوقت الحالي لمشتركي Google AI Pro و Ultra في الولايات المتحدة مع وعود بتوفيرها في المزيد من البلدان قريبًا ومن الجدير بالذكر أن جوجل لم توقف دعمها للجيل السابق Veo 2 حيث يمكن للمستخدمين ضمن أداة Flow تزويد هذا النموذج بصور مرجعية لأشخاص أو مشاهد أو أنماط فنية أو كائنات معينة لاستخدامها كأساس في توليد الفيديو كما توفر الأداة مجموعة من أدوات التحكم المتقدمة مثل التحكم في الكاميرا، وتغيير زاوية الرؤية والتقريب على عناصر محددة وتحويل الأبعاد من الوضع الرأسي إلى الأفقي وإضافة أو إزالة عناصر من الصورة.
وعلى صعيد توليد الصور قدمت جوجل نموذج "Imagen 4" الذي يتمتع بقدرة استثنائية على إنتاج تفاصيل دقيقة جداً مثل ملمس الأقمشة وفراء الحيوانات ويقدم أداءً عاليًا في كل من الأساليب الواقعية (photorealistic) والأساليب الفنية التجريدية.
يتفوق Imagen 4 بشكل ملحوظ على الإصدارات السابقة في تمثيل النصوص والطباعة (typography) ويمكنه إنتاج صور بأحجام ونسب أبعاد مختلفة تصل دقتها إلى 2K وهذا النموذج متاح الآن للاستخدام في تطبيق Gemini ومنصة Vertex AI وأدوات Google Workspace مثل المستندات (Docs) والعروض التقديمية (Slides).
بالإضافة إلى ذلك أعلنت جوجل عن إصدار قادم من نموذج Imagen سيكون أسرع بعشر مرات ولمواجهة المخاوف المتزايدة بشأن انتشار المحتوى المزيف أطلقت جوجل أداة "SynthID Detector" حيث يمكن للمستخدمين رفع ملفات صور أو فيديو يشتبهون في كونها مولّدة بالذكاء الاصطناعي للتحقق مما إذا كانت تحتوي على العلامة المائية الرقمية الخاصة بتقنية SynthID أم لا.
تأتي هذه الإعلانات في وقت تشتعل فيه المنافسة في ساحة الذكاء الاصطناعي التوليدي وتضع جوجل في مواجهة مباشرة مع شركات رائدة مثل OpenAI التي أحدثت ضجة بنموذجها لتوليد الفيديو Sora.
الميزة التي ركزت عليها جوجل في Veo 3 وهي القدرة على توليد الصوت بشكل متزامن مع الفيديو تمثل نقطة تفوق استراتيجية حيث أن الفيديوهات الصامتة تفقد جزءًا كبيرًا من تأثيرها وقدرتها على محاكاة الواقع وهذه القدرة على خلق بيئة سمعية وبصرية متكاملة تفتح الباب أمام استخدامات أكثر تعقيدًا وإقناعًا في مجالات صناعة الأفلام والإعلانات والتعليم.
وهذا يقودنا إلى مفهوم أوسع وأكثر أهمية وهو "التعددية الوسائطية" أو Multimodality والذي يتجلى بوضوح في أداة Flow فبدلاً من التعامل مع نماذج منفصلة للصور والنصوص والفيديو تقدم جوجل بيئة عمل موحدة تستفيد من نقاط القوة لكل نموذج وتدمجها معًا ويمكن للمستخدم أن يصف فكرة بالكلمات (Gemini) ثم يولد صورًا أولية (Imagen) ويحولها إلى مشاهد فيديو متحركة (Veo) كل ذلك ضمن سير عمل واحد وهو ما يمثل مستقبل التفاعل مع أنظمة الذكاء الاصطناعي.
ولكن مع هذه القوة الإبداعية الهائلة تبرز مسؤولية أخلاقية وتقنية جسيمة تتمثل في خطر إساءة استخدام هذه التقنيات لإنشاء محتوى تزييف عميق (Deepfakes) متطور ومقنع وهنا يأتي دور تقنية SynthID التي تتجاوز كونها مجرد بوابة تحقق.
SynthID هي تقنية متقدمة لدمج علامة مائية رقمية غير مرئية مباشرة في بنية البكسلات للصور أو إطارات الفيديو المولّدة وهذه العلامة مصممة لتكون غير قابلة للإزالة بسهولة حتى بعد عمليات التعديل على الصورة مثل القص أو تغيير الألوان أو الضغط. إطلاق بوابة SynthID Detector يمثل خطوة حيوية نحو بناء منظومة للثقة حيث لا يقتصر الأمر على وضع علامة على المحتوى بل يمنح الصحفيين والباحثين وعامة الناس أداة للتحقق من مصداقية المحتوى الرقمي الذي يواجهونه.
إن تأثير هذه الأدوات على الصناعات الإبداعية سيكون عميقًا وذا وجهين فمن ناحية، هي تعمل على دمقرطة الإبداع حيث تمنح الأفراد والمبدعين المستقلين الذين لا يملكون ميزانيات ضخمة القدرة على إنتاج محتوى عالي الجودة كان في السابق حكرًا على الاستوديوهات الكبرى ومن ناحية أخرى تثير هذه الأدوات تساؤلات جدية حول مستقبل بعض الوظائف الإبداعية وحقوق الملكية الفكرية للمحتوى الذي يتم استخدامه لتدريب هذه النماذج والحاجة الماسة إلى أطر تنظيمية وقانونية تواكب هذا التطور المتسارع.
في نهاية المطاف فإن هذه التقنيات التي كشفت عنها جوجل لا تستهدف فقط المحترفين بل من المتوقع أن تتسرب ميزاتها تدريجيًا إلى المنتجات التي نستخدمها يوميًا مثل تحسين قدرات تعديل الفيديو في صور جوجل (Google Photos) أو إنشاء عروض تقديمية أكثر ديناميكية في Google Slides أو حتى ظهور نتائج بحث أكثر ثراءً وتفاعلية.