كشفت شركة التكنولوجيا العملاقة ميتا Meta عن مجموعة من أدوات الذكاء الاصطناعي، تسمى Meta Movie Gen، لتوليد مقاطع الفيديو تلقائياً، وتحريرها على الفور ومزامنتها مع المؤثرات الصوتية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، والضوضاء المحيطة، والموسيقى الخلفية.
وقالت “ميتا” في منشور على مدونتها إن موفي جين يمكنه أيضا إنشاء موسيقى خلفية وتأثيرات صوتية متزامنة مع عرض محتوى المقطع المصور، مع إمكانية استخدام الأداة لإجراء تعديلات على المقاطع.
وفي أحد المقاطع من إنتاج موفي جين طلبت ميتا من الأداة وضع كرات تستخدم للزينة في يدي رجل يركض بمفرده في الصحراء، بينما في مقطع آخر غيرت موقف سيارات حيث كان رجل يتزلج على أرض جافة إلى أخرى تغطيها بركة مياه، وقالت ميتا إن مدة المقطع المصور الذي ينتجه موفي جين يمكن أن تصل إلى 16 ثانية بينما يمكن أن يصل طول المقطع الصوتي إلى 45 ثانية.
وقالت شركة ميتا: “على عكس الأدوات التقليدية التي تتطلب مهارات متخصصة أو الأدوات التوليدية التي تفتقر إلى الدقة، يحافظ Movie Gen على المحتوى الأصلي، ويستهدف فقط وحدات البكسل ذات الصلة”.
بالنسبة للصوت، قامت Meta بتدريب نموذج توليد صوت بمعلمة 13B يمكنه التقاط مقطع فيديو ومطالبات نصية اختيارية وإنشاء صوت يصل إلى 45 ثانية، بما في ذلك الصوت المحيط، وفولي، والموسيقى الخلفية الآلية – كل ذلك متزامن مع الفيديو.
وقالت ميتا: “مع استمرارنا في تحسين نماذجنا والتحرك نحو إصدار مستقبلي محتمل، سنعمل بشكل وثيق مع صناع الأفلام والمبدعين لدمج تعليقاتهم”، ومن خلال اتباع نهج تعاوني، نريد التأكد من أننا نبتكر أدوات تساعد الأشخاص على تعزيز إبداعهم المتأصل بطرق جديدة ربما لم يحلموا أبدًا بإمكانية تحقيقها.
وأوضحت أن موفي جين” يتمتع بأربع قدرات، هي توليد الفيديو وإنتاج فيديو مخصص والتعديل على الفيديو وتوليد الصوت، ومن خلال الطلب النصي، يمكن إنتاج مقطع فيديو، واختتمت بأن النموذج ليس بديلاً عن عمل الفنانين ورسامي الرسوم المتحركة، لكنه تطويع لقوة التكنولوجيا لكي تساعد الأفراد في التعبير عن أنفسهم وتجسيد رؤاهم الفنية بطرق جديدة.
اقرأ أيضاً: المؤتمر السعودي للمحامين 2024
وفي سباق ابتكار أدوات الذكاء الصناعي كشفت شركة الذكاء الاصطناعي الناشئة OpenAI في فبراير شباط عن تقنية تسمى Sora، والتي تتيح للناس إنشاء مقاطع فيديو واقعية مثل الماموث الصوفي الذي يركض عبر مرج ثلجي – وذلك ببساطة عن طريق كتابة جملة في مربع على شاشة الكمبيوتر، وبسبب المخاوف بشأن كيفية إساءة استخدام التكنولوجيا، وربما التكلفة العالية لتشغيل التكنولوجيا، لم تطلق شركة OpenAI بعد نظام Sora باستثناء مجموعة صغيرة من المختبرين، ولكن شركات أخرى تتسابق لإطلاق تكنولوجيا مماثلة.
وفي مايو/أيار، أطلقت شركة YouTube نموذج Veo، وهو نموذج لتوليد مقاطع الفيديو، ونموذج Imagen 3 الجديد لتحويل النص إلى صورة والذي تقول الشركة إنه “سيدعم العملية الإبداعية”.
وقال أحمد الدحل، نائب رئيس قسم الذكاء الاصطناعي التوليدي في شركة ميتا، في مقابلة: “الفيديو لا يساوي شيئاً بدون الصوت”.
وعن آلية عمل موفي جين عند وجود وصف نصي قصير لصورة، تقوم إحدى الأدوات بإنشاء مقطع فيديو، ثم عند وجود وصف آخر لبعض الأصوات، تقوم أداة ثانية بإضافة الصوت، وتضمنت العروض مقاطع فيديو قصيرة تم إنشاؤها في دقائق – لرجل يرتدي معطفًا واقياً من المطر يقف فوق شلال، وثعبان يزحف عبر غابة، وشخص يركب مركبة متعددة التضاريس عبر الصحراء. وتضمن كل مقطع موسيقى بالإضافة إلى مؤثرات صوتية.
يتيح النظام الجديد أيضاً للأشخاص تحميل صور لأنفسهم ودمج هذه الصور على الفور في مقاطع فيديو متحركة، كما يقوم بإنشاء مقاطع فيديو بمعدل 16 إطاراً في الثانية تستمر لمدة تصل إلى 16 ثانية، في بعض الحالات، هذه الفيديوهات معيبة، خلال أحد مظاهرة لصالح صحيفة نيويورك تايمز عندما طُلب منه إنشاء مقطع فيديو لكلب في ركن السيارة أثناء التحدث على الهاتف المحمول، عن طريق الخطأ تم تطعيم يد بشرية على الهاتف.
اقرأ أيضاً: صندوق واعد فنتشرز يتجه إلى الذكاء الاصطناعي وأشباه الموصلات
وترى شركة ميتا، مالكة فيسبوك وإنستغرام، أن هذه التكنولوجيا وسيلة لتسريع عمل صناع الأفلام في هوليوود والمبدعين على الإنترنت، ومثلها كمثل شركة أوبن إيه آي، بدأت الشركة في اختبار التكنولوجيا مع مجموعة صغيرة من المحترفين.
يأتي Movie Gen في أعقاب الجهود السينمائية المماثلة التي بذلتها Meta بما في ذلك Make-A-Video و Emu Video، والتي تنتج مقاطع فيديو أقل تقدماً من النص.
(في شهر ديسمبر/كانون الأول، رفعت صحيفة التايمز دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت، زاعمة انتهاك حقوق الطبع والنشر لمحتوى إخباري مرتبط بأنظمة الذكاء الاصطناعي.)
وتعد الشركتان من بين العديد من الشركات التي تعمل على تطوير هذا النوع من الأدوات؛ ومن بين الشركات الأخرى شركات ناشئة مثل Runway وPika وشركات تقنية عملاقة مثل Google وMicrosoft، ورغم اعتقاد الكثيرين بأن هذه التكنولوجيا قد تسرع من عمل صناع الأفلام المخضرمين، فإنها قد تحل أيضًا محل الفنانين الرقميين الأقل خبرة، ويخشى خبراء آخرون من أن تصبح هذه التكنولوجيا وسيلة سريعة وغير مكلفة لإنشاء معلومات مضللة عبر الإنترنت، مما يجعل من الصعب معرفة ما هو حقيقي على الإنترنت.
وفي حين كانت شركة OpenAI وشركات أخرى مترددة في إطلاق بعض تقنيات الذكاء الاصطناعي وسط مخاوف بشأن التضليل والمخاطر المحتملة الأخرى، كانت شركة Meta أسرع في مشاركتها بحرية، بحجة أن المخاطر ليست كبيرة كما قد تبدو.
اقرأ أيضاً: مؤتمر الحوسبة عالية الأداء والذكاء الاصطناعي مفتاح التطور
وقال السيد الدحل إن ميتا سوف تضع علامات مائية على مقاطع الفيديو التي ينتجها النظام تشير إلى أنها من إنتاج الذكاء الاصطناعي، ولكن يمكن إزالة هذه العلامات، (أضافت صحيفة نيويورك تايمز علامات مائية على مقاطع الفيديو مع هذه المقالة تقول “من إنتاج الذكاء الاصطناعي”)، وأضاف أيضاً أن الشركة لا تزال تختبر التكنولوجيا لفهم المخاطر المحتملة بشكل أفضل وكيفية التخفيف منها.
ولم يتضمن عرض ميتا الكلمات المنطوقة، لكن العديد من الشركات، بما في ذلك OpenAI، تعمل على تطوير تقنيات الذكاء الاصطناعي التي يمكنها إعادة إنتاج الأصوات البشرية على الفور.
وكتب كيد ميتز وهو مراسل تقني لصحيفة نيويورك تايمز والذي يغطي الذكاء الاصطناعي والسيارات بدون سائق والروبوتات والواقع الافتراضي، وغيرها من المجالات الناشئة، في كتابه الرائع صناع العبقرية ” Genius Makers يتنبأ الصحفي Cade Metz بالقوة المحتملة المتزايدة والخطيرة للذكاء الاصطناعي على خداع الإدراك البشري, ويتساءل كيد هل ستتجاوز الآلات مستوى ذكاء الإنسان؟
اقرأ أيضاً: كيف يساهم الذكاء الاصطناعي في جهود السعودية للاستدامة؟