الذكاء الاصطناعيالرئيسية

هل يفتقر ذكاء الفيديو الاصطناعي إلى فهم الفيزياء؟

هاشتاق عربي

كشفت دراسة جديدة أجراها باحثون من شركة بايت دانس وجامعة تسينغوا الصينية أن نماذج الذكاء الاصطناعي لتوليد الفيديو، مثل نموذج Sora من OpenAI، يمكنها إنتاج مشاهد بصرية مبهرة، لكنها تعجز عن فهم القوانين الفيزيائية التي تحكم تلك المشاهد.

وتسعى شركات مثل OpenAI إلى تطوير نماذج فيديو تحاكي الواقع بدقة، لكن الدراسة تُظهر وجود قيود كبيرة في كيفية معالجة هذه النماذج المفاهيم الفيزيائية الأساسية.

واختبر العلماء قدرات هذه النماذج في 3 سيناريوهات مختلفة، وهي التنبؤ بأنماط معروفة، والخروج عن الأنماط المعروفة، ودمج عناصر مألوفة بطرق جديدة. وكان الهدف من هذه الاختبارات تحديد إذا كانت النماذج تتعلم بالفعل القوانين الفيزيائية أم تكتفي بنسخ الأنماط من بيانات التدريب.

وأظهرت النتائج أن النماذج لا تتعلم القوانين التي تحكم العالم المادي، بل تعتمد على خصائص سطحية مأخوذة من بيانات التدريب، ومرتبة وفقًا لأولوية محددة؛ إذ يأتي اللون أولًا، يليه الحجم، ثم السرعة، وأخيرًا الشكل.

وعند اختبار هذه النماذج في سيناريوهات مألوفة، تبين أنها حققت أداءً شبه مثالي، لكن الأداء تراجع بنحو واضح عندما واجهت تلك النماذج سيناريوهات غير معروفة، حتى عندما يتعلق الأمر بمفاهيم بسيطة، مثل الحركة الخطية أو التصادمات.

وأظهرت الدراسة أن توسيع حجم النماذج وبيانات التدريب لا يؤدي إلا إلى تحسينات طفيفة، مشيرةً إلى أن النماذج الأكبر تتعامل بنحو أفضل مع الأنماط المعروفة، لكنها ما زالت غير قادرة على فهم الفيزياء الأساسية، أو معالجة سيناريوهات تتجاوز نطاق بيانات التدريب.

وأوضحت الدراسة أن تطوير تلك النماذج يتوقف على جعلها تتجاوز نطاق بيانات التدريب، وتعلم المبادئ الأساسية. ونظرًا إلى صعوبة تغطية كل تفاصيل العالم في بيانات التدريب، فإن الوصول إلى نماذج واقعية يتطلب فهم القوانين الأساسية وتطبيقها بدلًا من مجرد حفظ الأنماط.

وتدعي OpenAI أن نموذج Sora يمتلك بالفعل فهمًا أساسيًا للتفاعلات الفيزيائية والهندسة الثلاثية الأبعاد. وتسعى شركات أخرى، مثل RunwayML و DeepMind التابعة لجوجل، إلى تطوير نماذج مماثلة.

وتوجد بعض نماذج الذكاء الاصطناعي المخصصة لتوليد الفيديو، لكنها ما زالت قيد الاختبار والتطوير، أو متاحة على نطاق محدود للشركات والجهات البحثية.

ولا يُعرف حتى الآن موعد إطلاق نموذج توليد الفيديو المنتظر Sora الذي أعلنته OpenAI مطلع عام 2024.

مقالات ذات صلة

زر الذهاب إلى الأعلى