شرکت چینی تنسنت (Tencent) از مدل هوش مصنوعی جدیدی به نام HunyuanWorld-Voyager رونمایی کرده که میتواند یک عکس را به ویدیوهای سهبعدی تبدیل کند.
طبق ریپورتهای منتشر شده، این مدل جدید به یوزران اجازه میدهد مسیر حرکت دوربین را مشخص کرده و در صحنههای مجازی که براساس عکس تولید میشود، حرکت کنند. این مدل بهطور همزمان ویدیو و دادههای عمق تولید میکند و بدون نیاز به ابزارهای مدلسازی سنتی امکان ساخت مدلهای سهبعدی را فراهم میکند.
البته نتایجی که توسط این مدل ارائه میشوند دقیقاً مدلهای سهبعدی نیستند، بلکه ویدیوهایی دوبعدی هستند که با حفظ هماهنگی فضا، حرکت دوربین در یک محیط سهبعدی را شبیهسازی میکنند. نیز مدل هر بار فقط ۴۹ فریم (حدود دو ثانیه ویدیو) را تولید میکند، اما میتوان چندین کلیپ را به هم متصل کرد و ویدیوهای چند دقیقهای ساخت.
لاگینی این مدل هوش مصنوعی فقط یک تصویر و مسیر حرکت دوربین است. حرکتهایی مانند روبهجلو، عقب، چرخش یا حرکت به طرفین نیز توسط رابط آن قابل تنظیم هستند.
تنسنت میگوید این مدل هوش مصنوعی جدید با بیش از ۱۰۰ هزار کلیپ ویدیویی آموزش دیده است که شامل صحنههای واقعی و رندرهای Unreal Engine میشود. این دادهها بهصورت خودکار توسط نرمافزاری پردازش شدهاند که حرکت دوربین و عمق هر فریم را محاسبه میکند.
محدودیتهای مدل هوش مصنوعی تنسنت
بااینحال، محدودیتهای معماری Transformer باعث میشود مدل بتواند فقط الگوهای دیدهشده در دادههای آموزشی را شبیهسازی کند و در موقعیتهای کاملاً جدید دچار اشتباه شود. به همین دلیل، Voyager در تولید چرخشهای ۳۶۰ درجهای دچار اختلال میشود.
از نظر عملکرد، در بنچمارک WorldScore متعلق به دانشگاه استنفورد، Voyager بالاترین امتیاز کلی یعنی ۷۷٫۶۲ را کسب کرده است. این مدل در کنترل اشیاء، هماهنگی سبک و کیفیت لاگآوتی عملکرد درخشانی داشته است، اما در کنترل حرکت دوربین پس از WonderWorld در رتبه دوم قرار گرفت.
برای اجرای مدل نیز به توان سختافزاری بسیار بالایی نیاز دارد، چرا که برای لاگآوتی ۵۴۰p حداقل به ۶۰ گیگابایت حافظه گرافیکی نیاز دارد. تنسنت هماکنون وزنهای مختلف مدل را در Hugging Face منتشر کرده و کد برنامه آن را برای اجرا در دسترس قرار داده است.