تبدیل عکس به دنیای سه‌بعدی با هوش مصنوعی جدید تنسنت + ویدیو

رضا کریمی

5 ماه پیش

تبدیل عکس به دنیای سه‌بعدی با هوش مصنوعی جدید تنسنت + ویدیو

شرکت چینی تنسنت (Tencent) از مدل هوش مصنوعی جدیدی به نام HunyuanWorld-Voyager رونمایی کرده که می‌تواند یک عکس را به ویدیوهای سه‌بعدی تبدیل کند.

طبق ریپورت‌های منتشر شده، این مدل جدید به یوزران اجازه می‌دهد مسیر حرکت دوربین را مشخص کرده و در صحنه‌های مجازی که براساس عکس تولید می‌شود، حرکت کنند. این مدل به‌طور هم‌زمان ویدیو و داده‌های عمق تولید می‌کند و بدون نیاز به ابزارهای مدل‌سازی سنتی امکان ساخت مدل‌های سه‌بعدی را فراهم می‌کند.

البته نتایجی که توسط این مدل ارائه می‌شوند دقیقاً مدل‌های سه‌بعدی نیستند، بلکه ویدیوهایی دوبعدی هستند که با حفظ هماهنگی فضا، حرکت دوربین در یک محیط سه‌بعدی را شبیه‌سازی می‌کنند. نیز مدل هر بار فقط ۴۹ فریم (حدود دو ثانیه ویدیو) را تولید می‌کند، اما می‌توان چندین کلیپ را به هم متصل کرد و ویدیوهای چند دقیقه‌ای ساخت.

لاگینی این مدل هوش مصنوعی فقط یک تصویر و مسیر حرکت دوربین است. حرکت‌هایی مانند روبه‌جلو، عقب، چرخش یا حرکت به ‌طرفین نیز توسط رابط آن قابل تنظیم هستند.

تنسنت می‌گوید این مدل هوش مصنوعی جدید با بیش از ۱۰۰ هزار کلیپ ویدیویی آموزش دیده است که شامل صحنه‌های واقعی و رندرهای Unreal Engine می‌شود. این داده‌ها به‌صورت خودکار توسط نرم‌افزاری پردازش شده‌اند که حرکت دوربین و عمق هر فریم را محاسبه می‌کند.

محدودیت‌های مدل هوش مصنوعی تنسنت

بااین‌حال، محدودیت‌های معماری Transformer باعث می‌شود مدل بتواند فقط الگوهای دیده‌شده در داده‌های آموزشی را شبیه‌سازی کند و در موقعیت‌های کاملاً جدید دچار اشتباه شود. به همین دلیل، Voyager در تولید چرخش‌های ۳۶۰ درجه‌ای دچار اختلال می‌شود.

از نظر عملکرد، در بنچمارک WorldScore متعلق به دانشگاه استنفورد، Voyager بالاترین امتیاز کلی یعنی ۷۷٫۶۲ را کسب کرده است. این مدل در کنترل اشیاء، هماهنگی سبک و کیفیت لاگ‌آوتی عملکرد درخشانی داشته است، اما در کنترل حرکت دوربین پس از WonderWorld در رتبه دوم قرار گرفت.

بیشتر بخوانید: توصیه مهم «یان لکان» برای دانشجویانی که دنبال ورود به هوش مصنوعی هستند

برای اجرای مدل نیز به توان سخت‌افزاری بسیار بالایی نیاز دارد، چرا که برای لاگ‌آوتی ۵۴۰p حداقل به ۶۰ گیگابایت حافظه گرافیکی نیاز دارد. تنسنت هم‌اکنون وزن‌های مختلف مدل را در Hugging Face منتشر کرده و کد برنامه آن را برای اجرا در دسترس قرار داده است.

برچسب‌ها: فورد