شگفت‌انگیزترین ویدیوهای ساخته‌شده با جمینای Omni؛ از ترجمه صدا تا شبیه‌سازی فیزیک [تماشا کنید]

رضا کریمی

2 ماه پیش

شگفت‌انگیزترین ویدیوهای ساخته‌شده با جمینای Omni؛ از ترجمه صدا تا شبیه‌سازی فیزیک [تماشا کنید]

گوگل در زمان معرفی خانواده هوش مصنوعی Gemini Omni گفته بود که این مدل‌ها می‌توانند هرچیزی ازجمله صدا، ویدیو، عکس و متن تولید کنند. اولین مدل این سری با نام Gemini Omni Flash در اپلیکیشن جمینای، گوگل فلو و یوتوب شورتس در دسترس قرار گرفته و تاکنون یوزران شبکه‌های اجتماعی ویدیوهای خلاقانه و جالبی با آن تولید کرده‌اند که سپس چند مورد را دیدن می‌کنیم.

نمونه‌های خیره‌کننده از عملکرد مدل هوش مصنوعی Gemini Omni

«بیلاوال سیدو»، مدیر محصول سابق گوگل، ازجمله افرادی است که هوش مصنوعی جمینای Omni را آزمایش کرده. او با خطوطی ساده روی یک تصویر مسیری را برای پرواز پهپاد تعیین کرده و از هوش مصنوعی گوگل خواسته تا ویدیویی از زاویه دید پهپاد تولید کند. نتیجه این درخواست را در ویدیو زیر می‌توانید دیدن کنید.

به‌همین‌ترتیب، در ویدیو زیر نیز از هوش مصنوعی خواسته شده تا براساس نقاشی ماهی و مسیر تعیین شده برای آن، یک ویدیو کاملاً واقعی بسازد.

ویدیو زیر نیز توسط یوزر دیگری ساخته شده و توانایی جمینای Omni در «انتقال حرکت و استایل» را به رخ می‌کشد. در این دستور، از مدل خواسته شده حرکت‌ها و ژست‌های یک شخص در یک ویدیو را کپی کرده و روی شخصیتی که در یک عکس قرار دارد، پیاده کند. درنهایت هم رنگ‌بندی‌ولعاب و سبک بصری ویدیو را شبیه به یک عکسِ نمونه تغییر دهد.

یوزر دیگری به توانایی مدل در ترجمه صدا خریده است. در این مثال از جمینای Omni خواسته شده تا صدای گوینده را در ویدیو به زبان‌ها دیگری (آلمان، اسپانیایی و ژاپنی) ترجمه کند. نکته قابل‌توجه اینکه در این مثال متن اصلی یا ترجمه شده به هوش مصنوعی ارائه نشده است و جمینای Omni به‌خوبی توانسته صدای جدید را جایگزین کند.

«جاستین مور» که در ایکس معمولاً قابلیت‌های هوش مصنوعی را آزمایش می‌کند نیز آزمایش جالبی را انجام داده است. او ویدیویی از ماشین‌سواری خود در یک شهر را بارگذاری کرده و سپس چند اسکرین‌شات Google Maps از مکان‌های دیگر به هوش مصنوعی داده است.

بیشتر بخوانید: شوک به آی‌بی‌ام؛ سهام شرکت در واکنش به یک هوش مصنوعی ۱۳ درصد سقوط کرد

سپس از مدل خواسته شده تا ظاهر ویدیو را براساس آن نقشه‌های جدید تغییر دهد و در واقع ویدیو را در مکان‌های جدید «دوباره فیلم‌برداری» کند. هوش مصنوعی توانسته منظره بیرون ماشین را چون، با در نظر گرفتن لوکیشن‌های جدید کاملاً تغییر دهد و جابه‌جایی بین این مکان‌ها در ویدیو به‌قدری روان و یکپارچه انجام شده که هیچ پرش یا قطعی در تصویر دیده نمی‌شود.

همان‌طور که گوگل اشاره کرده، تمام ویدیوهای تولیدشده با استفاده از Omni دارای «واترمارک دیجیتال غیرقابل‌تشخیص SynthID هستند. این واترمارک به یوزران کمک می‌کند تا به‌راحتی تایید کنند که آیا یک محتوا با هوش مصنوعی گوگل در سکوی نرم‌افزاری‌هایی مثل جمینای، مرورگر کروم و کشفی گوگل ساخته شده است یا خیر.

برچسب‌ها: اپل, پهپاد, جمینای, سیری, شبکه‌های اجتماعی