Project Genie معرفی شد؛ هوش مصنوعی گوگل که دستورات متنی، جهان‌های تعاملی می‌سازد [تماشا کنید]

رضا کریمی

6 ماه پیش

Project Genie معرفی شد؛ هوش مصنوعی گوگل که دستورات متنی، جهان‌های تعاملی می‌سازد [تماشا کنید]

گوگل با معرفی Project Genie، گام بلند دیگری در مسیر دستیابی به هوش جامع مصنوعی (AGI) برداشته است. این ابزار مبتنی‌بر هوش مصنوعی که در دسترس یوزران دارای اشتراک AI Ultra در آمریکا قرار گرفته، به یوزران اجازه می‌دهد تنها با نوشتن چند خط متن، جهان‌های تعاملی و قابل تجربه خلق کنند.

Genie 3 در واقع یک «مدل جهانی» (World Model) همه‌منظوره است که محیط‌های متنوع و تعاملی را شبیه‌سازی می‌کند. برخلاف مدل‌های قبلی گوگل دیپ‌مایند که برای محیط‌های خاصی مثل شطرنج یا بازی Go طراحی شده بودند، این مدل برای درک تنوع دنیای واقعی و پیش‌بینی نحوه تکامل محیط براساس کنش‌های یوزر ساخته شده است.

ساخت جهان‌های تعاملی با ابزار هوش مصنوعی جدید گوگل

در این نمونه اولیه تحقیقاتی، شما ابتدا محیط موردنظر خود را توصیف می‌کنید؛ مثلاً مشخص می‌کنید که قصد دارید جهان را چگونه کاوش کنید (پیاده، پرواز، رانندگی یا…) و زاویه دید شما اول‌شخص یا سوم‌شخص باشد.

پس از تعیین شخصیت (انسان، حیوان یا حتی یک شیء)، مدل Nano Banana Pro تصویری پیش‌فرض یا همان طرح اولیه جهان شما را ارائه می‌کند. این ویژگی به شما اجازه می‌دهد پیش از لاگین کامل به دنیای ساخته شده، ظاهر آن را بررسی کردن و در صورت نیاز اصلاح کنید. پس از تایید، با انتخاب دکمه Create world وارد یک تجربه ۶۰ ثانیه‌ای می‌شوید.

جهان‌های ساخته شده با کیفیت ۷۲۰p و نرخ فریم ۲۰ تا ۲۴ فریم‌برثانیه اجرا می‌شوند. نکته خیره‌کننده اینکه با حرکت شما، Genie 3 مسیرهای بعدی را به‌صورت لحظه‌ای و براساس اقدامات شما خلق می‌کند.

Project Genie نیز قابلیتی به نام Remix Worlds دارد که به یوزران اجازه می‌دهد جهان‌های موجود یا آثار دیگران در گالری را برداشته و با تغییر دستورات (Prompts)، ورژن‌ای جدید از آنها تولید کنند. نیز امکان دانلود ویدیو این جهان‌ها هست.

بیشتر بخوانید: آمار دانلود چت‌جی‌پی‌تی؛ دیگر خبری از رشد انفجاری نیست

گوگل برای نشان دادن قدرت این مدل، چند ویدیو منتشر کرده که براساس دستورات متنی (Prompts) ساخته شده‌اند.

بااین‌حال، گوگل صراحتاً به برخی محدودیت‌های مدل خود اشاره کرده است. ازجمله اینکه محیط‌های تولید شده ممکن است همیشه کاملاً واقع‌گرایانه نباشند یا صددرصد از قوانین فیزیک پیروی نکنند. علاوه‌براین، کنترل شخصیت‌ها گاهی دشوار است یا با تأخیر (Latency) همراه می‌شود و مدت زمان هر جلسه درحال‌حاضر محدود به ۶۰ ثانیه است.

هدف گوگل از عرضه این فناوری، درک بهتر نحوه استفاده یوزران از مدل‌های جهانی در تحقیقات هوش مصنوعی است. اما در مقیاسی بزرگ‌تر، این فناوری بخشی از مأموریت آزمایشگاه گوگل دیپ‌مایند برای رسیدن به AGI است.

در‌حال‌حاضر، اجازه دسترسی به این ابزار تنها برای یوزران بالای ۱۸ سال در ایالات متحده که اشتراک پریمیوم گوگل دارند میسر است، اما این شرکت وعده داده که به‌زودی آن را در دسترس افراد بیشتری قرار می‌دهد.

برچسب‌ها: گوگل