گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی میتواند مانند انسان واقعی، با کلیک، اسکرول و تایپکردن با وبسایتها و رابطهای یوزری گرافیکی تعامل داشته باشد و کارهای پیچیدهای را بهصورت خودکار انجام دهد.
برخلاف مدلهای سنتی که به رابط برنامهنویسی برای تعامل با نرمافزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط یوزری گرافیکی (GUI) را درک میکند: هوش مصنوعی یک اسکرینشات از صفحه مرورگر با درخواست یوزر دریافت میکند. سپس با استفاده از قابلیتهای پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین میکند. در گام بعدی نیز یک اسکرینشات جدید گرفته میشود و این حلقه تا زمان تکمیل کامل وظیفه ادامه دادن مییابد. این مدل درحالحاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپکردن، کلیک، اسکرول و Drag and drop کمک میکند.
مدل Gemini 2.5 Computer Use گوگل
مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیدهای که در مرورگر انجام میشوند، ایدهآل است. گوگل برای نشان دادن قدرت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی وظیفه پیداکردن اطلاعات حیوانات خانگی از یک وبسایت و واردکردن آنها در یک سیستم کنترل مشتری (CRM) در یک وبسایت دیگر را برعهده میگیرد و حتی یک قرار ملاقات نیز برای آنها تنظیم میکند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال بههمریخته را با کشیدن و رهاکردن یادداشتها در دستهبندیهای صحیح مرتب میکند.
نکته جالب اینکه این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیتهای ایجنتمحور AI Mode کشف است.
رونمایی از این مدل، تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای «اپلیکیشنها در ChatGPT»، نشاندهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use پاسخ مستقیم گوگل به قابلیتهای مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

براساس بنچمارکهای منتشرشده توسط گوگل، این مدل در وظایف کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااینحال، یک تفاوت مهم هست: مدل گوگل درحالحاضر فقط برای مرورگرها بهینهسازی شده است و برخلاف رقبای خود، هنوز قابلیت کنترل کامل سیستمعامل دسکتاپ را ندارد.
Gemini 2.5 Computer Use از امروز به صورت پیشنشان دادن برای توسعهدهندگان با Gemini رابط برنامهنویسی در سکوی نرمافزاریهای Google AI Studio و Vertex AI در دسترس قرار گرفته است.