گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد

بدون دیدگاه
گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد

گوگل از یک مدل تخصصی و جدید به نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی می‌تواند مانند انسان واقعی، با کلیک، اسکرول و تایپ‌کردن با وب‌سایت‌ها و رابط‌های یوزری گرافیکی تعامل داشته باشد و کارهای پیچیده‌ای را به‌صورت خودکار انجام دهد.

برخلاف مدل‌های سنتی که به رابط برنامه‌نویسی برای تعامل با نرم‌افزارها نیاز دارند، Gemini 2.5 Computer Use مستقیماً رابط یوزری گرافیکی (GUI) را درک می‌کند: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر با درخواست یوزر دریافت می‌کند. سپس با استفاده از قابلیت‌های پیشرفته درک بصری خود، صفحه را تحلیل و بهترین اقدام بعدی (مانند کلیک روی یک دکمه یا تایپ در یک فیلد) را تعیین می‌کند. در گام بعدی نیز یک اسکرین‌شات جدید گرفته می‌شود و این حلقه تا زمان تکمیل کامل وظیفه ادامه دادن می‌یابد. این مدل درحال‌حاضر از ۱۳ اقدام اصلی مانند بازکردن مرورگر، تایپ‌کردن، کلیک، اسکرول و Drag and drop کمک می‌کند.

مدل Gemini 2.5 Computer Use گوگل

مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیده‌ای که در مرورگر انجام می‌شوند، ایده‌آل است. گوگل برای نشان دادن قدرت این هوش مصنوعی، دو دمو نشان داده است: در یک دمو هوش مصنوعی وظیفه پیداکردن اطلاعات حیوانات خانگی از یک وب‌سایت و واردکردن آنها در یک سیستم کنترل مشتری (CRM) در یک وب‌سایت دیگر را برعهده می‌گیرد و حتی یک قرار ملاقات نیز برای آن‌ها تنظیم می‌کند. در دموی دیگر، این مدل یک تخته یادداشت دیجیتال به‌هم‌ریخته را با کشیدن و رهاکردن یادداشت‌ها در دسته‌بندی‌های صحیح مرتب می‌کند.

نکته جالب اینکه این همان فناوری پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و قابلیت‌های ایجنت‌محور AI Mode کشف است.

فرایند انجام کار مدل Gemini 2.5 Computer Use

رونمایی از این مدل، تنها یک روز پس از رویداد بزرگ OpenAI و معرفی قابلیت اجرای «اپلیکیشن‌ها در ChatGPT»، نشان‌دهنده شدت رقابت در این حوزه است. Gemini 2.5 Computer Use پاسخ مستقیم گوگل به قابلیت‌های مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است.

مدل Gemini 2.5 Computer Use
مقایسه بنچمارک‌های Gemini 2.5 Computer Use با مدل‌های رقیب

براساس بنچمارک‌های منتشرشده توسط گوگل، این مدل در وظایف کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای پیشرو از خود نشان داده است. بااین‌حال، یک تفاوت مهم هست: مدل گوگل درحال‌حاضر فقط برای مرورگرها بهینه‌سازی شده است و برخلاف رقبای خود، هنوز قابلیت کنترل کامل سیستم‌عامل دسکتاپ را ندارد.

بیشتر بخوانید:  عضو شورای عالی فضای مجازی: اکثر اعضای شورا با رفع فیلترینگ مخالف هستند

Gemini 2.5 Computer Use از امروز به صورت پیش‌نشان دادن برای توسعه‌دهندگان با Gemini رابط برنامه‌نویسی در سکوی نرم‌افزاری‌های Google AI Studio و Vertex AI در دسترس قرار گرفته است.

برچسب‌ها: ChatGPT, اپل, برنامه‌نویسی, سیستم‌عامل, گوگل

جدیدترین‌ مطالب

مطالب بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
برای ادامه، شما باید با قوانین موافقت کنید