شرکت گوگل با رونمایی از مدل جدید Gemini 2.5 Computer Use که توانایی تعامل با وب را دارد، گام تازهای در تعامل انسان و ماشین برداشته است.
به گزارش تکناک، این نسخه تازه از خانواده مدلهای Gemini با هدف درک و تعامل با رابطهای کاربری انسانی طراحی شده است و میتواند درون صفحات وب، فرمها و محیطهای گرافیکی فعالیت کند، بدون آنکه به API یا ابزارهای خودکارسازی سنتی نیاز داشته باشد و کارهایی را انجام دهد که پیشتر تنها از انسان برمیآمد.
به گفته گوگل، مدل Gemini 2.5 Computer Use از تواناییهای پیشرفتهای در زمینه «درک بصری و استدلال منطقی» برخوردار است. این مدل میتواند درخواستهای کاربر را تحلیل کند و به صورت خودکار اقداماتی مانند: پر کردن فرمها، کلیک روی گزینهها، یا ارسال دادهها را انجام دهد. چنین قابلیتی میتواند تحول بزرگی در حوزه آزمایش رابط کاربری (UI Testing) و تعامل خودکار با وبسایتهایی ایجاد کند که برای استفاده ماشینی طراحی نشدهاند.
شرکت گوگل پیشتر نمونههای اولیهای از این فناوری را در پروژههایی مانند AI Mode و Project Mariner آزمایش کرده بود. در این پروژهها، عاملهای هوش مصنوعی قادر بودند در مرورگر، وظایف پیچیدهای را به صورت خودکار انجام دهند؛ به عنوان مثال، افزودن اقلام به سبد خرید بر اساس فهرست مواد اولیه یا مرور صفحات برای انجام وظایف خاص را انجام میدادند.
رونمایی از Gemini 2.5 تنها یک روز پس از برگزاری رویداد سالانه Dev Day شرکت OpenAI انجام شد؛ رویدادی که در آن اپلیکیشنهای جدید ChatGPT و قابلیت تازه ChatGPT Agent معرفی شدند. همزمان با این رقابت فشرده در حوزه هوش مصنوعی عاملمحور (Agentic AI)، شرکت Anthropic نیز پیشتر نسخهای از مدل Claude را با قابلیت «استفاده از رایانه» عرضه کرده بود.
با وجود این، گوگل تأکید کرده است که مدل جدید آنها در مقایسه با رقبای موجود، عملکرد بهتری در چندین معیار ارزیابی وب و موبایل داشته است. البته برخلاف ابزارهای مشابه از OpenAI و Anthropic، مدل Gemini 2.5 تنها به مرورگر وب دسترسی دارد و هنوز برای کنترل کامل محیط سیستمعامل دسکتاپ بهینهسازی نشده است.
این مدل در حال حاضر از ۱۳ نوع عملکرد پشتیبانی میکند، که از جمله آنها میتوان به باز کردن مرورگر، تایپ متن، کلیک، قابلیت کشیدن و رها کردن عناصر در صفحه اشاره کرد. همچنین گوگل ویدیوهایی از عملکرد این ابزار منتشر کرده است که سه برابر سریعتر از حالت واقعی پخش میشوند تا فرایند اجرای وظایف به شکل روانتری به نمایش درآید.
مدل Gemini 2.5 Computer Use گوگل هماکنون از طریق Google AI Studio و پلتفرم Vertex AI در اختیار توسعهدهندگان قرار گرفته است. علاوه بر این، نسخه نمایشی آن در وبسایت Browserbase نیز در دسترس عموم قرار دارد، جایی که کاربران میتوانند عملکرد این مدل را در اجرای وظایفی مانند «بازی 2048» یا «مرور مباحث داغ Hacker News» مشاهده کنند.
این اقدام تازه، نشان میدهد که گوگل در مسیر رقابت با سایر غولهای هوش مصنوعی، تمرکز خود را بر توسعه مدلهایی گذاشته است که میتوانند در محیطهای واقعی انسانی فعالیت کنند؛ گامی مهم به سوی آیندهای که در آن عاملهای هوشمند نه در پسزمینه، بلکه درون همان ابزارهایی کار خواهند کرد که انسانها استفاده میکنند.