فهرست مطالب
شرکت مایکروسافت از مدل کوچک اما کارآمد Fara-7B برای اجرای وظایف پیچیده به صورت محلی رونمایی کرد.
به گزارش سرویس فناوری تکناک، این مدل با ۷ میلیارد پارامتر به عنوان یک Computer Use Agent (CUA) طراحی شده است. مدل Fara-7B برای اندازه خود رکورد جدیدی از کارایی ایجاد میکند و امکان ساخت ایجنتهایی را فراهم میسازد که به مدلهای عظیم و ابری وابسته نیستند و میتوانند روی سیستمهای جمعوجور با تأخیر کمتر و حفظ حریم خصوصی بیشتر اجرا شوند.
این مدل اگرچه نسخهای آزمایشی است، اما معماری آن یکی از موانع اصلی پذیرش سازمانی یعنی امنیت داده را هدف قرار میدهد، چرا که Fara-7B اندازهای کوچک دارد و میتواند به صورت محلی اجرا شود، کاربران قادر میشوند گردشکارهای حساس مانند مدیریت حسابهای داخلی یا پردازش دادههای محرمانه را بدون خروج اطلاعات از دستگاه خود خودکار کنند.
01
از 05مدل Fara-7B مایکروسافت چگونه وب را میبیند
این مدل با همان ابزارهایی که انسان استفاده میکند، یعنی ماوس و صفحهکلید، رابطهای کاربری را پیمایش میکند. مدل با مشاهده تصویری صفحات وب از طریق اسکرینشاتها، مختصات دقیق را برای اقداماتی مانند کلیک کردن، تایپ کردن و اسکرول کردن پیشبینی میکند.
این مدل برخلاف بسیاری از سیستمها به accessibility trees متکی نیست؛ ساختارهایی که مرورگرها برای توصیف صفحات وب به خوانشگرهای صفحه استفاده میکنند. در عوض، Fara-7B تنها به داده بصری در سطح پیکسل تکیه میکند. این روش ایجنت را قادر میسازد در سایتهایی با کد پیچیده یا مبهم نیز تعامل دقیقی داشته باشد.
به گفته Yash Lara، مدیر ارشد محصول در مایکروسافت ریسرچ، پردازش همه ورودیهای بصری روی دستگاه، نوعی «حاکمیت پیکسلی» ایجاد میکند، چرا که اسکرینشاتها و فرایند استدلالی ایجنت هرگز از دستگاه خارج نمیشود. او توضیح داد که این رویکرد به سازمانها امکان میدهد به الزامات سختگیرانه حوزههای قانونگذاریشده مانند HIPAA و GLBA پایبند بمانند.

در آزمونهای بنچمارک، این رویکرد تصویری عملکرد چشمگیری ایجاد کرده است. در WebVoyager، یکی از بنچمارکهای استاندارد ایجنتهای وب، Fara-7B موفق شد به نرخ موفقیت ۷۳.۵ درصد برسد؛ رقمی که از سیستمهای بزرگتر مانند GPT-4o در حالت CUA و مدل UI-TARS-1.5-7B نیز بهتر است.
02
از 05کارایی و سرعت مدل Fara-7B مایکروسافت
مدل Fara-7B در مقایسهها تنها در حدود ۱۶ مرحله یک وظیفه را کامل کرده است، در حالی که مدل UI-TARS-1.5 به حدود ۴۱ مرحله نیاز داشته است. این موضوع نشان میدهد که این مدل در عین کوچک بودن، از لحاظ کارایی بهینه است.

03
از 05مدیریت ریسکها
شرکت مایکروسافت هشدار میدهد که Fara-7B نیز مانند دیگر مدلها ممکن است دچار خطا، توهم یا کاهش دقت در وظایف پیچیده شود. برای کاهش این ریسکها، مدل بهگونهای آموزش دیده است تا Critical Points را تشخیص دهد؛ نقاطی که انجام یک اقدام غیرقابل بازگشت مانند ارسال ایمیل یا تأیید تراکنش مالی نیازمند تأیید کاربر است. ایجنت در چنین لحظاتی مکث میکند و اجازه کاربر را درخواست میکند.
به گفته Lara، حفظ تعادل میان این نقاط حساس و تجربه کاربری روان یک چالش کلیدی است و وجود رابطهایی مانند Magentic-UI برای مداخله کاربر ضروری میباشد.
04
از 05فشردهسازی پیچیدگی در یک مدل کوچک
توسعه مدل Fara-7B بخشی از روند رو به رشد دانشتقطیر مایکروسافت است؛ جایی که تواناییهای سیستمهای بزرگ در مدلی کوچک و کارآمد فشرده میشود. مایکروسافت برای جمعآوری داده آموزشی بهجای اتکا به داده پرهزینه انسانی، از یک خط داده مصنوعی مبتنی بر Magentic-One استفاده کرده است. در این سیستم چندایجنتی، یک Orchestrator برنامهریزی میکرد و یک WebSurfer وظایف را در وب انجام میداد و ۱۴۵ هزار مسیر موفقیتآمیز تولید میشد.
سپس این دادهها در یک مدل تکی یعنی Fara-7B قرار گرفت؛ مدلی که بر پایه Qwen2.5-VL-7B ساخته شده است و از پنجره متنی بزرگ ۱۲۸ هزار توکنی و قابلیت اتصال قوی متن و تصویر بهره میبرد.

05
از 05چشمانداز آینده
نسخه فعلی بر داده ثابت تکیه دارد، اما نسخههای آینده به جای بزرگتر شدن بر «هوشمندتر شدن» تمرکز دارند. مایکروسافت قصد دارد با روشهایی مثل یادگیری تقویتی در محیطهای ایزوله، رفتار ایجنت را بهصورت زنده ارتقا دهد.
این مدل اکنون در Hugging Face و Microsoft Foundry با مجوز MIT عرضه شده است، اما Lara هشدار میدهد که Fara-7B هنوز آماده محیطهای حساس عملیاتی نیست و بیشتر برای آزمایش و نمونهسازی اولیه مناسب است.

















