اپل با معرفی مدل چندوجهی UniGen 1.5، یک چارچوب یکپارچه برای درک، تولید و ویرایش تصویر ارائه داده که با افزودن مرحله «همترازی دستورالعمل ویرایش» مبتنی بر یادگیری تقویتی، عملکردی رقابتی در معیارهای استاندارد صنعتی بهدست آورده است.
به گزارش سرویس هوشمصنوعی تکناک، تیمی از محققان اپل، از آزمایشگاههای این شرکت، از توسعه و بهبود قابل توجهی در مدل هوش مصنوعی خود با نام “UniGen 1.5” خبر دادند. این سیستم پیشرفته، با تکیه بر مدل قبلی UniGen، تواناییهای درک، تولید و ویرایش تصویر را در یک مدل واحد و یکپارچه مدیریت میکند، که گامی مهم در حوزه هوش مصنوعی چندوجهی محسوب میشود.
محققان اپل، پیش از این در ماه مه، مطالعهای با عنوان “UniGen: استراتژیهای بهبود یافته آموزش و زمان آزمایش برای درک و تولید چندوجهی یکپارچه” را منتشر کرده بودند. در آن زمان، آنها یک مدل زبان بزرگ چندوجهی یکپارچه را معرفی کردند که قادر به درک و تولید تصویر در یک سیستم واحد بود و نیاز به مدلهای جداگانه برای هر وظیفه را از بین میبرد.
اکنون، در مقالهای جدید با عنوان “UniGen-1.5: افزایش تولید و ویرایش تصویر از طریق یکپارچهسازی پاداش در یادگیری تقویتی”، اپل نشان داده است که چگونه این تحقیق جدید، یونیژن را با افزودن قابلیتهای ویرایش تصویر به همان چارچوب یکپارچه گسترش میدهد. این یکپارچهسازی کامل، درک، تولید و ویرایش را بدون نیاز به سیستمهای مختلف مدیریت میکند.

یکپارچهسازی این قابلیتها در یک سیستم واحد، به دلیل تفاوت در رویکردهای مورد نیاز برای درک و تولید تصاویر، همواره چالشبرانگیز بوده است. با این حال، محققان اپل استدلال میکنند که یک مدل یکپارچه میتواند از توانایی درک خود برای بهبود عملکرد تولید استفاده کند.
یکی از چالشهای اصلی در ویرایش تصویر برای مدلهای هوش مصنوعی، بهویژه در تغییرات ظریف یا بسیار خاص، درک کامل دستورالعملهای ویرایش پیچیده است. UniGen-1.5، برای رفع این مشکل، یک مرحله جدید پس از آموزش را با نام “همترازی دستورالعمل ویرایش” (Edit Instruction Alignment) معرفی میکند.

این مرحله، که پس از تنظیم دقیق نظارتشده (SFT) انجام میشود، مدل را بهینهسازی میکند تا توصیف متنی دقیقی از آنچه تصویر ویرایششده باید شامل شود، بر اساس تصویر اصلی و دستورالعمل ویرایش، استنتاج کند. سپس، یادگیری تقویتی به کار گرفته میشود تا مدل را با پاداش دادن به خروجیهای بهتر و جریمه کردن خروجیهای ضعیفتر آموزش دهد. این مرحله میانی، به مدل کمک میکند تا ویرایش مورد نظر را بهتر درونیسازی کند، قبل از تولید تصویر نهایی.
محققان اپل یک سیستم پاداش یکسان را برای تولید و ویرایش تصویر در UniGen-1.5 به کار گرفتند، که خود دستاوردی مهم تلقی میشود، زیرا ویرایشها میتوانند از تغییرات جزئی تا تبدیلهای کامل متغیر باشند.
هنگامی که UniGen-1.5 بر روی چندین معیار استاندارد صنعتی، از جمله GenEval و DPG-Bench برای درک و تولید تصویر، و ImgEdit برای ویرایش تصویر آزمایش شد، این مدل چندین مدل زبان بزرگ چندوجهی پیشرفته (هم منبع باز و هم اختصاصی) را یا برابر کرد یا از آنها پیشی گرفت. برای مثال، UniGen-1.5 در GenEval و DPG-Bench به ترتیب نمرات 0.89 و 86.83 را کسب کرد و در ویرایش تصویر، نمره کلی 4.31 را در ImgEdit به دست آورد که با مدلهای اختصاصی مانند GPT-Image-1 قابل مقایسه است.

به نقل از 9to5mac، با این حال، محققان به برخی محدودیتها نیز اشاره کردند. UniGen-1.5 در تولید متن دقیق و همچنین در حفظ سازگاری هویت تحت شرایط خاص (مانند تغییرات در بافت یا رنگ) مشکلاتی دارد. اپل متعهد است تا این محدودیتها را در آینده برطرف کند.
این دستاورد، پایهای قویتر برای پیشبرد تحقیقات در مدلهای زبان بزرگ چندوجهی یکپارچه فراهم میکند و نشاندهنده تعهد اپل به نوآوری در زمینه هوش مصنوعی مولد است.

















