اپل مدل هوش مصنوعی UniGen 1.5 را برای تولید و ویرایش تصاویر معرفی کرد

اپل با معرفی مدل چندوجهی UniGen 1.5، یک چارچوب یکپارچه برای درک، تولید و ویرایش تصویر ارائه داده که با افزودن مرحله «هم‌ترازی دستورالعمل ویرایش» مبتنی بر یادگیری تقویتی، عملکردی رقابتی در معیارهای استاندارد صنعتی به‌دست آورده است.

به گزارش سرویس هوش‌مصنوعی تکناک، تیمی از محققان اپل، از آزمایشگاه‌های این شرکت، از توسعه و بهبود قابل توجهی در مدل هوش مصنوعی خود با نام “UniGen 1.5” خبر دادند. این سیستم پیشرفته، با تکیه بر مدل قبلی UniGen، توانایی‌های درک، تولید و ویرایش تصویر را در یک مدل واحد و یکپارچه مدیریت می‌کند، که گامی مهم در حوزه هوش مصنوعی چندوجهی محسوب می‌شود.

محققان اپل، پیش از این در ماه مه، مطالعه‌ای با عنوان “UniGen: استراتژی‌های بهبود یافته آموزش و زمان آزمایش برای درک و تولید چندوجهی یکپارچه” را منتشر کرده بودند. در آن زمان، آن‌ها یک مدل زبان بزرگ چندوجهی یکپارچه را معرفی کردند که قادر به درک و تولید تصویر در یک سیستم واحد بود و نیاز به مدل‌های جداگانه برای هر وظیفه را از بین می‌برد.

اکنون، در مقاله‌ای جدید با عنوان “UniGen-1.5: افزایش تولید و ویرایش تصویر از طریق یکپارچه‌سازی پاداش در یادگیری تقویتی”، اپل نشان داده است که چگونه این تحقیق جدید، یونی‌ژن را با افزودن قابلیت‌های ویرایش تصویر به همان چارچوب یکپارچه گسترش می‌دهد. این یکپارچه‌سازی کامل، درک، تولید و ویرایش را بدون نیاز به سیستم‌های مختلف مدیریت می‌کند.

یک نمودار فنی که فرآیند تولید و درک تصویر توسط مدل UniGen اپل را با مثال «میز ناهارخوری روی چمدان» توضیح می‌دهد.

یکپارچه‌سازی این قابلیت‌ها در یک سیستم واحد، به دلیل تفاوت در رویکردهای مورد نیاز برای درک و تولید تصاویر، همواره چالش‌برانگیز بوده است. با این حال، محققان اپل استدلال می‌کنند که یک مدل یکپارچه می‌تواند از توانایی درک خود برای بهبود عملکرد تولید استفاده کند.

یکی از چالش‌های اصلی در ویرایش تصویر برای مدل‌های هوش مصنوعی، به‌ویژه در تغییرات ظریف یا بسیار خاص، درک کامل دستورالعمل‌های ویرایش پیچیده است. UniGen-1.5، برای رفع این مشکل، یک مرحله جدید پس از آموزش را با نام “هم‌ترازی دستورالعمل ویرایش” (Edit Instruction Alignment) معرفی می‌کند.

اپل یک مدل هوش مصنوعی واحد می‌سازد که می‌تواند تصاویر را ببیند، ایجاد و ویرایش کند

این مرحله، که پس از تنظیم دقیق نظارت‌شده (SFT) انجام می‌شود، مدل را بهینه‌سازی می‌کند تا توصیف متنی دقیقی از آنچه تصویر ویرایش‌شده باید شامل شود، بر اساس تصویر اصلی و دستورالعمل ویرایش، استنتاج کند. سپس، یادگیری تقویتی به کار گرفته می‌شود تا مدل را با پاداش دادن به خروجی‌های بهتر و جریمه کردن خروجی‌های ضعیف‌تر آموزش دهد. این مرحله میانی، به مدل کمک می‌کند تا ویرایش مورد نظر را بهتر درونی‌سازی کند، قبل از تولید تصویر نهایی.

محققان اپل یک سیستم پاداش یکسان را برای تولید و ویرایش تصویر در UniGen-1.5 به کار گرفتند، که خود دستاوردی مهم تلقی می‌شود، زیرا ویرایش‌ها می‌توانند از تغییرات جزئی تا تبدیل‌های کامل متغیر باشند.

هنگامی که UniGen-1.5 بر روی چندین معیار استاندارد صنعتی، از جمله GenEval و DPG-Bench برای درک و تولید تصویر، و ImgEdit برای ویرایش تصویر آزمایش شد، این مدل چندین مدل زبان بزرگ چندوجهی پیشرفته (هم منبع باز و هم اختصاصی) را یا برابر کرد یا از آن‌ها پیشی گرفت. برای مثال، UniGen-1.5 در GenEval و DPG-Bench به ترتیب نمرات 0.89 و 86.83 را کسب کرد و در ویرایش تصویر، نمره کلی 4.31 را در ImgEdit به دست آورد که با مدل‌های اختصاصی مانند GPT-Image-1 قابل مقایسه است.

به نقل از 9to5mac، با این حال، محققان به برخی محدودیت‌ها نیز اشاره کردند. UniGen-1.5 در تولید متن دقیق و همچنین در حفظ سازگاری هویت تحت شرایط خاص (مانند تغییرات در بافت یا رنگ) مشکلاتی دارد. اپل متعهد است تا این محدودیت‌ها را در آینده برطرف کند.

این دستاورد، پایه‌ای قوی‌تر برای پیشبرد تحقیقات در مدل‌های زبان بزرگ چندوجهی یکپارچه فراهم می‌کند و نشان‌دهنده تعهد اپل به نوآوری در زمینه هوش مصنوعی مولد است.