متا هوش مصنوعی جدیدی به نام SAM 2 (مخفف Segment Anything Model 2) معرفی کرده است که میتواند هر آنچه در عکس یا فیلم میبینید، جدا کند و از بقیه قسمتها تفکیک کند.
بهگزارش تکناک، قطعهبندی بخش مهمی از بینش کامپیوتری است که برای تشخیص پیکسلهای تصویری متعلق به یک شیء استفاده میشود. این تکنیک در سناریوهای مختلف دنیای واقعی، از تحلیل تصاویر علمی تا ویرایش عکسها، کاربرد دارد.
در سال ۲۰۲۳، متا با معرفی پروژهی Segment Anything و انتشار مدل Segment Anything (SAM) و مجموعه داده یکمیلیارد ماسک Segment Anything (SA-1B) برای تسریع تحقیقات در این زمینه، قطعهبندی را عمومی کرد.
نئووین مینویسد که اخیراً متا مدل Segment Anything 2 (SAM 2) را معرفی کرده است که دقیقتر و شش برابر سریعتر از SAM اصلی است. علاوهبراین، SAM 2 اکنون از قطعهبندی اشیاء هم در ویدئو و هم در تصویر پشتیبانی میکند.
درادامه، به برخی از ویژگیهای اصلی SAM2 متا اشاره میکنیم:
- SAM 2 درمقایسهبا رویکردهای قبلی در قطعهبندی تعاملی ویدئو در ۱۷ مجموعه داده ویدئویی بدون نمونه برتر بوده است و به تقریباً سه برابر تعامل انسانی کمتری نیاز دارد.
- SAM 2 در مجموعه معیارهای بدون نمونه ۲۳ دادهای خود بهتر از SAM عمل میکند؛ درحالیکه شش برابر سریعتر است.
- SAM 2 درمقایسهبا مدلهای پیشرفتهی قبلی، در معیارهای قطعهبندی شیء ویدئویی موجود (DAVIS و MOSE و LVOS و YouTube-VOS) برتری دارد.
- استنتاج با SAM 2 با سرعت تقریبی ۴۴ فریمبرثانیه احساس میشود.
- SAM 2 در حلقه برای حاشیهگذاری قطعهبندی ویدئو ۸/۴ برابر سریعتر از حاشیهگذاری دستی فریمبهفریم با SAM است.
ازآنجاکه SAM 2 تحت مجوز Apache 2.0 دردسترس است، هر کسی میتواند تجربیاتش را براساس مدل SAM 2 بسازد. متا موارد زیر را به اشتراک میگذارد:
- کد و وزنهای SAM 2 تحت مجوز آزاد Apache 2.0
- کد ارزیابی SAM 2 تحت مجوز BSD-3
- مجموعه داده SA-V تحت مجوز CC BY 4.0 (شامل حدود ۵۱ هزار ویدئو دنیای واقعی با بیش از ۶۰۰ هزار ماسک)
کاربردهای بالقوهی زیادی برای SAM 2 وجود دارد و در صنعتها و زمینههای تحقیقاتی مختلف گسترش مییابد. با دردسترس قراردادن مدل تحت مجوز باز، متا برای توسعهدهندگان و محققان امکان نوآوری را فراهم میکند.