گروه تحقیقات هوش مصنوعی متا با وجود انتقادات دربارهی بهاندازهی کافی بازنبودن Llama 2، میخواهد مدلها را بهرایگان منتشر کند تا مجوزهای منبعباز تغییر کند.
بهگزارش تکناک، در ماه جولای، مرکز تحقیقات بنیادی هوش مصنوعی (FAIR) متا (Meta) مدل زبانی بزرگ خود، یعنی Llama 2 را بهطور نسبتاً باز و بهرایگان منتشر کرد که در تضاد با رقبای بزرگ خود قرار گرفت. بااینحال، در دنیای نرمافزارهای منبعباز، برخی هنوز شفافیت این شرکت را ویژگی مثبت میبینند.
بهنوشتهی The Verge، اگرچه مجوز متا باعث میشود Llama 2 برای بسیاری از افراد رایگان باشد، هنوز مجوزی محدود است که تمامی نیازمندیهای سازمان Open Source Initiative (OSI) را برآورده نمیکند. همانطورکه در تعریف منبعباز OSI آمده است، منبعباز بیشتر از اشتراکگذاری برخی از کدها یا تحقیقات است.
درواقع منبعبازبودن، باید توزیع مجدد رایگان، دسترسی به کد منبع، اجازه تغییرات و وابستهنبودن به محصول خاص را ارائه دهد. محدودیتهای متا شامل درخواست هزینه لایسنس برای توسعهدهندگانی است که بیش از ۷۰۰میلیون کاربر روزانه دارند و از آموزش سایر مدلها روی Llama جلوگیری میکند.
IEEE Spectrum نوشته است که محققان دانشگاه رادبود (Radboud) در هلند معتقدند که ادعای متا دربارهی منبعبازبودن Llama 2 گمراهکننده است و پستهای رسانههای اجتماعی این سؤال را مطرح کردند که چگونه متا میتواند ادعای منبعبازبودن آن را ارائه کند.
جوئل پینو، سرپرست مرکز تحقیقات بنیادی هوش مصنوعی (FAIR) و معاون رئیس متا درزمینهی تحقیقات هوش مصنوعی، از محدودیتهای بازبودن متا آگاه است. بااینحال، او اعتقاد دارد که این توازنی لازم بین مزایای اشتراک اطلاعات و هزینههای ممکن برای کسبوکار متاست.
فهرست مطالب
بخش هوش مصنوعی متا در گذشته روی پروژههای بازتری فعالیت کرده است
یکی از اقدامات منبعباز مهم متا، پروژهی PyTorch است که نوعی زبان برنامهنویسی یادگیری ماشین برای توسعه مدلهای هوش مصنوعی مولد است. در سال ۲۰۱۶، این شرکت PyTorch را برای جامعهی منبعباز منتشر کرده است. پینو امیدوار است همین هیجان را دربارهی مدلهای هوش مصنوعی مولد خود نیز تقویت کند؛ بهویژه ازآنجاکه PyTorch پس از منتشرشدن بهصورت منبعباز، بسیار پیشرفت کرده است.
برای FAIR اهمیت دارد که مجموعهای متنوع از پژوهشگران بتوانند تحقیقاتشان را ببینند تا بازخورد بهتری دریافت کنند. همین اصل اخلاقی را متا هنگام اعلام انتشار Llama 2 استفاده و داستانی ایجاد کرد که این شرکت باور دارد نوآوری در هوش مصنوعی مولد باید مشارکتی باشد.
پینو میگوید که در گروههای صنعتی مانند Partnership on AI و MLCommons فعالیت میکند تا در توسعهی مدلهای بنیادی و راهنماهای مربوط به استقرار ایمن مدلها مشارکت کند. این شرکت ترجیح میدهد تا با گروههای صنعتی همکاری کند؛ زیرا باور دارد هیچ شرکتی نمیتواند بهتنهایی گفتوگو را دربارهی هوش مصنوعی ایمن و مسئولانه در جامعهی منبعباز رهبری کند.
رویکرد Meta Platforms (American multinational technology corporation) به بازبودن در دنیای شرکتهای بزرگ هوش مصنوعی نوآورانه بهنظر میرسد. OpenAI بهعنوان شرکتی منبعباز با تحقیقات باز آغاز به کار کرد؛ اما ایلیا سوتسکور، یکی از مؤسسان و محققان ارشد شرکت OpenAI، به The Verge گفت که اشتراکگذاری تحقیقاتشان اشتباه بوده است و آن را به دلایل رقابتی و امنیتی ارجاع داد. درحالیکه گوگل گهگاه مقالاتی از دانشمندان خود بهاشتراک میگذارد، دربارهی توسعهی برخی از مدلهای زبانی بزرگ خود نیز سختگیری کرده است.
عموماً بازیگران منبعباز در این صنعت توسعهدهندگان کوچکتری مانند Stability AI و EleutherAI هستند که تا حدی در فضای تجاری موفقیت کسب کردهاند. توسعهدهندگان منبعباز بهطور منظم مدلهای زبانی بزرگ جدید را در مخازن کد Hugging Face و GitHub منتشر میکنند. Falcon، مدل زبانی بزرگ منبعباز از Technology Innovation Institute مستقر در دبی، نیز محبوبیتش افزایش یافته است و با هر دو Llama 2 و GPT-4 رقابت میکند.
بااینحال، شایان ذکر است که بیشتر شرکتهای بستهی هوش مصنوعی جزئیاتی از جمعآوری دادهها برای ایجاد مجموعهدادههای آموزشی مدلهای خود بهاشتراک نمیگذارند.
Meta نیز این کار را انجام نمیدهد
پینو میگوید که طرحهای لایسنسینگ فعلی برای کار با نرمافزارهایی (مانند بسیاری از سرویسهای هوش مصنوعی مولد) که حجم عظیمی از دادههای بیرونی را دریافت میکنند، طراحی نشده است. اکثر مجوزها، چه منبعباز و چه اختصاصی، مسئولیت محدودی به کاربران و توسعهدهندگان میدهند و جریمهی بسیار محدودی درقبال نقض حق در نظر میگیرند.
باوجوداین، پینو میگوید مدلهای هوش مصنوعی مانند Llama 2 شامل حجم بیشتری از دادههای آموزشی هستند و درصورت تولید محتوایی که بهعنوان تخلف محسوب شود، کاربران ممکن است مسئولیت بیشتری را برعهده بگیرند. درحالحاضر، نسل فعلی مجوزهای نرمافزاری این امر را پوشش نمیدهد.
استفانو مافولی، مدیر اجرایی OSI، نیز به The Verge میگوید که این گروه درک میکند که لایسنسهای تأییدشدهی فعلی OSI ممکن است نیازهای خاصی را برای مدلهای هوش مصنوعی برآورده نکنند. او میگوید که OSI در حال بررسی است که چگونه با توسعهدهندگان هوش مصنوعی همکاری کند تا دسترسی باز و بدون محدودیت و درعینحال ایمن به مدلها را فراهم کند.
مافولی میگوید:
بیتردید باید لایسنسها را بهگونهای بازنگری کنیم که محدودیتهای واقعی حق انتشار و مجوزها در مدلهای هوش مصنوعی را در نظر بگیریم؛ درحالیکه بسیاری از اصول جامعهی منبعباز را حفظ کنیم.
همچنین، OSI در حال ارائهی تعریفی از منبعباز در ارتباط با هوش مصنوعی است. هر زمان که در بحث «آیا Llama 2 واقعاً منبعباز است؟» قرار بگیرید، این تنها معیار محتمل از بازبودن نیست. بهعنوان مثال، گزارشی جدید از دانشگاه استنفورد نشان داد که هیچیک از شرکتهای برتر با مدلهای هوش مصنوعی بهاندازهی کافی دربارهی خطرهای محتمل و درصورت بروز خطا، دربارهی مطمئنبودن آن صحبت نمیکنند. پذیرش خطرهای محتمل و ارائهی راههای بازخورد لزوماً بخشی استاندارد از بحث منبعباز نیست؛ اما برای هرکسی که مدل هوش مصنوعی توسعه میدهد، باید قاعدهای مهم باشد.