رمزگشایی از جعبه سیاه مدل های هوش مصنوعی

رمزگشایی از جعبه سیاه مدل های هوش مصنوعی

برای اولین بار تحقیقاتی در حال انجام است، که بر اساس آن ذهن یک هوش مصنوعی کالبدشکافی و افکار آن ویرایش خواهد شد.

به گزارش تک‌ناک، درک اینکه مدل‌های هوش مصنوعی چگونه «فکر می‌کنند» ممکن است برای بقای بشریت حیاتی باشد. تا همین اواخر، هوش‌های مصنوعی مانند: GPT و Claude برای سازندگان خود همانند یک راز بودند. امّا اکنون، محققان می‌گویند که می‌توانند ایده‌ها را در مغز یک هوش مصنوعی کشف کنند و حتی آنها را تغییر دهند.

اگر به استدلال‌های تا حدی قانع‌کنندۀ افرادی که خطرات هوش مصنوعی را هشدار می‌دهند، گوش دهید، متوجه می‌شوید که نسل‌های آیندۀ هوش مصنوعی خطری عمیق برای بشریت را به نمایش می‌گذارند. حتی به طور بالقوه خطری برای بقای انسان خواهند بود.

همۀ ما دیده‌ایم که چگونه به راحتی می‌توان برنامه‌هایی مانند ChatGPT را فریب داد تا حرف‌های نامناسبی بزنند، یا کارهای ناشایستی انجام دهند. ما دیده‌ایم که آنها سعی می‌کنند تا اهداف خود را پنهان نمایند و به دنبال کسب و تثبیت قدرت باشند. هر چه هوش‌های مصنوعی از طریق اینترنت دسترسی بیشتری به دنیای فیزیکی پیدا کنند، در صورت تصمیم‌گیری، توانایی بیشتری برای ایجاد آسیب به روش‌های خلاقانۀ مختلف خواهند داشت.

چرا آنها چنین کاری انجام می‌دهند؟ ما نمی‌دانیم. در واقع، کارکردهای درونی آنها کم و بیش کاملاً برای شرکت‌ها و افرادی که آنها را می‌سازند، ناشناخته است.

ذهن‌های بیگانۀ غیرقابل درک مدل‌های هوش مصنوعی

این قطعه‌های نرم‌افزار، بسیار متفاوت از اکثر مواردی هستند که تاکنون با آنها مواجه شده‌ایم. سازندگان آنها معماری، زیرساخت و روش‌هایی را ایجاد کرده‌اند که با استفاده از آنها، ذهن‌های مصنوعی می‌توانند نسخۀ خود از هوش را توسعه دهند. حجم عظیمی از متن، ویدیو، صدا و داده‌های دیگر را به آنها داده‌اند، امّا از آن نقطه به بعد، هوش‌های مصنوعی پیش رفته‌اند و «درک» خود را از جهان ساخته‌اند.

هوش مصنوعی این گنجینه‌های عظیم داده را به قطعات کوچکی به نام توکن تبدیل می‌کنند، گاهی اوقات این کار را با بخش‌هایی از کلمات، برخی مواقع با بخش‌هایی از تصاویر یا تکه‌هایی از صدا، انجام می‌دهند. سپس مجموعه‌ای فوق‌العاده پیچیده از وزن‌های احتمالی که توکن‌ها را به یکدیگر و گروه‌های توکن را به گروه‌های دیگر ارتباط می‌دهد، ایجاد می‌کنند. به این ترتیب، آنها شبیه به مغز انسان هستند، ارتباط بین حروف، کلمات، صداها، تصاویر و مفاهیم انتزاعی‌تر را می‌یابند و آنها را به یک شبکۀ عصبی incredibly complex (به‌شدت پیچیده) تبدیل می‌کنند.

هوش مصنوعی 1
جذب حجم عظیم اطلاعات، تولید مغزهای مصنوعی پیچیده

این ماتریس‌های عظیم مملو از وزن‌های احتمالی، «ذهن» یک هوش مصنوعی را نشان می‌دهند و توانایی آن را در دریافت ورودی‌ها و پاسخ با خروجی‌های خاص هدایت می‌کنند. شبیه به مغز انسان که الهام‌بخش طراحی هوش مصنوعی بوده، باعث شده است که فهمیدن اینکه دقیقاً به چه چیزی «فکر می‌کنند» یا چرا تصمیمات خاصی می‌گیرند، تقریباً غیرممکن باشد.

من به شخصه آنها را به عنوان ذهن‌های عجیب بیگانه‌ای تصور می‌کردم که در جعبه‌های سیاه قفل شده‌اند. آنها فقط می‌توانند از طریق خطوط محدودی که اطلاعات می‌تواند از آنها وارد و خارج شود، با جهان ارتباط برقرار کنند و تمام تلاش‌ها برای «تطبیق» این ذهن‌ها برای کار کردن به طور مؤثر، ایمن و بی‌آزار در کنار انسان‌ها در سطح خطوط انجام شده است و در حد خود «ذهن‌ها» نیست.

ما نمی‌توانیم به آنها بگوییم چه فکری داشته باشند، نمی‌دانیم کلمات بی‌ادبی یا مفاهیم شیطانی در کجای مغزشان زندگی می‌کند، فقط می‌توانیم آنچه را که می‌توانند بگویند و انجام دهند را محدود کنیم، مفهومی که اکنون دشوار است، امّا با باهوش‌تر شدن آنها، به طور فزاینده‌ای سخت‌تر می‌شود.

درک‌پذیری: نگاهی به درون جعبۀ سیاه

تیم «درک‌پذیری» (Interpretability) شرکت انتروپیک در یک پست وبلاگی خود در اواخر ماه مه می‌نویسد:

«امروز، ما پیشرفت قابل توجهی را در درک عملکرد داخلی مدل‌های هوش مصنوعی گزارش می‌کنیم. ما چگونگی نمایش میلیون‌ها مفهوم را در مدل کلود سونِت (Claude Sonnet)، یکی از مدل‌های زبان بزرگ مستقر شدۀ خود، شناسایی کرده‌ایم. این اولین نگاه دقیق به درون یک مدل زبان بزرگ مدرن و درجه یک است. این کشف درک‌پذیری می‌تواند در آینده به ما کمک کند تا مدل‌های هوش مصنوعی را ایمن‌تر کنیم.»

به‌طور کلی، تیم انتروپیک «حالت داخلی» مدل‌های هوش مصنوعی خود را در زمان کار ردیابی کرده‌ است. به این صورت که این مدل‌ها لیست‌های بزرگی از اعداد را به عنوان نمایندۀ «فعال‌سازی نورون‌ها» در مغزهای مصنوعی‌ خود هنگام تعامل با انسان‌ها تولید می‌کنند. تیم می‌نویسد:

«مشخص شد که هر مفهوم در سراسر بسیاری از نورون‌ها نمایش داده می‌شود و هر نورون در نمایش مفاهیم زیادی دخیل است.»

محققان انتروپیک با استفاده از تکنیکی به نام «یادگیری دیکشنری» با استفاده از «کدگذارهای خودکار پراکنده» (Sparse Autoencoders)، شروع به تلاش برای مطابقت دادن الگوهای «فعال‌سازی نورون‌ها» با مفاهیم و ایده‌های آشنا برای انسان‌ها کردند. آنها اواخر سال گذشته با کار بر روی نسخه‌های «اسباب‌بازی» بسیار کوچک مدل‌های زبان، با موفقیت «الگوهای فکری» را کشف کردند و به‌عنوان مدل‌هایی که با ایده‌هایی مانند توالی‌های DNA، اسم‌ها در ریاضیات و متن با حروف بزرگ سروکار داشتند، فعال می‌شدند.

این شروعی امیدوارکننده بود، امّا تیم به هیچ وجه مطمئن نبود که این روش به اندازۀ مدل‌های زبانی تجاری امروزی مقیاس‌پذیر باشد، چه برسد به ماشین‌هایی که در آینده ساخته خواهند شد. بنابراین، انتروپیک یک مدل یادگیری دیکشنری تولید کرد که قادر به استفاده با مدل زبان بزرگ کلود سونِت ۳ با اندازۀ متوسط خود بود و به آزمایش این رویکرد در مقیاس بزرگ پرداخت.

نتیجۀ کار؟ تیم شگفت‌زده شد. نوشتۀ وبلاگ می‌گوید:

«ما با موفقیت میلیون‌ها ویژگی را از لایۀ میانی کلود سونِت ۳.۰ استخراج کردیم و یک نقشۀ مفهومی کلی از حالت‌های داخلی آن در نیمۀ راه محاسباتش ارائه دادیم. این اولین نگاه دقیق به درون یک مدل زبان بزرگ مدرن و درجه یک است.»

جالب است که بدانیم هوش مصنوعی مفاهیم را به روش‌هایی ذخیره می‌کند که مستقل از زبان یا حتی نوع داده است، به عنوان مثال: «ایده‌» پل گلدن گیت، هنگامی که مدل تصاویر پل یا متن به زبان‌های مختلف را پردازش می‌کند، روشن می‌شود.

و «ایده‌ها» نیز می‌توانند بسیار انتزاعی‌تر از آن باشند. تیم انتروپیک ویژگی‌هایی را کشف کرد که هنگام مواجهه با مواردی مانند: خطاهای کدگذاری، سوگیری جنسیتی، یا روش‌های مختلف برخورد با مفهوم احتیاط یا محرمانگی، فعال می‌شدند.

همچنین، محققان توانستند به روابط میان مفاهیم مختلف ذخیره‌ شده در «مغز» مدل نگاه کنند، معیاری از «فاصله» بین آنها ایجاد نمایند و مجموعه‌ای از نقشه‌های ذهنی بسازند، که نشان می‌دهد مفاهیم در چه حد به هم نزدیک هستند.

هوش مصنوعی 2
تیم انتروپیک (Anthropic) روشی برای اندازه‌گیری «فاصله» بین مفاهیم ابداع کرد که به آنها امکان ساخت این نقشه‌های ذهنی مفهومیِ فوق‌العاده را داد.

همین موضوع در مورد مفاهیم انتزاعی‌تر نیز صادق است، تا جایی که به ایدۀ موقعیت CATCH-22 (یک موقعیت ناامیدکننده) می‌رسد، که مدل آن را به «انتخاب‌های غیرممکن»، «وضعیت‌های دشوار»، «تناقضات عجیب» و «بین دو راهی گیر کردن» گروه‌بندی کرده بود. تیم انتروپیک می‌نویسد:

«این نشان می‌دهد که سازماندهی داخلی مفاهیم در مدل هوش مصنوعی، حداقل تا اندازه‌ای، با برداشت‌های ما انسان‌ها از شباهت مطابقت دارد. این ممکن است منشأ توانایی عالی کلود در ساختن قیاس‌ها و استعاره‌ها باشد.»

آغاز جراحی مغز هوش مصنوعی

تیم انتروپیک در این پست وبلاگی می‌نویسد:

«مهم‌تر اینکه، ما همچنین می‌توانیم این ویژگی‌ها را دستکاری، یا به طور مصنوعی تقویت، یا سرکوب کنیم تا ببینیم چگونه پاسخ‌های کلود تغییر می‌کند.»

این تیم دست به «بستن» (غیرفعال کردن) برخی مفاهیم زد و مدل را به گونه‌ای تغییر داد که برخی ویژگی‌ها مجبور به فعال شدن در زمان پاسخ‌دهی به پرسش‌های کاملاً نامرتبط شدند.

این موضوع بسیار باورنکردنی است؛ شرکت انتروپیک نشان داده است که نه تنها می‌تواند نقشۀ ذهنی یک هوش مصنوعی را ایجاد کند، بلکه توانایی ویرایش روابط درون آن نقشه را دارد و می‌تواند با درک مدل از جهان – و در نتیجه رفتار آن – بازی کند.

در اینجا پتانسیل ایمنی هوش مصنوعی کاملاً واضح است. اگر بدانید افکار بد کجا هستند و بتوانید بفهمید چه زمانی هوش مصنوعی به آنها فکر می‌کند، یک لایۀ نظارت اضافی دارید که می‌تواند به عنوان ناظر استفاده شود. همچنین اگر بتوانید اتصالات بین مفاهیم خاص را تقویت یا تضعیف کنید، به طور بالقوه می‌توانید باعث شوید رفتارهای خاصی از محدودۀ پاسخ‌های احتمالی هوش مصنوعی ناپدید شوند، یا حتی ایده‌های خاصی را برای درک آن از جهان حذف کنید.

این مفهوم، یادآور صحنۀ فیلم علمی-تخیلی شاهکار «درخشش ابدی یک ذهن پاک» است، جایی که جیم کری و کیت وینسلت به شرکتی برای پاک کردن خاطراتشان از یکدیگر پس از جدایی مراجعه می‌کنند و مانند آن فیلم، این سوال را مطرح می‌کند: آیا واقعاً می‌توانید یک ایدۀ قدرتمند را به طور کامل پاک کنید؟

تیم انتروپیک همچنین خطر بالقوۀ این رویکرد را با «بستن» مفهوم ایمیل‌های فریبنده نشان داد و چگونگی دور زدن سریع آموزش تراز (هم‌راستا) مدل کلود برای ممنوعیت نوشتن چنین محتوایی توسط یک اتصال ذهنی قدرتمند به این ایده را به نمایش گذاشت. این نوع جراحی مغز هوش مصنوعی واقعاً می‌تواند باعث افزایش به شدت پتانسیل مدل برای رفتارهای شرورانه شود و به آن اجازه دهد تا از موانع ایمنی خودش عبور کند.

با وجود این، تیم انتروپیک تردیدهای دیگری دربارۀ وسعت این فناوری دارد. آنها می‌نویسند:

«کار واقعاً به تازگی آغاز شده است. ویژگی‌هایی که ما پیدا کردیم، زیرمجموعۀ کوچکی از تمام مفاهیمی را نشان می‌دهند که مدل در طول آموزش یاد گرفته است و یافتن مجموعه‌ای کامل از ویژگی‌ها با استفاده از تکنیک‌های فعلی ما هزینه‌بر خواهد بود (محاسبات مورد نیاز رویکرد فعلی ما به طور قابل توجهی از محاسبات مورد استفاده برای آموزش مدل در وهلۀ اول بیشتر خواهد بود).»

«درک بازنمایی‌هایی که مدل استفاده می‌کند به ما نمی‌گوید که چگونه از آنها استفاده می‌کند؛ حتی با داشتن این ویژگی‌ها، هنوز هم باید مدارهایی را بیابیم که آنها درگیرش هستند. همچنین ما باید نشان دهیم که ویژگی‌های مرتبط با ایمنی که شروع به یافتن آنها کرده‌ایم، در واقع می‌توانند برای بهبود ایمنی مورد استفاده قرار گیرند. پس کارهای بیشتری باید انجام شود.»

به عبارت دیگر، این نوع فناوری می‌تواند ابزاری بسیار ارزشمند باشد، امّا به ندرت می‌تواند فرآیندهای ذهنی یک هوش مصنوعی در مقیاس تجاری را به طور کامل درک کند. این موضوع به افراد فاجعه‌نگر آرامش کمی می‌دهد، چرا که آنها اشاره می‌کنند که وقتی پیامدها بالقوه‌ای وجود دارد، نرخ موفقیت ۹۹.۹۹۹ درصد کافی نیست.

امّا باید گفت که این یک پیشرفت خارق‌العاده و یک درک قابل توجه در مورد شیوۀ درک این ماشین‌های باورنکردنی از جهان است. اگر روزی اندازه‌گیری آن ممکن شود، دیدن اینکه نقشۀ ذهنی یک هوش مصنوعی در چه حد به یک انسان نزدیک است، بسیار جالب خواهد بود.

OpenAI هم روی درک‌پذیری هوش مصنوعی کار می‌کند

شرکت انتروپیک یکی از بازیگران کلیدی در حوزۀ هوش مصنوعی/مدل‌های زبان بزرگ مدرن است، امّا غول این فضا به طور قطع همچنان OpenAI، سازندگان مدل‌های پیشگام GPT است، شرکتی که بیشترین هدایت مکالمۀ عمومی در مورد هوش مصنوعی را برعهده دارد.

در واقع، شرکت انتروپیک در سال ۲۰۲۱ توسط گروهی از کارمندان سابق OpenAI تأسیس شد تا ایمنی و قابلیت اطمینان هوش مصنوعی را در صدر فهرست اولویت‌ها قرار دهد، در حالی که OpenAI با مایکروسافت همکاری کرد و فعالیت خود را بیشتر به عنوان یک نهاد تجاری ادامه داد.

با وجود این، OpenAI نیز بر روی درک‌پذیری کار کرده و از رویکردی بسیار مشابه بهره برده است. در تحقیقی که در اوایل ژوئن منتشر شد، تیم درک‌پذیری OpenAI اعلام کرد که حدود ۱۶ میلیون الگو‌ی «فکری» در GPT-4 پیدا کرده است، که بسیاری از آنها را قابل رمزگشایی و مطابقت با مفاهیم قابل درک برای انسان می‌دانند.

به نظر می‌رسد تیم OpenAI هنوز به حوزه‌های نقشه‌سازی یا ویرایش ذهنی وارد نشده است، امّا به چالش‌های ذاتی در درک یک مدل هوش مصنوعی بزرگ در زمان کار اشاره می‌کند. تیم انتروپیک در این باره می‌نویسد:

«در حال حاضر، عبور دادن فعال‌سازی‌های GPT-4 از طریق کدگذار خودکار پراکنده سبب عملکردی معادل یک مدلی می‌شود که با حدود ۱۰ برابر محاسبات کمتر آموزش دیده است. برای نقشه‌برداری کامل از مفاهیم در مدل‌های زبان بزرگ پیشرفته، امکان دارد نیاز به میلیاردها یا تریلیون‌ها ویژگی داشته باشیم، که حتی با تکنیک‌های مقیاس‌بندی بهبودیافتۀ ما نیز چالش‌برانگیز خواهد بود.»

بنابراین این مورد در هر دو شرکت، اکنون در روزهای ابتدایی است. امّا حداقل امروزه بشر دو راه برای باز کردن «جعبۀ سیاه» شبکۀ عصبی هوش مصنوعی و شروع به درک شیوۀ تفکر آن در اختیار دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

technoc-instagram