محققان در حال طراحی رباتهای انساننمای مبتنی بر هوش مصنوعی مستقل هستند که قادر به تفکر و تصمیمگیری مانند انسانها باشند.
به گزارش تکناک، با استفاده از روشهای یادگیری تقویتی (RL)، این رباتها میتوانند از محیط یاد بگیرند و به مرور زمان عملکرد خود را بهبود بخشند. این پیشرفتها میتواند باعث ایجاد رباتهایی شود که به طور مستقل مشکلات را حل میکنند و با محیطهای پیچیده سازگار میشوند.
هوش مصنوعی همواره با مشکل بزرگی در زمینه حقیقت و درستی مواجه است و به نظر میرسد که تفکر انسانی بخش بزرگی از این مشکل باشد. نسل جدیدی از هوش مصنوعی اکنون شروع به اتخاذ رویکردی تجربیتر کرده است که میتواند یادگیری ماشینی را بسیار فراتر از انسانها ببرد.
AlphaGo از شرکت Deepmind یک پیشرفت اساسی در توسعه هوش مصنوعی بود، چرا که یکی از اولین هوش مصنوعیهای بازی به شمار میرود که هیچ دستورالعمل انسانی دریافت نکرد و هیچ قانونی را نخواند.
در مقابل، این هوش مصنوعی مستقل از تکنیکی به نام یادگیری تقویتی خودبازی برای ایجاد درک خود از بازی استفاده کرد.
آزمایش و خطای خالص در میلیونها، حتی میلیاردها بازی مجازی، که به طور تصادفی هر اهرمی که در دسترس بود را میکشید و سعی میکرد از نتایج یاد بگیرد، این هوش مصنوعی را تقویت کرد.
در مدت دو سال از شروع پروژه در سال ۲۰۱۴، AlphaGo در شطرنج قهرمان اروپایی Go را با نتیجه ۵-۰ شکست داد و تا سال ۲۰۱۷، بهترین بازیکن انسانی جهان از این هوش مصنوعی شکست خورد.
در این مرحله، Deepmind مدل مشابه AlphaZero را در دنیای شطرنج معرفی کرد، جایی که مدلهایی مانند Deep Blue، که بر اساس تفکر انسانی، دانش و مجموعه قوانین آموزش دیده بودند، از دهه ۹۰ میلادی استادان بزرگ شطرنج را شکست میدادند. AlphaZero در ۱۰۰ مسابقه با قهرمان فعلی هوش مصنوعی، Stockfish، بازی کرد و ۲۸ بار پیروز شد و بقیه را مساوی کرد.
فهرست مطالب
تفکر انسانی ترمز هوش مصنوعی را میکشد
Deepmind شروع به تسلط بر بازی شطرنج و بازیهای دیگر مانند: shoji، Dota 2، Starcraft II و بسیاری دیگر کرد و این کار را زمانی انجام داد که ایده تقلید از انسان را به عنوان بهترین راه برای دستیابی به نتیجه خوب کنار گذاشت.
این ذهنهای الکترونیکی که با محدودیتهای متفاوتی نسبت به ما مواجه بودند و استعدادهای متفاوتی داشتند، آزادی یافتند تا با مسائل به روش خود تعامل کنند، از نقاط قوت شناختی خود استفاده نمایند و درک خود را از آنچه کار میکند و چه چیزی کار نمیکند، از پایه بسازند.
AlphaZero شطرنج را مانند مگنوس کارلسن (بازیکن شطرنج نروژی) نمیداند. این هوش مصنوعی مستقل فقط تعداد زیادی شطرنج بازی کرده و درک خود را بر اساس منطق سرد و سخت برد و باختها ساخته است و این درک را به زبانی غیرانسانی و غیرقابل درک که در زمان پیشرفت خود ایجاد کرده، به دست آورده است.
به همین دلیل، این مدل بسیار بهتر از هر مدلی میباشد که توسط انسانها آموزش داده شده است و این یک قطعیت مطلق میباشد که هیچ انسانی و هیچ مدلی که بر اساس تفکر انسانی آموزش دیده باشد، دیگر هرگز در یک بازی شطرنج در برابر یک عامل یادگیری تقویتی پیشرفته شانسی نخواهد داشت.
بر اساس گفته افرادی که بهتر از هر کس دیگری در جهان حقیقت را میدانند، همین حالا آخرین و بهترین نسخه ChatGPT در حال تکامل است.
مدل جدید o1 شروع به انحراف از تفکر انسانی کرده است
ChatGPT و دیگر مدلهای بزرگ زبان (LLM) مانند آن هوش مصنوعیهای اولیه شطرنج، بر اساس تمام دانش انسانی که در دسترس بوده آموزش دیدهاند، که شامل تمام خروجیهای نوشته شده توسط انسان است.
تمام این بحثها درباره این است که آیا آنها هرگز به هوش مصنوعی عمومی دست خواهند یافت یا خیر.
اما LLMها در زبان تخصص دارند و در درست یا غلط بودن اطلاعات تخصصی ندارند. به همین دلیل است که آنها توهم میزنند و اطلاعات نادرست را در جملات زیبا بیان میکنند.
زبان مجموعهای از مناطق خاکستری عجیب است که به ندرت پاسخی 100 درصد درست یا غلط دارد. بنابراین LLMها بیشتر با استفاده از یادگیری تقویتی با بازخورد انسانی آموزش داده میشوند. یعنی انسانها انتخاب میکنند که کدام پاسخها به نوع پاسخی که میخواستند، نزدیکتر است. اما حقایق، امتحانات و کدنویسی مواردی هستند که شرایط موفقیت یا شکست واضحی دارند.
و اینجا است که مدل جدید o1 شروع به جدا شدن از تفکر انسانی کرده و شروع به استفاده از آن روش بسیار مؤثر AlphaGo از آزمون و خطای خالص در جستوجوی نتیجه درست کرده است.
گامهای ابتدایی o1 در یادگیری تقویتی
از بسیاری جهات، o1 مشابه پیشینیان خود میباشد، به جزء اینکه OpenAI مقداری زمان تفکر قبل از شروع به پاسخ دادن به یک درخواست در آن تعبیه کرده است. در طول این زمان تفکر، o1 یک زنجیره تفکر تولید میکند که در آن به بررسی و استدلال در مورد یک مشکل میپردازد.
اینجا است که رویکرد یادگیری تقویتی وارد میشود. o1، برخلاف مدلهای قبلی که بیشتر شبیه به پیشرفتهترین سیستمهای تکمیل خودکار جهان بودند، به این اهمیت میدهد که آیا درست یا غلط عمل میکند.
در بخشی از آموزش خود، این مدل آزادی داشت تا با رویکرد آزمون و خطای تصادفی به مشکلات نزدیک شود و در زنجیره تفکر خود استدلال کند.
این مدل همچنان فقط از مراحل استدلال تولید شده توسط انسانها استفاده میکرد، اما آزاد بود که آنها را به صورت تصادفی اعمال کند و نتیجهگیریهای خود را در مورد اینکه کدام مراحل، به چه ترتیبی، بیشتر احتمال دارد که به پاسخ درست برسد، انجام دهد.
از این نظر، این اولین مدل هوش مصنوعی زبان بزرگ است که شروع به ایجاد آن درک عجیب اما فوقالعاده مؤثر به سبک AlphaGo از فضاهای مسئله کرده است.
این هوش مصنوعی مستقل از تفکر انسان در حوزههایی که اکنون از قابلیتها و دانش سطح دکترا فراتر رفته است، با یافتن تصادفی پاسخهای درست در میلیونها تلاش خود تولید شده و با ایجاد نظریههای خود در مورد اینکه کدام مرحله استدلال مفید میباشد و کدام مفید نخواهد بود، با آزمون و خطا به این نقطه بسیار مهم رسیده است.
بنابراین در موضوعاتی که پاسخ درست و غلط واضحی دارند، اکنون این هوش بیگانه اولین گامها را از ما جلوتر برمیدارد. این هوش مصنوعی مستقل جدید مانند یک دونده است که با داشتن انرژی کافی، برای همیشه از ما انسانها شتاب خواهد گرفت.
اما o1 همچنان بر اساس زبان انسانی آموزش دیده است. این بسیار متفاوت از حقیقت میباشد و در واقع زبان یک نمایش خام و کموضوح از واقعیت است. اینطور بگوییم که شما میتوانید تمام روز یک بیسکویت را برای من توصیف کنید، اما من آن را نچشیدهام.
پس چه اتفاقی میافتد وقتی که توصیف حقیقت دنیای فیزیکی را متوقف کنید و به هوش مصنوعی اجازه دهید که بیسکویتها را بخورد؟ به زودی این موضوع را میفهمیم، چرا که هوش مصنوعیهایی که در بدنهای رباتیک تعبیه شدهاند، اکنون شروع به ساختن درک خود از شیوه کار دنیای فیزیکی از پایه کردهاند.
مسیر هوش مصنوعی مستقل به سوی حقیقت نهایی
آزاد از تفکرات خام انسانی نیوتن، انیشتین و هاوکینگ، هوشهای مصنوعی تجسم یافته رویکردی عجیب و غریب به سبک AlphaGo برای درک جهان خواهند داشت.
آنها به واقعیت دست خواهند زد و نتایج را مشاهده خواهند کرد و نظریههای خود را به زبانهای خودشان درباره آنچه اهمیت دارد، آنچه بیاهمیت است و چرا، ایجاد خواهند کرد.
آنها مانند انسانها یا حیوانات به واقعیت نزدیک نخواهند شد. آنها از روش علمی ما استفاده نخواهند کرد، یا مسائل را به رشتههایی مانند: فیزیک و شیمی تقسیم نخواهند کرد، یا همان نوع آزمایشهایی را که به انسانها کمک کرده است تا به مواد و نیروها و منابع انرژی اطراف خود تسلط یابند و بر جهان مسلط شوند، انجام نخواهند داد.
هوشهای مصنوعی تجسم یافته که آزادی یادگیری به این شکل را دارند، به طرز خندهداری عجیب خواهند بود. آنها عجیبترین کارهایی را که میتوانید تصور کنید انجام خواهند داد، به دلایلی که فقط خودشان میدانند و در انجام این کار، دانش جدیدی را ایجاد و کشف خواهند کرد که انسانها هرگز نمیتوانستند آن را کنار هم بگذارند.
آزاد از زبان و تفکر ما، هوشهای مصنوعی مستقل حتی متوجه نخواهند شد که وقتی از مرزهای دانش ما عبور میکنند و حقایقی درباره جهان و فناوریهای جدیدی را کشف میکنند که انسانها در یک میلیارد سال هم به آن نمیرسیدند.
البته این اتفاق در طول چند روز یا هفته نمیافتد، مانند بسیاری از تحولات که در دنیای مدلهای زبانی بزرگ (LLM) در حال رخ دادن است.
واقعیت بالاترین سیستم وضوحی است که میشناسیم و منبع نهایی، حقیقت میباشد.
بنابراین هوشهای مصنوعی تجسم یافته که سعی در یادگیری از واقعیت پایه دارند، در ابتدا سرعت وحشیانهای که پیشینیان مبتنی بر زبان آنها داشتند را نخواهند داشت. اما آنها به دلیل توانایی به اشتراک گذاشتن یادگیریهای خود در میان گروههای همکار در یادگیری گروهی، بسیار سریعتر تکامل خواهند یافت.
شرکتهایی مانند: تسلا، فیگور و Sanctuary AI به شدت در حال کار روی ساخت رباتهای انساننمایی هستند که به استانداردی برسند که از نظر تجاری مفید و از نظر هزینه با نیروی کار انسانی رقابت کنند. هنگامی که به این هدف برسند، قادر خواهند بود تعداد کافی ربات بسازند تا با استفاده از روش آزمون و خطا، درک فیزیکی جهان را از پایه و با سرعت و مقیاس بالا شروع کنند.
اگر چه این کارها ممکن است عواقبی هم داشته باشد. شاید روزی این رباتهای انساننما در زمانهای استراحت خود از کار، جهان را تسخیر کنند!
مدل o1 از OpenAI یک تغییر اساسی در توسعه هوش مصنوعی است و نگاهی گذرا به اینکه چگونه این ماشینهای بیگانه در نهایت در هر جنبهای از انسانها پیشی خواهند گرفت، میباشد.