طراحی چارچوب جدید برای ارزیابی هوش مصنوعی

کریس سعد، رئیس سابق توسعه محصول اوبر، چارچوب جدیدی را برای محک زدن هوش مصنوعی (AI) که در حال حاضر در حال دگرگونی است طراحی کرده است.

به گزارش تکناک، این چارچوب، بر اساس نظریه ای مبنی بر اینکه هوش یک ساختار یکپارچه نیست و اخیراً در Tech Crunch به اشتراک گذاشته شده بنا نهاده شده است.

پس از اینکه OpenAI چت ربات هوش مصنوعی خود، (ChatGPT) را عمومی کرد، هوش مصنوعی موضوع پرطرفدار در چند ماه گذشته بوده است. کاربران چت بات را در بسیاری از زمینه‌های مختلف، از نوشتن شعر گرفته تا کد نویسی و حتی فروش، آزمایش کرده‌اند، و این ربات در همه موارد موفق بوده است.

اگر این ربات از آزمایش تورینگ که در دهه 1950 طراحی شد و هوش مصنوعی را برای توانایی آن در ارائه پاسخ های شبیه به انسان ارزیابی می کرد، با موفقیت عبور نمی کرد، جای تعجب داشت. نه فقط آزمایش تورینگ، چت ربات‌هایی مانند LaMDA گوگل حتی آزمایش‌کنندگان خود را متقاعد کرده‌اند که واقعاً حساس هستند.

چارچوب طبقه بندی هوش مصنوعی

سعد استدلال می کند که آزمون تورینگ بر اساس قبولی و شکست ساده عمل می کند و تنها بر یک جنبه از هوش انسان که توانایی زبانی است تمرکز دارد. محققان از دهه 1960 زمانی که چت باتی به نام Eliza را طراحی کردند که شبیه به یک روانشناس بود، سعی در شکستن این آزمون یک طرفه داشتند. با توجه به رایج شدن چت ربات‌های مکالمه، زمان آن فرا رسیده است که معیار جدیدی تعیین کنیم.

در سال 1983، هاوارد گاردنر، روانشناس، استدلال کرد که هوش مجموعه ای از توانایی های مختلف است که می تواند به طرق مختلف ظاهر شود و سپس آنها را به هشت نوع طبقه بندی کرد.

سعد از نظریه هوش های چندگانه برای چارچوب طبقه بندی هوش مصنوعی وام گرفته است که ابزارهای هوش مصنوعی را در ابعاد مختلف ارزیابی می کند، به عنوان مثال، هوش زبانی، منطقی-ریاضی، موسیقیایی، فضایی، بدنی- حرکتی، میان فردی و درون فردی.

برای هر بعد، این چارچوب مقیاسی از 1 تا 5 را ارائه می‌کند که 1 نشان‌دهنده قابلیت‌های نوزاد مانند است در حالی که 5 نشان‌دهنده خود عاملیتی یا توانایی فراتر از توانایی انسان است. چیزی که می‌توان آن را به عنوان هوش فوق‌العاده نامید.

برای بررسی نحوه استفاده از این روش محک زدن هوش مصنوعی، سعد از قابلیت های ChatGPT استفاده کرد که در اینجا به تفصیل آمده است. ChatGPT زمانی که صحبت از زبان شناسی منطقی-ریاضی و کلامی به میان می آید، توانایی سطح کارشناسی (سطح 3) را نشان می دهد. با این حال، در موارد دیگر، که شامل توانایی های بصری-فضایی یا موسیقی-ریتمیک است، بسیار شبیه به یک نوزاد است.

محصول دیگر OpenAI، DALL-E 2، که می‌تواند تنها با استفاده از اعلان‌های متنی، هنر تولید کند، در بخش بصری-فضایی نیز در سطح 3 قرار دارد، اما در مقایسه با هوش انسانی هیچ قابلیت دیگری برای افتخار کردن ندارد.

در حالی که برخی ممکن است استدلال کنند که این مورد نقطه عطفی است که هوش مصنوعی شروع به ارائه خروجی بهتر کرده است، ارزیابی هوش مصنوعی در ابعاد مختلف ضروری به نظر می رسد.

با توجه به اینکه شرکت‌هایی مانند تسلا قصد دارند در آینده نزدیک ربات‌های انسان‌نما را در خانه‌ها مستقر کنند، خوب است بدانیم که واقعاً چه سطحی از هوش مصنوعی را به خانه‌های خود وارد می‌کنیم و چه توانایی‌هایی دارد.