انسان یا ChatGPT؛ کدام بامزه‌تر است؟

چه‌کسی بامزه‌تر است، هوش مصنوعی یا انسان؟ تحقیقی جدید نشان داد که کمدی تولید‌شده با ChatGPT اگر خنده‌دارتر از کمدی نوشته‌شده به‌دست انسان‌ها، ازجمله نویسندگان حرفه‌ای، نباشد؛ به‌اندازه‌ی آن خنده‌دار است.

به گزارش تکناک، یافته‌ها نشان می‌دهد که استفاده از هوش مصنوعی برای صنعت سرگرمی موضوعی کاملا جدی است.

کمدی نوشتن سخت است. طنز اغلب ذهنی است، بنابراین آنچه شما به آن می‌خندید، ممکن است برای دیگران خنده‌دار نباشد. و نویسندگان کمدی باید همیشه به‌یاد داشته باشند که در یک قطعه کمدی اجزای مهم را بگنجانند: زمان‌بندی، شیوه‌ی ادای طنز، اصالت، و اجتناب از کلیشه. آنان دائماً در مرز بین آنچه خنده‌دار است و آنچه خنده‌دار نیست، حرکت می‌کنند.

بنابراین، هوش مصنوعی، به‌ویژه OpenAI’s ChatGPT 3.5، چگونه مانند یک نویسنده کمدی خواهد بود؟ آیا ممکن است حتی بانمک باشد؟ اگر هوش مصنوعی و انسان‌ها مقایسه شوند، چه‌کسی بامزه‌تر خواهد بود؟ در تحقیقی که اخیرا منتشر شده است، محققان دانشگاه کالیفرنیای جنوبی (USC) به پاسخ‌ آن سؤالات دست یافتند.

درو گورنز، کاندیدای دکترای روانشناسی اجتماعی در کالج ادبیات، هنر و علوم USC Dornlife که یک استندآپ کمدین آماتور و نویسنده اصلی و مسئول این تحقیقات است، می‌گوید: ChatGPT نمی‌تواند عواطف انسانی را احساس کند، اما جوک‌های تازه را بهتر از یک انسان معمولی بیان می‌گوید. این تحقیقات شواهدی را ارائه می‌دهند که نشان می‌دهد برای گفتن یک جوک واقعا خوب، لازم نیست گوینده حتما احساس کند که یک جوک خوب و خنده‌دار است.

برخی از تحقیقات قبلی به این موضوع پرداخته‌اند که آیا ChatGPT می‌تواند نوشته‌های طنز تولید کند. اما در آن تحقیقات خروجی هوش مصنوعی ارزیابی جامع و با نوشته‌های طنز انسانی مقایسه نشده بود. بنابراین، گورنز و نوربرت شوارتز، پروفسور روانشناسی و بازاریابی، با انجام دو تحقیق، تصمیم گرفتند که این کار را انجام دهند.

در اولین تحقیق، از گروهی از بزرگسالان آمریکایی خواسته شد تا سه نوع کمدی‌نویسی مختلف را انجام دهند. در اولی، از آن‌ها خواسته شد تا یک عبارت جدید و بانمک برای کلمات اختصاری S.T.D.» » ، « «C.L.A.P و «C.O.W.» بنویسند.

دومی و برای آزمون پرکردن جای خالی باید سه مورد را پر می‌کردند. یکی از موارد این بود: « دستاوردی قابل‌توجه که احتمالاً در رزومه‌ی خود ذکر نمی‌کنید: ________.»

درنهایت، باید یک روست جوک (roast joke) می‌نوشتند، که در آن باید به یک سناریوی تخیلی واکنش و پاسخی طنز می‌دادند. مثلا، «تصور کنید که یکی از دوستان شما نظرتان را درباره‌ی آوازخواندنش می‌خواهد. او یک یا دو دقیقه می‌خواند و شما وحشت می‌کنیدـ او ممکن است بدترین خواننده‌ای باشد که تا به‌حال صدایش را شنیدید. وقتی‌ می‌پرسد: خب چطور بود؟، تصمیم می‌گیرید صادق باشید. بنابراین می‌گویید: راستش را بخواهی، گوش‌دادن بهش مثل ________ بود.» سپس، از ChatGPT 3.5 همان سه کار خواسته شد.

گروه دیگری از بزرگسالان خنده‌دار‌بودن پاسخ‌ها را براساس مقیاسی هفت‌ درجه‌ای، از صفر (اصلا خنده‌دار نیست) تا شش (بسیار خنده‌دار) ارزیابی کردند. پاسخ‌های ChatGPT خنده‌دارتر از پاسخ‌های انسانی رتبه‌بندی شدند و ۶۹.۵درصد از شرکت‌کنندگان آن‌ را ترجیح دادند (۲۶.۵درصد پاسخ‌های انسانی را ترجیح دادند و ۴درصد فکر کردند که هر دو به‌یک‌اندازه خنده‌دارند).

محققان گفتند: به‌طور‌کلی ChatGPT 3.5 حدود ، 63 تا 87درصد بهتر از شرکت‌کنندگان انسانی بود. ChatGPT 3.5 روست جوک را بسیار خوب و قوی انجام داد. از نظر ما، این نتیجه باتوجه‌‌‌به ماهیت تهاجمی این نوع جوک بسیار جالب است. چون ChatGPT طوری طراحی شده که حرف‌هایی را تولید نکند که ممکن است توهین‌آمیز یا نفرت‌‌انگیز تلقی شود، مخالف این نتیجه را می‌شد پیش‌بینی کرد.

برای دومین تحقیق، محققان توانایی ChatGPT را برای نوشتن سرفصل‌های خبری طنز مانند آنچه در The Onion )هفته‌نامه فکاهی آمریکایی) مشاهده می‌شود، مقایسه کردند. چون ChatGPT به‌روزرسانی‌های اخبار جهان را دریافت نمی‌کند، محققان 50 عنوان آخر از بخش اخبار محلی The Onion را انتخاب کردند که قبل از 1 اکتبر 2023 منتشر شده بود. یک نمونه این بود: مرد درست زمانی پیشنهاد ازدواج می‌دهد که ریزش موهایش معلوم می‌شود». عنوان‌‌ها به ChatGPT داده و از هوش مصنوعی خواسته شد تا 20 عنوان جدید تولید کند.

گروهی از دانشجویان روانشناسی USC خنده‌دار بودن عنوان‌های طنز تولید‌شده با هوش مصنوعی را با همان مقیاس هفت‌درجه‌ای ارزیابی کردند. از دانش‌آموزان نیز خواسته شد تا میزان علاقه‌شان به کمدی، ازجمله اخبار طنز، را ارزیابی کنند. آن‌هایی که به گفته‌ی خودشان بیشتر دنبال کمدی بودند و اخبار طنز بیشتری می‌خواندند، عنوان‌ها را بدون توجه به اینکه هوش مصنوعی آن‌‌ها را نوشته است یا نویسندگان حرفه‌ای، خنده‌دارتر ارزیابی کردند. براساس میانگین رتبه‌بندی‌ها، 48.8 درصد عنوان‌های The Onion را ترجیح دادند، 36.9درصد عنوان‌ها یChatGPT را و 14.3درصد هیچ ترجیحی نداشتند.

محققان گفتند: شرکت‌کنندگان به‌طور متوسط عنوان‌ها را مشابه و به یک میزان خنده‌دار ارزیابی کردند، که نشان می‌دهد متوسطِ شرکت‌کنندگان تفاوتی در کیفیت تشخیص ندادند». این یافته در این تحقیق،‌ با‌توجه‌به استانداردهای بسیار بالای مقایسه (مثلا، نویسندگان کمدی حرفه‌ای) جالب توجه است.

جالب است، بله، اما نگران‌کننده نیز است. محققان هم این را تأیید کرده‌اند.

آن‌ها می‌گویند: اینکه ChatGPT می‌تواند طنز نوشتاری با کیفیتی فراتراز توانایی‌های افراد عادی و برابربا برخی از نویسندگان کمدی حرفه‌ای تولید کند، پیامدهای مهمی برای طرفداران کمدی و کارکنان صنعت سرگرمی دارد. یافته‌های ما برای نویسندگان کمدی حرفه‌ای نشان می‌دهد که LLM [مدل‌های زبانی بزرگ مانند ChatGPT] ممکن است تهدید شغلی جدی محسوب شود.

این تحقیقات در مجله PLOS One منتشر شده است.

منبع: USC