توکنسازی یکی از دلایل اصلی است که هوش مصنوعی مولد امروزی با محدودیتها و رفتارهای عجیب روبهرو میشود، به ویژه در زبانهای غیر از انگلیسی که نیاز به پردازش پیچیدهتری دارند.
به گزارش سرویس فناوری تکناک، مدلهای هوش مصنوعی تولیدکنندۀ متن، متن را به روشی متفاوت از انسانها پردازش میکنند. درک محیطهای داخلی مبتنی بر «توکن» آنها میتواند به توضیح برخی رفتارهای عجیب و محدودیتهای سرسخت شان کمک کند.
اکثر مدلها، از مدلهای کوچک روی دستگاه مانند Gemma تا GPT-4o پیشرو در صنعت OpenAI، بر روی معماری شناختهشده به عنوان ترانسفورماتور ساخته شدهاند. به دلیل روشی که ترانسفورماتورها ارتباط بین متن و سایر انواع داده را ایجاد میکنند، نمیتوانند متن خام را دریافت یا خروجی دهند، حداقل بدون نیاز به محاسبات بسیار زیاد این کار امکانپذیر نیست.
بنابراین به دلایل عملی و فنی، مدلهای ترانسفورماتور امروزی با متنی کار میکنند که به قطعات کوچکتر و قابل مدیریتتری به نام توکن تقسیم شده است. این فرآیند به عنوان «توکنسازی» شناخته میشود.
توکنها میتوانند کلماتی مانند «فوقالعاده» باشند. یا میتوانند هجاهایی مانند «فوق»، «الع» و «اده» باشند. بسته به توکنساز (مدل انجامدهنده توکنسازی)، حتی ممکن است کاراکترهای منفرد در کلمات (برای مثال، «ف»، «و»، «ق»، «ا»، «ل»، «ع»، «ا»، «د»، «ه») باشند.
با استفاده از این روش، ترانسفورماتورها میتوانند قبل از رسیدن به حد بالایی که به عنوان پنجرۀ زمینه شناخته میشود، اطلاعات بیشتری (از نظر معنایی) دریافت کنند. همچنین توکنسازی میتواند سوگیریهایی را معرفی نماید.
برخی از توکنها فاصلههای عجیبی دارند که میتوانند یک ترانسفورماتور را از مسیر خارج کنند. بسته به اینکه چگونه از یک مدل سؤال پرسیده شود، نتایج ممکن است کاملاً متفاوت باشند، چرا که مدل (مانند یک انسان) درک نمیکند که معنای آنها یکسان است.
همچنین توکنسازها با حروف بزرگ و کوچک رفتار متفاوتی دارند. “Hello” لزوما برای یک مدل با “HELLO” یکسان نیست. “hello” معمولاً یک توکن است (بسته به توکنساز)، در حالی که “HELLO” میتواند به انداز سه توکن باشد (“HE,” “El”، و “O”). به همین دلیل است که بسیاری از ترانسفورماتورها در آزمون حروف بزرگ شکست میخورند.
شریدان فوخت، دانشجوی دکترای در حال تحصیل در زمینۀ تفسیر مدلهای زبان بزرگ هوش مصنوعی در دانشگاه نورتیسترن، به TechCrunch گفت: «رسیدن به این سؤال که دقیقاً یک «کلمه» برای یک مدل زبان باید چه باشد، کمی دشوار است و حتی اگر ما بتوانیم کارشناسان انسانی را برای توافق در مورد یک واژگان توکن کامل متقاعد کنیم، مدلها احتمال دارد همچنان «تکه تکه کردن» موارد را حتی بیشتر مفید بدانند. حدس من این است که به دلیل این نوع ابهام، گزنیهای به عنوان یک توکنساز کامل وجود ندارد.»
این «ابهام» در زبانهایی غیر از انگلیسی مشکلات بیشتری ایجاد میکند.
بسیاری از روشهای توکنسازی فرض میکنند که فاصله در یک جمله نشاندهندۀ کلمۀ جدید است. به این دلیل که آنها با در نظر گرفتن زبان انگلیسی طراحی شدهاند. امّا همۀ زبانها از فاصله برای جدا کردن کلمات استفاده نمیکنند. زبانهای چینی، ژاپنی، کرهای و تایلندی اینطور نیستند.
یک مطالعه در سال ۲۰۲۳ توسط دانشگاه آکسفورد نشان داد که به دلیل تفاوت در شیوۀ توکنسازی زبانهای غیر انگلیسی، یک ترانسفورماتور ممکن است برای تکمیل یک کار به زبانی غیر انگلیسی، دو برابر زمان صرف کند تا زمانی که همان کار به زبان انگلیسی باشد. همین مطالعه – و مطالعۀ دیگری – نشان داد که کاربران زبانهای با «بازده توکن» کمتر، به احتمال زیاد عملکرد ضعیفتری از مدل را مشاهده میکنند و با وجود اینکه بسیاری از فروشندگان هوش مصنوعی هزینه را بر اساس تعداد توکن محاسبه میکنند، هزینۀ بیشتری برای استفاده میپردازند.
توکنسازها اغلب با هر کاراکتر در سیستمهای نوشتاری تصویری (سیستمهایی که در آنها نمادهای چاپی بدون ارتباط با تلفظ، کلمات را نشان میدهند، مانند چینی)، به عنوان یک توکن مجزا رفتار میکنند که باعث تعداد بالای توکن میشود. به طور مشابه، توکنسازهایی که زبانهای الحاقی (زبانهایی که کلمات از عناصر کوچک معنادار کلمه به نام مورفم ساخته شدهاند، مانند ترکی) را پردازش میکنند، تمایل دارند هر مورفم را به یک توکن تبدیل کنند و در نتیجه تعداد کل توکنها را افزایش دهند. (کلمه معادل «سلام» در تایلندی، «สวัสดี»، شش توکن است.)
در سال ۲۰۲۳، یِنی جون، پژوهشگر هوش مصنوعی در گوگل دیپمایند، تحلیلی را انجام داد که توکنسازی زبانهای مختلف و تأثیرات بعدی آن را مقایسه میکرد. جون با استفاده از مجموعهای از متون موازی که به ۵۲ زبان ترجمه شده بود، نشان داد که برخی از زبانها برای انتقال همان معنا به انگلیسی به ۱۰ برابر توکن بیشتر نیاز دارند.
فراتر از نابرابریهای زبانی، توکنسازی ممکن است توضیح دهد که چرا مدلهای امروزی در ریاضیات ضعیف هستند.
به ندرت ارقام به طور مداوم توکنسازی میشوند. از آنجایی که آنها واقعاً نمیدانند اعداد چیست، توکنسازها ممکن است «۳۸۰» را به عنوان یک توکن در نظر بگیرند، اما «۳۸۱» را به صورت یک جفت («۳۸» و «۱») نمایش دهند، در نهایت به طور مؤثر روابط بین ارقام را از بین میبرند و باعث سردرگمی مدل در معادلات و فرمولها میشود. نتیجه این است که مدلهای ترانسفورماتور دچار سردرگمی میشوند. یک مقالۀ اخیر نشان داد که مدلها در درک الگوهای عددی تکراری و متن، به ویژه دادههای زمانی، با مشکل مواجه هستند. (نگاه کنید به: GPT-4 فکر میکند ۷۷۳۵ از ۷۹۲۶ بزرگتر است.)
این همچنین دلیلی است که مدلها در حل مشکلات جدول حروف معکوس (anagram) یا وارونه کردن کلمات عالی نیستند.
بنابراین، توکنسازی به طور واضح برای هوش مصنوعی تولیدکنندۀ متن چالشهایی را ایجاد میکند. آیا میتوان آنها را حل کرد؟
شاید!
فِوخت به مدلهای فضای حالت سطح بایتی (byte-level) مانند MambaByte اشاره میکند که میتوانند بدون هیچگونه افت عملکردی، دادههای بسیار بیشتری نسبت به ترانسفورماتورها را جذب کنند، چرا که به طور کلی توکنسازی را کنار میگذارند. MambaByte به صورت مستقیم با بایتهای خام به عنوان نمایندۀ متن و سایر دادهها کار میکند، در وظایف تحلیل زبان با برخی از مدلهای ترانسفورماتور رقابت دارد و در عین حال با «نویز»هایی مانند کلمات با حروف جابهجا، فاصله و حروف بزرگ بهتر برخورد میکند.
با وجود این، مدلهایی مانند MambaByte در مراحل اولیۀ تحقیق هستند.
فِوخت گفت: «به احتمال زیاد بهتر است که به مدلها اجازه دهیم بدون اعمال توکنسازی به طور مستقیم به کاراکترها نگاه کنند، امّا در حال حاضر این کار از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدلهای ترانسفورماتور، محاسبات با طول دنباله به طور تصاعدی افزایش مییابد، بنابراین ما واقعاً میخواهیم از بازنماییهای کوتاه متن استفاده کنیم.»
به نظر میرسد بدون نوآوری در زمینه توکنسازی، معماریهای جدید، مدل کلید حل این مشکل خواهند بود.