• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » اخبار هوش مصنوعی » توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

سهیلا محمدی نوشته شده توسط سهیلا محمدی
یکشنبه 17 تیر 1403 - 11:05 - به‌روزشده در دوشنبه 18 تیر 1403 - 10:34
در اخبار هوش مصنوعی
توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

توکن‌سازی یکی از دلایل اصلی است که هوش مصنوعی مولد امروزی با محدودیت‌ها و رفتارهای عجیب روبه‌رو می‌شود، به ویژه در زبان‌های غیر از انگلیسی که نیاز به پردازش پیچیده‌تری دارند.

به گزارش سرویس فناوری تک‌ناک، مدل‌های هوش مصنوعی تولیدکنندۀ متن، متن را به روشی متفاوت از انسان‌ها پردازش می‌کنند. درک محیط‌های داخلی مبتنی بر «توکن» آنها می‌تواند به توضیح برخی رفتارهای عجیب و محدودیت‌های سرسخت شان کمک کند.

اکثر مدل‌ها، از مدل‌های کوچک روی دستگاه مانند Gemma تا GPT-4o پیشرو در صنعت OpenAI، بر روی معماری شناخته‌شده به عنوان ترانسفورماتور ساخته شده‌اند. به دلیل روشی که ترانسفورماتورها ارتباط بین متن و سایر انواع داده را ایجاد می‌کنند، نمی‌توانند متن خام را دریافت یا خروجی دهند، حداقل بدون نیاز به محاسبات بسیار زیاد این کار امکان‌پذیر نیست.

بنابراین به دلایل عملی و فنی، مدل‌های ترانسفورماتور امروزی با متنی کار می‌کنند که به قطعات کوچک‌تر و قابل مدیریت‌تری به نام توکن تقسیم شده است. این فرآیند به عنوان «توکن‌سازی» شناخته می‌شود.

توکن‌ها می‌توانند کلماتی مانند «فوق‌العاده» باشند. یا می‌توانند هجاهایی مانند «فوق»، «الع» و «اده» باشند. بسته به توکن‌ساز (مدل انجام‌دهنده توکن‌سازی)، حتی ممکن است کاراکترهای منفرد در کلمات (برای مثال، «ف»، «و»، «ق»، «ا»، «ل»، «ع»، «ا»، «د»، «ه») باشند.

با استفاده از این روش، ترانسفورماتورها می‌توانند قبل از رسیدن به حد بالایی که به عنوان پنجرۀ زمینه شناخته می‌شود، اطلاعات بیشتری (از نظر معنایی) دریافت کنند. همچنین توکن‌سازی می‌تواند سوگیری‌هایی را معرفی نماید.

برخی از توکن‌ها فاصله‌های عجیبی دارند که می‌توانند یک ترانسفورماتور را از مسیر خارج کنند. بسته به اینکه چگونه از یک مدل سؤال پرسیده شود، نتایج ممکن است کاملاً متفاوت باشند، چرا که مدل (مانند یک انسان) درک نمی‌کند که معنای آنها یکسان است.

همچنین توکن‌سازها با حروف بزرگ و کوچک رفتار متفاوتی دارند. “Hello” لزوما برای یک مدل با “HELLO” یکسان نیست. “hello” معمولاً یک توکن است (بسته به توکن‌ساز)، در حالی که “HELLO” می‌تواند به انداز سه توکن باشد (“HE,” “El”، و “O”). به همین دلیل است که بسیاری از ترانسفورماتورها در آزمون حروف بزرگ شکست می‌خورند.

شریدان فوخت، دانشجوی دکترای در حال تحصیل در زمینۀ تفسیر مدل‌های زبان بزرگ هوش مصنوعی در دانشگاه نورتیسترن، به TechCrunch گفت: «رسیدن به این سؤال که دقیقاً یک «کلمه» برای یک مدل زبان باید چه باشد، کمی دشوار است و حتی اگر ما بتوانیم کارشناسان انسانی را برای توافق در مورد یک واژگان توکن کامل متقاعد کنیم، مدل‌ها احتمال دارد همچنان «تکه تکه کردن» موارد را حتی بیشتر مفید بدانند. حدس من این است که به دلیل این نوع ابهام، گزنیه‌ای به عنوان یک توکن‌ساز کامل وجود ندارد.»

این «ابهام» در زبان‌هایی غیر از انگلیسی مشکلات بیشتری ایجاد می‌کند.

بسیاری از روش‌های توکن‌سازی فرض می‌کنند که فاصله در یک جمله نشان‌دهندۀ کلمۀ جدید است. به این دلیل که آنها با در نظر گرفتن زبان انگلیسی طراحی شده‌اند. امّا همۀ زبان‌ها از فاصله برای جدا کردن کلمات استفاده نمی‌کنند. زبان‌های چینی، ژاپنی، کره‌ای و تایلندی اینطور نیستند.

یک مطالعه در سال ۲۰۲۳ توسط دانشگاه آکسفورد نشان داد که به دلیل تفاوت در شیوۀ توکن‌سازی زبان‌های غیر انگلیسی، یک ترانسفورماتور ممکن است برای تکمیل یک کار به زبانی غیر انگلیسی، دو برابر زمان صرف کند تا زمانی که همان کار به زبان انگلیسی باشد. همین مطالعه – و مطالعۀ دیگری – نشان داد که کاربران زبان‌های با «بازده توکن» کمتر، به احتمال زیاد عملکرد ضعیف‌تری از مدل را مشاهده می‌کنند و با وجود اینکه بسیاری از فروشندگان هوش مصنوعی هزینه را بر اساس تعداد توکن محاسبه می‌کنند، هزینۀ بیشتری برای استفاده می‌پردازند.

توکن‌سازها اغلب با هر کاراکتر در سیستم‌های نوشتاری تصویری (سیستم‌هایی که در آنها نمادهای چاپی بدون ارتباط با تلفظ، کلمات را نشان می‌دهند، مانند چینی)، به عنوان یک توکن مجزا رفتار می‌کنند که باعث تعداد بالای توکن می‌شود. به طور مشابه، توکن‌سازهایی که زبان‌های الحاقی (زبان‌هایی که کلمات از عناصر کوچک معنادار کلمه به نام مورفم ساخته شده‌اند، مانند ترکی) را پردازش می‌کنند، تمایل دارند هر مورفم را به یک توکن تبدیل کنند و در نتیجه تعداد کل توکن‌ها را افزایش دهند. (کلمه معادل «سلام» در تایلندی، «สวัสดี»، شش توکن است.)

در سال ۲۰۲۳، یِنی جون، پژوهشگر هوش مصنوعی در گوگل دیپ‌مایند، تحلیلی را انجام داد که توکن‌سازی زبان‌های مختلف و تأثیرات بعدی آن را مقایسه می‌کرد. جون با استفاده از مجموعه‌ای از متون موازی که به ۵۲ زبان ترجمه شده بود، نشان داد که برخی از زبان‌ها برای انتقال همان معنا به انگلیسی به ۱۰ برابر توکن بیشتر نیاز دارند.

فراتر از نابرابری‌های زبانی، توکن‌سازی ممکن است توضیح دهد که چرا مدل‌های امروزی در ریاضیات ضعیف هستند.

به ندرت ارقام به طور مداوم توکن‌سازی می‌شوند. از آنجایی که آنها واقعاً نمی‌دانند اعداد چیست، توکن‌سازها ممکن است «۳۸۰» را به عنوان یک توکن در نظر بگیرند، اما «۳۸۱» را به صورت یک جفت («۳۸» و «۱») نمایش دهند، در نهایت به طور مؤثر روابط بین ارقام را از بین می‌برند و باعث سردرگمی مدل در معادلات و فرمول‌ها می‌شود. نتیجه این است که مدل‌های ترانسفورماتور دچار سردرگمی می‌شوند. یک مقالۀ اخیر نشان داد که مدل‌ها در درک الگوهای عددی تکراری و متن، به ویژه داده‌های زمانی، با مشکل مواجه هستند. (نگاه کنید به: GPT-4 فکر می‌کند ۷۷۳۵ از ۷۹۲۶ بزرگ‌تر است.)

این همچنین دلیلی است که مدل‌ها در حل مشکلات جدول حروف معکوس (anagram) یا وارونه کردن کلمات عالی نیستند.

بنابراین، توکن‌سازی به طور واضح برای هوش مصنوعی تولیدکنندۀ متن چالش‌هایی را ایجاد می‌کند. آیا می‌توان آنها را حل کرد؟

شاید!

فِوخت به مدل‌های فضای حالت سطح بایتی (byte-level) مانند MambaByte اشاره می‌کند که می‌توانند بدون هیچ‌گونه افت عملکردی، داده‌های بسیار بیشتری نسبت به ترانسفورماتورها را جذب کنند، چرا که به طور کلی توکن‌سازی را کنار می‌گذارند. MambaByte به صورت مستقیم با بایت‌های خام به عنوان نمایندۀ متن و سایر داده‌ها کار می‌کند، در وظایف تحلیل زبان با برخی از مدل‌های ترانسفورماتور رقابت دارد و در عین حال با «نویز»هایی مانند کلمات با حروف جابه‌جا، فاصله و حروف بزرگ بهتر برخورد می‌کند.

با وجود این، مدل‌هایی مانند MambaByte در مراحل اولیۀ تحقیق هستند.

فِوخت گفت: «به احتمال زیاد بهتر است که به مدل‌ها اجازه دهیم بدون اعمال توکن‌سازی به طور مستقیم به کاراکترها نگاه کنند، امّا در حال حاضر این کار از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدل‌های ترانسفورماتور، محاسبات با طول دنباله به طور تصاعدی افزایش می‌یابد، بنابراین ما واقعاً می‌خواهیم از بازنمایی‌های کوتاه متن استفاده کنیم.»

به نظر می‌رسد بدون نوآوری در زمینه توکن‌سازی، معماری‌های جدید، مدل کلید حل این مشکل خواهند بود.

سهیلا محمدی

سهیلا محمدی

دانش‌آموخته مدیریت، مترجم و نویسنده حوزه تکنولوژی

مطالب مرتبط

کلاژ تصویری از سم آلتمن، ایلان ماسک و یک مدیر تکنولوژی دیگر در مقابل یک پس‌زمینه سبز شطرنجی.
اخبار هوش مصنوعی

هشدار پزشکان: هوش مصنوعی رابطه‌ای سلامت روان کاربران را به خطر می‌اندازد

نوشته شده توسط امیرحسین یونس
3 دی 1404
هوش مصنوعی سیال فضا–زمین؛ پاسخ تازه به چالش اتصال جهانی در 6G
اخبار هوش مصنوعی

هوش مصنوعی سیال فضا–زمین؛ پاسخ تازه به چالش اتصال جهانی در 6G

نوشته شده توسط نرگس چالوک
3 دی 1404
دیتاسنتر ژاپن در کنار بزرگ‌ترین نیروگاه هسته‌ای کشور قرار می‌ گیرد
اخبار هوش مصنوعی

دیتاسنتر ژاپن در کنار بزرگ‌ترین نیروگاه هسته‌ای کشور قرار می‌ گیرد

نوشته شده توسط مانی
3 دی 1404
بنر تبلیغاتی YouTube Playables با نمایش نمونه بازی‌های رنگارنگ دوبعدی و سه‌بعدی، تاکید بر ساخت بازی بدون نیاز به کدنویسی
اخبار هوش مصنوعی

خالقان یوتیوب حالا می‌توانند در این پلتفرم بازی بسازند

نوشته شده توسط تارخ ترهنده
2 دی 1404
آیا هوش انسان واقعاً عمومی است؟ اختلاف نظر دو چهره بزرگ هوش مصنوعی
اخبار هوش مصنوعی

آیا هوش انسان واقعاً عمومی است؟ اختلاف نظر دو چهره بزرگ هوش مصنوعی

نوشته شده توسط نرگس چالوک
2 دی 1404
خبر بعدی
هایلایت کردن محدود مطالب درک مطلب را تقویت می کند

هایلایت کلمات در مطالعه درک مطلب را تقویت می کند

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

ابرخودروی روباز Owl Roadster با شتاب ۱.۷۲ ثانیه‌ای رکورد زد

ابرخودروی روباز Owl Roadster با شتاب ۱.۷۲ ثانیه‌ای رکورد زد + تصویر

8 آذر 1404
نمایشگر یک گوشی تاشو (Foldable) که فید ویدیوهای گوگل یا یوتیوب را با تصاویر بندانگشتی نشان می‌دهد.

گوگل دیسکاور هوشمندتر می‌شود: احتمال اضافه‌شدن قابلیت شخصی‌سازی فید با چت‌بات AI

19 آذر 1404

داغ‌ترین‌های روز

سامانه پدافند هوایی S-500 روسیه روی خودروی پرتابگر

پدافند هوایی S-500 روسیه رسما آغاز به کار کرد

29 آذر 1404
نقد و بررسی ASUS ROG Strix SCAR 18: قدرتمندترین لپ‌تاپ گیمینگ ۲۰۲۵؟

نقد و بررسی ASUS ROG Strix SCAR 18؛ قدرتمندترین لپ‌تاپ گیمینگ ۲۰۲۵

30 آذر 1404 - به‌روزشده در 1 دی 1404
نمای نزدیک از ساعت هوشمند Huawei Watch نسخه دهمین سالگرد با بدنه فلزی، تاج چرخان و صفحه نمایش دایره‌ای حاوی ویجت‌ های سلامت و زمان، تمرکز بر طراحی پریمیوم و رابط کاربری پیشرفته

هواوی نسخه دهمین سالگرد هواوی واچ را هم‌زمان با نوا ۱۵ معرفی می‌کند

26 آذر 1404
گلکسی A57 و A37؛ میان‌رده‌هایی که در قامت یک پرچم‌دار ظاهر می‌ شوند

گلکسی A57 و A37؛ میان‌رده‌هایی که در قامت یک پرچم‌دار ظاهر می‌ شوند

2 دی 1404
پرهزینه‌ترین فیلم‌های تاریخ سینما؛ گران‌ترین پروژه‌های هالیوود چگونه ساخته شدند؟

پرهزینه‌ترین فیلم‌های تاریخ سینما را بشناسید

30 آذر 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

سایه دو دست در حال استفاده از گوشی‌های هوشمند در مقابل لوگوی بزرگ واتس‌اپ.

ایتالیا دستور تعلیق سیاست محدودکننده چت‌بات‌های هوش مصنوعی رقیب در واتساپ را صادر کرد

3 دی 1404
گوشی هوشمندی که آیکون رنگی جیمیل را روی پس‌زمینه‌ای با الگوی تکرار شونده حرف M نشان می‌دهد.

گوگل امکان تغییر آدرس ایمیل @gmail.com را پس از سال‌ها محدودیت فعال می‌کند

3 دی 1404
دست کاربر در حال نگه داشتن یک گوشی سامسونگ گلکسی با چیدمان دوربین سه‌گانه عمودی.

سامسونگ گزینه عکاسی ۲۴ مگاپیکسلی را به گوشی‌های گلکسی اضافه می‌کند

3 دی 1404
مانیتور گیمینگ ایسوس مدل ROG Swift OLED PG32UCDM از نمای جلو و پشت با نورپردازی RGB.

انتشار جزییات جدید از مانیتور پرچمدار ROG Swift ایسوس

3 دی 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir