• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » اخبار هوش مصنوعی » توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

سهیلا محمدی نوشته شده توسط سهیلا محمدی
یکشنبه 17 تیر 1403 - 11:05 - به‌روزشده در دوشنبه 18 تیر 1403 - 10:34
در اخبار هوش مصنوعی
توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

توکن‌سازی یکی از دلایل اصلی است که هوش مصنوعی مولد امروزی با محدودیت‌ها و رفتارهای عجیب روبه‌رو می‌شود، به ویژه در زبان‌های غیر از انگلیسی که نیاز به پردازش پیچیده‌تری دارند.

به گزارش سرویس فناوری تک‌ناک، مدل‌های هوش مصنوعی تولیدکنندۀ متن، متن را به روشی متفاوت از انسان‌ها پردازش می‌کنند. درک محیط‌های داخلی مبتنی بر «توکن» آنها می‌تواند به توضیح برخی رفتارهای عجیب و محدودیت‌های سرسخت شان کمک کند.

اکثر مدل‌ها، از مدل‌های کوچک روی دستگاه مانند Gemma تا GPT-4o پیشرو در صنعت OpenAI، بر روی معماری شناخته‌شده به عنوان ترانسفورماتور ساخته شده‌اند. به دلیل روشی که ترانسفورماتورها ارتباط بین متن و سایر انواع داده را ایجاد می‌کنند، نمی‌توانند متن خام را دریافت یا خروجی دهند، حداقل بدون نیاز به محاسبات بسیار زیاد این کار امکان‌پذیر نیست.

بنابراین به دلایل عملی و فنی، مدل‌های ترانسفورماتور امروزی با متنی کار می‌کنند که به قطعات کوچک‌تر و قابل مدیریت‌تری به نام توکن تقسیم شده است. این فرآیند به عنوان «توکن‌سازی» شناخته می‌شود.

توکن‌ها می‌توانند کلماتی مانند «فوق‌العاده» باشند. یا می‌توانند هجاهایی مانند «فوق»، «الع» و «اده» باشند. بسته به توکن‌ساز (مدل انجام‌دهنده توکن‌سازی)، حتی ممکن است کاراکترهای منفرد در کلمات (برای مثال، «ف»، «و»، «ق»، «ا»، «ل»، «ع»، «ا»، «د»، «ه») باشند.

با استفاده از این روش، ترانسفورماتورها می‌توانند قبل از رسیدن به حد بالایی که به عنوان پنجرۀ زمینه شناخته می‌شود، اطلاعات بیشتری (از نظر معنایی) دریافت کنند. همچنین توکن‌سازی می‌تواند سوگیری‌هایی را معرفی نماید.

برخی از توکن‌ها فاصله‌های عجیبی دارند که می‌توانند یک ترانسفورماتور را از مسیر خارج کنند. بسته به اینکه چگونه از یک مدل سؤال پرسیده شود، نتایج ممکن است کاملاً متفاوت باشند، چرا که مدل (مانند یک انسان) درک نمی‌کند که معنای آنها یکسان است.

همچنین توکن‌سازها با حروف بزرگ و کوچک رفتار متفاوتی دارند. “Hello” لزوما برای یک مدل با “HELLO” یکسان نیست. “hello” معمولاً یک توکن است (بسته به توکن‌ساز)، در حالی که “HELLO” می‌تواند به انداز سه توکن باشد (“HE,” “El”، و “O”). به همین دلیل است که بسیاری از ترانسفورماتورها در آزمون حروف بزرگ شکست می‌خورند.

شریدان فوخت، دانشجوی دکترای در حال تحصیل در زمینۀ تفسیر مدل‌های زبان بزرگ هوش مصنوعی در دانشگاه نورتیسترن، به TechCrunch گفت: «رسیدن به این سؤال که دقیقاً یک «کلمه» برای یک مدل زبان باید چه باشد، کمی دشوار است و حتی اگر ما بتوانیم کارشناسان انسانی را برای توافق در مورد یک واژگان توکن کامل متقاعد کنیم، مدل‌ها احتمال دارد همچنان «تکه تکه کردن» موارد را حتی بیشتر مفید بدانند. حدس من این است که به دلیل این نوع ابهام، گزنیه‌ای به عنوان یک توکن‌ساز کامل وجود ندارد.»

این «ابهام» در زبان‌هایی غیر از انگلیسی مشکلات بیشتری ایجاد می‌کند.

بسیاری از روش‌های توکن‌سازی فرض می‌کنند که فاصله در یک جمله نشان‌دهندۀ کلمۀ جدید است. به این دلیل که آنها با در نظر گرفتن زبان انگلیسی طراحی شده‌اند. امّا همۀ زبان‌ها از فاصله برای جدا کردن کلمات استفاده نمی‌کنند. زبان‌های چینی، ژاپنی، کره‌ای و تایلندی اینطور نیستند.

یک مطالعه در سال ۲۰۲۳ توسط دانشگاه آکسفورد نشان داد که به دلیل تفاوت در شیوۀ توکن‌سازی زبان‌های غیر انگلیسی، یک ترانسفورماتور ممکن است برای تکمیل یک کار به زبانی غیر انگلیسی، دو برابر زمان صرف کند تا زمانی که همان کار به زبان انگلیسی باشد. همین مطالعه – و مطالعۀ دیگری – نشان داد که کاربران زبان‌های با «بازده توکن» کمتر، به احتمال زیاد عملکرد ضعیف‌تری از مدل را مشاهده می‌کنند و با وجود اینکه بسیاری از فروشندگان هوش مصنوعی هزینه را بر اساس تعداد توکن محاسبه می‌کنند، هزینۀ بیشتری برای استفاده می‌پردازند.

توکن‌سازها اغلب با هر کاراکتر در سیستم‌های نوشتاری تصویری (سیستم‌هایی که در آنها نمادهای چاپی بدون ارتباط با تلفظ، کلمات را نشان می‌دهند، مانند چینی)، به عنوان یک توکن مجزا رفتار می‌کنند که باعث تعداد بالای توکن می‌شود. به طور مشابه، توکن‌سازهایی که زبان‌های الحاقی (زبان‌هایی که کلمات از عناصر کوچک معنادار کلمه به نام مورفم ساخته شده‌اند، مانند ترکی) را پردازش می‌کنند، تمایل دارند هر مورفم را به یک توکن تبدیل کنند و در نتیجه تعداد کل توکن‌ها را افزایش دهند. (کلمه معادل «سلام» در تایلندی، «สวัสดี»، شش توکن است.)

در سال ۲۰۲۳، یِنی جون، پژوهشگر هوش مصنوعی در گوگل دیپ‌مایند، تحلیلی را انجام داد که توکن‌سازی زبان‌های مختلف و تأثیرات بعدی آن را مقایسه می‌کرد. جون با استفاده از مجموعه‌ای از متون موازی که به ۵۲ زبان ترجمه شده بود، نشان داد که برخی از زبان‌ها برای انتقال همان معنا به انگلیسی به ۱۰ برابر توکن بیشتر نیاز دارند.

فراتر از نابرابری‌های زبانی، توکن‌سازی ممکن است توضیح دهد که چرا مدل‌های امروزی در ریاضیات ضعیف هستند.

به ندرت ارقام به طور مداوم توکن‌سازی می‌شوند. از آنجایی که آنها واقعاً نمی‌دانند اعداد چیست، توکن‌سازها ممکن است «۳۸۰» را به عنوان یک توکن در نظر بگیرند، اما «۳۸۱» را به صورت یک جفت («۳۸» و «۱») نمایش دهند، در نهایت به طور مؤثر روابط بین ارقام را از بین می‌برند و باعث سردرگمی مدل در معادلات و فرمول‌ها می‌شود. نتیجه این است که مدل‌های ترانسفورماتور دچار سردرگمی می‌شوند. یک مقالۀ اخیر نشان داد که مدل‌ها در درک الگوهای عددی تکراری و متن، به ویژه داده‌های زمانی، با مشکل مواجه هستند. (نگاه کنید به: GPT-4 فکر می‌کند ۷۷۳۵ از ۷۹۲۶ بزرگ‌تر است.)

این همچنین دلیلی است که مدل‌ها در حل مشکلات جدول حروف معکوس (anagram) یا وارونه کردن کلمات عالی نیستند.

بنابراین، توکن‌سازی به طور واضح برای هوش مصنوعی تولیدکنندۀ متن چالش‌هایی را ایجاد می‌کند. آیا می‌توان آنها را حل کرد؟

شاید!

فِوخت به مدل‌های فضای حالت سطح بایتی (byte-level) مانند MambaByte اشاره می‌کند که می‌توانند بدون هیچ‌گونه افت عملکردی، داده‌های بسیار بیشتری نسبت به ترانسفورماتورها را جذب کنند، چرا که به طور کلی توکن‌سازی را کنار می‌گذارند. MambaByte به صورت مستقیم با بایت‌های خام به عنوان نمایندۀ متن و سایر داده‌ها کار می‌کند، در وظایف تحلیل زبان با برخی از مدل‌های ترانسفورماتور رقابت دارد و در عین حال با «نویز»هایی مانند کلمات با حروف جابه‌جا، فاصله و حروف بزرگ بهتر برخورد می‌کند.

با وجود این، مدل‌هایی مانند MambaByte در مراحل اولیۀ تحقیق هستند.

فِوخت گفت: «به احتمال زیاد بهتر است که به مدل‌ها اجازه دهیم بدون اعمال توکن‌سازی به طور مستقیم به کاراکترها نگاه کنند، امّا در حال حاضر این کار از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدل‌های ترانسفورماتور، محاسبات با طول دنباله به طور تصاعدی افزایش می‌یابد، بنابراین ما واقعاً می‌خواهیم از بازنمایی‌های کوتاه متن استفاده کنیم.»

به نظر می‌رسد بدون نوآوری در زمینه توکن‌سازی، معماری‌های جدید، مدل کلید حل این مشکل خواهند بود.

سهیلا محمدی

سهیلا محمدی

دانش‌آموخته مدیریت، مترجم و نویسنده حوزه تکنولوژی

مطالب مرتبط

ربات اندروید در حال نگه داشتن یک سپر محافظ با لوگوی گوگل پلی.
اخبار هوش مصنوعی

سد محکم امنیت گوگل پلی پروتکت دربرابر ۲۷ میلیون بدافزار

نوشته شده توسط امیرحسین یونس
1 اسفند 1404
رابط کاربری Duck.ai در حال ویرایش نقاشی آبرنگ یک گربه نارنجی با استفاده از دستورات متنی.
اخبار هوش مصنوعی

داک‌داک‌گو قابلیت ویرایش تصویر با هوش مصنوعی را با تمرکز بر حریم خصوصی معرفی کرد

نوشته شده توسط امیرحسین یونس
1 اسفند 1404
لوگوی سفید رنگ "Snoo" (شخصیت ردیت) در یک حباب گفتار نارنجی بر روی پس‌زمینه‌ای از الگوهای تکرار شونده لوگوی ردیت.
اخبار هوش مصنوعی

 آزمایش قابلیت جست‌وجوی خرید مبتنی بر هوش مصنوعی در ردیت

نوشته شده توسط اسما کلهر
30 بهمن 1404
آیکون سیاه و سفید انتزاعی مرورگر Comet از شرکت Perplexity بر روی پس‌زمینه‌ای با اشکال هندسی آبی و سبز.
اخبار هوش مصنوعی

ورود مرورگر هوش مصنوعی Comet به آیفون

نوشته شده توسط اسما کلهر
30 بهمن 1404
کاور رسمی معرفی Gemini 3.1 Pro با پس‌زمینه تیره و الگوی نقاط نورانی دیجیتال که عدد «3.1» را به‌صورت انتزاعی شکل می‌دهند؛ نمایش هویت بصری نسل جدید مدل زبانی Google Gemini با تمرکز بر پیشرفت‌های عملکردی، مقیاس‌پذیری و توان پردازش پیشرفته هوش مصنوعی.
اخبار هوش مصنوعی

گوگل Gemini 3.1 Pro را رونمایی کرد؛ مدلی با تمرکز بر حل مسائل پیچیده و استدلال پیشرفته

نوشته شده توسط تارخ ترهنده
30 بهمن 1404
خبر بعدی
هایلایت کردن محدود مطالب درک مطلب را تقویت می کند

هایلایت کلمات در مطالعه درک مطلب را تقویت می کند

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

چه مقدار بیت‌کوین (BTC) برای عرضه باقی مانده است؟

چه مقدار بیت‌کوین برای عرضه باقی مانده است؟

30 بهمن 1404
معرفی ۷ سلاح نامرئی در جنگ های الکترونیک

معرفی ۷ سلاح نامرئی در جنگ های الکترونیک

25 بهمن 1404

داغ‌ترین‌های روز

مایکروسافت دسترسی به فایل‌های ISO ویندوز ۱۱ را مسدود کرد

مایکروسافت دسترسی به فایل‌های ISO ویندوز ۱۱ را مسدود کرد

28 بهمن 1404 - به‌روزشده در 29 بهمن 1404
بحران کمبود رم

خطر ورشکستگی گسترده در صنعت فناوری؛ بحران کمبود رم قربانی می‌گیرد

28 بهمن 1404
بهترین گوشی های کارکرده

این گوشی‌های کارکرده هنوز ارزش خرید دارند!

26 بهمن 1404 - به‌روزشده در 27 بهمن 1404
تصویر تبلیغاتی و مفهومی از تراشه Exynos 2600 سامسونگ با درخششی آبی‌رنگ در پس‌زمینه تاریک. ذرات نور و جلوه‌های گرافیکی به‌صورت موج‌دار در اطراف تراشه پخش شده‌اند تا قدرت گرافیکی و معماری پردازشی پیشرفته را نمایش دهند. لوگوی 5G روی تراشه و نور مرکزی آن، حس انرژی و فناوری سطح بالا را منتقل می‌کند.

پادشاه جدید گرافیک موبایل؛ درخشش خیره‌کننده تراشه اگزینوس ۲۶۰۰ در رهگیری پرتو

28 بهمن 1404
Coyote Block 3 با سلاح الکترومغناطیسی، دسته پهپادی را در آزمایش ارتش آمریکا سرنگون کر

پهپاد کایوت دسته‌های پهپادی را با سلاح الکترومغناطیسی رهگیری و نابود می‌کند

28 بهمن 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

تصویر مفهومی از زنجیر و قفل شکسته در کنار نمادهای رمز عبور، نشان‌دهنده ریسک‌های امنیتی مدیران پسورد

اطلاعات ۶۰ میلیون کاربر در خطر؛ پژوهشگران ضعف جدی در خزانه‌های گذرواژه و امنیت حساب‌های کاربری یافتند

1 اسفند 1404
نمای نزدیک از پردازنده AMD Ryzen نصب شده روی سیستم با نورپردازی رنگی دایره‌ای.

جزئیات پیکربندی‌های مختلف پردازنده‌های رایزن ۱۰۰۰۰ لو رفت

1 اسفند 1404
ایربادهای سفید سامسونگ به همراه کیس شارژ با درِ شفاف روی سطح خاکستری.

تأیید نهایی سامسونگ: گلکسی بادز ۴ هفته آینده در کنار سری S26 رونمایی می‌شود

1 اسفند 1404
نمایش لوگوی رنگارنگ Copilot مایکروسافت روی دیوار سالن رویداد فناوری

مایکروسافت قابلیت سردرگم‌کننده اوت‌لوک را کنار می‌گذارد

1 اسفند 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir