• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران

تک ناک » فناوری » اخبار هوش مصنوعی » توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

سهیلا محمدی نوشته شده توسط سهیلا محمدی
یکشنبه 17 تیر 1403 - 11:05 - به‌روزشده در دوشنبه 18 تیر 1403 - 10:34
در اخبار هوش مصنوعی
توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

توکن‌سازی یکی از دلایل اصلی است که هوش مصنوعی مولد امروزی با محدودیت‌ها و رفتارهای عجیب روبه‌رو می‌شود، به ویژه در زبان‌های غیر از انگلیسی که نیاز به پردازش پیچیده‌تری دارند.

به گزارش سرویس فناوری تک‌ناک، مدل‌های هوش مصنوعی تولیدکنندۀ متن، متن را به روشی متفاوت از انسان‌ها پردازش می‌کنند. درک محیط‌های داخلی مبتنی بر «توکن» آنها می‌تواند به توضیح برخی رفتارهای عجیب و محدودیت‌های سرسخت شان کمک کند.

اکثر مدل‌ها، از مدل‌های کوچک روی دستگاه مانند Gemma تا GPT-4o پیشرو در صنعت OpenAI، بر روی معماری شناخته‌شده به عنوان ترانسفورماتور ساخته شده‌اند. به دلیل روشی که ترانسفورماتورها ارتباط بین متن و سایر انواع داده را ایجاد می‌کنند، نمی‌توانند متن خام را دریافت یا خروجی دهند، حداقل بدون نیاز به محاسبات بسیار زیاد این کار امکان‌پذیر نیست.

بنابراین به دلایل عملی و فنی، مدل‌های ترانسفورماتور امروزی با متنی کار می‌کنند که به قطعات کوچک‌تر و قابل مدیریت‌تری به نام توکن تقسیم شده است. این فرآیند به عنوان «توکن‌سازی» شناخته می‌شود.

توکن‌ها می‌توانند کلماتی مانند «فوق‌العاده» باشند. یا می‌توانند هجاهایی مانند «فوق»، «الع» و «اده» باشند. بسته به توکن‌ساز (مدل انجام‌دهنده توکن‌سازی)، حتی ممکن است کاراکترهای منفرد در کلمات (برای مثال، «ف»، «و»، «ق»، «ا»، «ل»، «ع»، «ا»، «د»، «ه») باشند.

با استفاده از این روش، ترانسفورماتورها می‌توانند قبل از رسیدن به حد بالایی که به عنوان پنجرۀ زمینه شناخته می‌شود، اطلاعات بیشتری (از نظر معنایی) دریافت کنند. همچنین توکن‌سازی می‌تواند سوگیری‌هایی را معرفی نماید.

برخی از توکن‌ها فاصله‌های عجیبی دارند که می‌توانند یک ترانسفورماتور را از مسیر خارج کنند. بسته به اینکه چگونه از یک مدل سؤال پرسیده شود، نتایج ممکن است کاملاً متفاوت باشند، چرا که مدل (مانند یک انسان) درک نمی‌کند که معنای آنها یکسان است.

همچنین توکن‌سازها با حروف بزرگ و کوچک رفتار متفاوتی دارند. “Hello” لزوما برای یک مدل با “HELLO” یکسان نیست. “hello” معمولاً یک توکن است (بسته به توکن‌ساز)، در حالی که “HELLO” می‌تواند به انداز سه توکن باشد (“HE,” “El”، و “O”). به همین دلیل است که بسیاری از ترانسفورماتورها در آزمون حروف بزرگ شکست می‌خورند.

شریدان فوخت، دانشجوی دکترای در حال تحصیل در زمینۀ تفسیر مدل‌های زبان بزرگ هوش مصنوعی در دانشگاه نورتیسترن، به TechCrunch گفت: «رسیدن به این سؤال که دقیقاً یک «کلمه» برای یک مدل زبان باید چه باشد، کمی دشوار است و حتی اگر ما بتوانیم کارشناسان انسانی را برای توافق در مورد یک واژگان توکن کامل متقاعد کنیم، مدل‌ها احتمال دارد همچنان «تکه تکه کردن» موارد را حتی بیشتر مفید بدانند. حدس من این است که به دلیل این نوع ابهام، گزنیه‌ای به عنوان یک توکن‌ساز کامل وجود ندارد.»

این «ابهام» در زبان‌هایی غیر از انگلیسی مشکلات بیشتری ایجاد می‌کند.

بسیاری از روش‌های توکن‌سازی فرض می‌کنند که فاصله در یک جمله نشان‌دهندۀ کلمۀ جدید است. به این دلیل که آنها با در نظر گرفتن زبان انگلیسی طراحی شده‌اند. امّا همۀ زبان‌ها از فاصله برای جدا کردن کلمات استفاده نمی‌کنند. زبان‌های چینی، ژاپنی، کره‌ای و تایلندی اینطور نیستند.

یک مطالعه در سال ۲۰۲۳ توسط دانشگاه آکسفورد نشان داد که به دلیل تفاوت در شیوۀ توکن‌سازی زبان‌های غیر انگلیسی، یک ترانسفورماتور ممکن است برای تکمیل یک کار به زبانی غیر انگلیسی، دو برابر زمان صرف کند تا زمانی که همان کار به زبان انگلیسی باشد. همین مطالعه – و مطالعۀ دیگری – نشان داد که کاربران زبان‌های با «بازده توکن» کمتر، به احتمال زیاد عملکرد ضعیف‌تری از مدل را مشاهده می‌کنند و با وجود اینکه بسیاری از فروشندگان هوش مصنوعی هزینه را بر اساس تعداد توکن محاسبه می‌کنند، هزینۀ بیشتری برای استفاده می‌پردازند.

توکن‌سازها اغلب با هر کاراکتر در سیستم‌های نوشتاری تصویری (سیستم‌هایی که در آنها نمادهای چاپی بدون ارتباط با تلفظ، کلمات را نشان می‌دهند، مانند چینی)، به عنوان یک توکن مجزا رفتار می‌کنند که باعث تعداد بالای توکن می‌شود. به طور مشابه، توکن‌سازهایی که زبان‌های الحاقی (زبان‌هایی که کلمات از عناصر کوچک معنادار کلمه به نام مورفم ساخته شده‌اند، مانند ترکی) را پردازش می‌کنند، تمایل دارند هر مورفم را به یک توکن تبدیل کنند و در نتیجه تعداد کل توکن‌ها را افزایش دهند. (کلمه معادل «سلام» در تایلندی، «สวัสดี»، شش توکن است.)

در سال ۲۰۲۳، یِنی جون، پژوهشگر هوش مصنوعی در گوگل دیپ‌مایند، تحلیلی را انجام داد که توکن‌سازی زبان‌های مختلف و تأثیرات بعدی آن را مقایسه می‌کرد. جون با استفاده از مجموعه‌ای از متون موازی که به ۵۲ زبان ترجمه شده بود، نشان داد که برخی از زبان‌ها برای انتقال همان معنا به انگلیسی به ۱۰ برابر توکن بیشتر نیاز دارند.

فراتر از نابرابری‌های زبانی، توکن‌سازی ممکن است توضیح دهد که چرا مدل‌های امروزی در ریاضیات ضعیف هستند.

به ندرت ارقام به طور مداوم توکن‌سازی می‌شوند. از آنجایی که آنها واقعاً نمی‌دانند اعداد چیست، توکن‌سازها ممکن است «۳۸۰» را به عنوان یک توکن در نظر بگیرند، اما «۳۸۱» را به صورت یک جفت («۳۸» و «۱») نمایش دهند، در نهایت به طور مؤثر روابط بین ارقام را از بین می‌برند و باعث سردرگمی مدل در معادلات و فرمول‌ها می‌شود. نتیجه این است که مدل‌های ترانسفورماتور دچار سردرگمی می‌شوند. یک مقالۀ اخیر نشان داد که مدل‌ها در درک الگوهای عددی تکراری و متن، به ویژه داده‌های زمانی، با مشکل مواجه هستند. (نگاه کنید به: GPT-4 فکر می‌کند ۷۷۳۵ از ۷۹۲۶ بزرگ‌تر است.)

این همچنین دلیلی است که مدل‌ها در حل مشکلات جدول حروف معکوس (anagram) یا وارونه کردن کلمات عالی نیستند.

بنابراین، توکن‌سازی به طور واضح برای هوش مصنوعی تولیدکنندۀ متن چالش‌هایی را ایجاد می‌کند. آیا می‌توان آنها را حل کرد؟

شاید!

فِوخت به مدل‌های فضای حالت سطح بایتی (byte-level) مانند MambaByte اشاره می‌کند که می‌توانند بدون هیچ‌گونه افت عملکردی، داده‌های بسیار بیشتری نسبت به ترانسفورماتورها را جذب کنند، چرا که به طور کلی توکن‌سازی را کنار می‌گذارند. MambaByte به صورت مستقیم با بایت‌های خام به عنوان نمایندۀ متن و سایر داده‌ها کار می‌کند، در وظایف تحلیل زبان با برخی از مدل‌های ترانسفورماتور رقابت دارد و در عین حال با «نویز»هایی مانند کلمات با حروف جابه‌جا، فاصله و حروف بزرگ بهتر برخورد می‌کند.

با وجود این، مدل‌هایی مانند MambaByte در مراحل اولیۀ تحقیق هستند.

فِوخت گفت: «به احتمال زیاد بهتر است که به مدل‌ها اجازه دهیم بدون اعمال توکن‌سازی به طور مستقیم به کاراکترها نگاه کنند، امّا در حال حاضر این کار از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدل‌های ترانسفورماتور، محاسبات با طول دنباله به طور تصاعدی افزایش می‌یابد، بنابراین ما واقعاً می‌خواهیم از بازنمایی‌های کوتاه متن استفاده کنیم.»

به نظر می‌رسد بدون نوآوری در زمینه توکن‌سازی، معماری‌های جدید، مدل کلید حل این مشکل خواهند بود.

سهیلا محمدی

سهیلا محمدی

دانش‌آموخته مدیریت، مترجم و نویسنده حوزه تکنولوژی

مطالب مرتبط

لوگوی نورانی آبی‌رنگ شرکت بایت‌دنس (ByteDance) بر روی نمای ساختمان در شب با پس‌زمینه آسمان‌خراش‌ها.
اخبار هوش مصنوعی

قمار ۱۴ میلیارد دلاری بایت‌دنس در بازار هوش مصنوعی؛ تیک‌تاک زرادخانه تراشه‌های انویدیا را تقویت می‌کند

نوشته شده توسط امیرحسین یونس
10 دی 1404
لوگوی چت‌جی‌پی‌تی
اخبار هوش مصنوعی

گام جدید OpenAI برای ارتقای تجربه موبایل؛ قابلیت «تفکر گسترده» به اپلیکیشن ChatGPT آمد

نوشته شده توسط امیرحسین یونس
10 دی 1404
هوش مصنوعی جمنای کنترل کامل گوشی‌های اندرویدی را به دست می‌ گیرد
اخبار هوش مصنوعی

هوش مصنوعی جمنای کنترل کامل گوشی‌های اندرویدی را به دست می‌ گیرد + ویدیو

نوشته شده توسط سید محمد برازنده
10 دی 1404
سخت‌افزار هوش مصنوعی OpenAI و جانی آیو ممکن است یک قلم هوشمند باشد
اخبار هوش مصنوعی

سخت‌افزار هوش مصنوعی OpenAI و جانی آیو ممکن است یک قلم هوشمند باشد

نوشته شده توسط سید محمد برازنده
10 دی 1404
نمای نزدیک از مجموعه‌ای از اسکناس‌های دلار آمریکا با ارزش یک دلار، روی‌هم‌چیده شده، با نمایش جزئیات طراحی، مهر سبز خزانه‌داری و پرتره جورج واشنگتن
اخبار هوش مصنوعی

جنگ شرکت‌های چینی برای جذب متخصصان هوش مصنوعی؛ افزایش حقوق ۱۵۰ درصدی

نوشته شده توسط تارخ ترهنده
9 دی 1404
خبر بعدی
هایلایت کردن محدود مطالب درک مطلب را تقویت می کند

هایلایت کلمات در مطالعه درک مطلب را تقویت می کند

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

آیکون اپلیکیشن گوگل پلی استور در میان سایر برنامه‌ها روی صفحه گوشی.

گوگل دکمه «حذف نصب» را به پلی استور بازگرداند

26 آذر 1404
نمای داخلی یک لپ‌تاپ گیمینگ که دو اسلات رم SO-DIMM DDR5 و درایو SSD را نشان می‌دهد.

لنوو و اچ‌پی عرضه لپ‌تاپ‌های جدید خود را به تأخیر می‌اندازند

6 دی 1404

داغ‌ترین‌های روز

بهترین دوربین عکاسی ۲۰۲۵ ؛ راهنمای جامع انتخاب و خرید دوربین عکاسی

7 دی 1404

بهترین پرامپت‌های حرفه‌ای برای ساخت لوگو با هوش مصنوعی 

7 دی 1404
نمای پشت گوشی Honor Power 2 در سه رنگ نارنجی، سفید و مشکی، با بدنه تخت، ماژول دوربین مستطیلی با سه لنز بزرگ و طراحی الهام‌گرفته از پرچم‌داران مدرن، تمرکز بر تنوع رنگ و هویت بصری محصول

این گوشی کپی برابر اصل آیفون ۱۷ پرو است

5 دی 1404 - به‌روزشده در 7 دی 1404
بهترین گوشی موبایل بازار ایران

بهترین گوشی‌های بازار ایران در دی‌ماه ۱۴۰۴+ راهنمای جامع خرید

7 دی 1404 - به‌روزشده در 8 دی 1404
بدترین بازی‌های تاریخ؛ فاجعه‌هایی که صنعت گیم را شوکه کردند

بدترین بازی‌های تاریخ؛ فاجعه‌هایی که صنعت گیم را شوکه کردند

7 دی 1404
Technoc

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

نمای پشت گوشی Infinix Note Edge با بدنه سبز مات و ماژول دوربین مستطیلی شامل دو لنز دایره‌ای و یک حلقه نورانی، در پس‌زمینه تیره استودیویی

گوشی نوت اج اینفینیکس با نمایشگر امولد خمیده معرفی می‌شود

10 دی 1404
لوگوی نورانی آبی‌رنگ شرکت بایت‌دنس (ByteDance) بر روی نمای ساختمان در شب با پس‌زمینه آسمان‌خراش‌ها.

قمار ۱۴ میلیارد دلاری بایت‌دنس در بازار هوش مصنوعی؛ تیک‌تاک زرادخانه تراشه‌های انویدیا را تقویت می‌کند

10 دی 1404
نمای کنار هم از کارت گرافیک‌های پرچم‌دار سری GeForce RTX و Radeon با پس‌زمینه رنگی انتزاعی.

شوک ۵,۰۰۰ دلاری به بازار سخت‌افزار؛ کارت گرافیک RTX 5090 گران‌ترین پرچم‌دار تاریخ می‌شود

10 دی 1404
تصویری ترکیبی از خط افق شهر نیویورک در شب که با لایه‌ای از بردهای الکترونیکی و قطعات سخت‌افزاری کامپیوتری پوشانده شده است.

تدابیر امنیتی بحث‌برانگیز در نیویورک؛ رزبری پای و فلیپر زیرو در فهرست اقلام ممنوعه مراسم تحلیف

10 دی 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir