• صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه
No Result
مشاهده تمامی نتایج
اخبار تکنولوژی روز جهان و ایران
تک ناک فناوری اخبار هوش مصنوعی

توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد

سهیلا محمدی نوشته شده توسط سهیلا محمدی
یکشنبه 17 تیر 1403 - 11:05 - به‌روزشده در دوشنبه 18 تیر 1403 - 14:04
در اخبار هوش مصنوعی
توکن‌سازی، مانع بزرگ پیشرفت هوش مصنوعی مولد
کپی لینکاشتراک گذاری در تلگراماشتراک گذاری در توییتر

توکن‌سازی یکی از دلایل اصلی است که هوش مصنوعی مولد امروزی با محدودیت‌ها و رفتارهای عجیب روبه‌رو می‌شود، به ویژه در زبان‌های غیر از انگلیسی که نیاز به پردازش پیچیده‌تری دارند.

به گزارش سرویس فناوری تک‌ناک، مدل‌های هوش مصنوعی تولیدکنندۀ متن، متن را به روشی متفاوت از انسان‌ها پردازش می‌کنند. درک محیط‌های داخلی مبتنی بر «توکن» آنها می‌تواند به توضیح برخی رفتارهای عجیب و محدودیت‌های سرسخت شان کمک کند.

اکثر مدل‌ها، از مدل‌های کوچک روی دستگاه مانند Gemma تا GPT-4o پیشرو در صنعت OpenAI، بر روی معماری شناخته‌شده به عنوان ترانسفورماتور ساخته شده‌اند. به دلیل روشی که ترانسفورماتورها ارتباط بین متن و سایر انواع داده را ایجاد می‌کنند، نمی‌توانند متن خام را دریافت یا خروجی دهند، حداقل بدون نیاز به محاسبات بسیار زیاد این کار امکان‌پذیر نیست.

بنابراین به دلایل عملی و فنی، مدل‌های ترانسفورماتور امروزی با متنی کار می‌کنند که به قطعات کوچک‌تر و قابل مدیریت‌تری به نام توکن تقسیم شده است. این فرآیند به عنوان «توکن‌سازی» شناخته می‌شود.

توکن‌ها می‌توانند کلماتی مانند «فوق‌العاده» باشند. یا می‌توانند هجاهایی مانند «فوق»، «الع» و «اده» باشند. بسته به توکن‌ساز (مدل انجام‌دهنده توکن‌سازی)، حتی ممکن است کاراکترهای منفرد در کلمات (برای مثال، «ف»، «و»، «ق»، «ا»، «ل»، «ع»، «ا»، «د»، «ه») باشند.

با استفاده از این روش، ترانسفورماتورها می‌توانند قبل از رسیدن به حد بالایی که به عنوان پنجرۀ زمینه شناخته می‌شود، اطلاعات بیشتری (از نظر معنایی) دریافت کنند. همچنین توکن‌سازی می‌تواند سوگیری‌هایی را معرفی نماید.

برخی از توکن‌ها فاصله‌های عجیبی دارند که می‌توانند یک ترانسفورماتور را از مسیر خارج کنند. بسته به اینکه چگونه از یک مدل سؤال پرسیده شود، نتایج ممکن است کاملاً متفاوت باشند، چرا که مدل (مانند یک انسان) درک نمی‌کند که معنای آنها یکسان است.

همچنین توکن‌سازها با حروف بزرگ و کوچک رفتار متفاوتی دارند. “Hello” لزوما برای یک مدل با “HELLO” یکسان نیست. “hello” معمولاً یک توکن است (بسته به توکن‌ساز)، در حالی که “HELLO” می‌تواند به انداز سه توکن باشد (“HE,” “El”، و “O”). به همین دلیل است که بسیاری از ترانسفورماتورها در آزمون حروف بزرگ شکست می‌خورند.

شریدان فوخت، دانشجوی دکترای در حال تحصیل در زمینۀ تفسیر مدل‌های زبان بزرگ هوش مصنوعی در دانشگاه نورتیسترن، به TechCrunch گفت: «رسیدن به این سؤال که دقیقاً یک «کلمه» برای یک مدل زبان باید چه باشد، کمی دشوار است و حتی اگر ما بتوانیم کارشناسان انسانی را برای توافق در مورد یک واژگان توکن کامل متقاعد کنیم، مدل‌ها احتمال دارد همچنان «تکه تکه کردن» موارد را حتی بیشتر مفید بدانند. حدس من این است که به دلیل این نوع ابهام، گزنیه‌ای به عنوان یک توکن‌ساز کامل وجود ندارد.»

این «ابهام» در زبان‌هایی غیر از انگلیسی مشکلات بیشتری ایجاد می‌کند.

بسیاری از روش‌های توکن‌سازی فرض می‌کنند که فاصله در یک جمله نشان‌دهندۀ کلمۀ جدید است. به این دلیل که آنها با در نظر گرفتن زبان انگلیسی طراحی شده‌اند. امّا همۀ زبان‌ها از فاصله برای جدا کردن کلمات استفاده نمی‌کنند. زبان‌های چینی، ژاپنی، کره‌ای و تایلندی اینطور نیستند.

یک مطالعه در سال ۲۰۲۳ توسط دانشگاه آکسفورد نشان داد که به دلیل تفاوت در شیوۀ توکن‌سازی زبان‌های غیر انگلیسی، یک ترانسفورماتور ممکن است برای تکمیل یک کار به زبانی غیر انگلیسی، دو برابر زمان صرف کند تا زمانی که همان کار به زبان انگلیسی باشد. همین مطالعه – و مطالعۀ دیگری – نشان داد که کاربران زبان‌های با «بازده توکن» کمتر، به احتمال زیاد عملکرد ضعیف‌تری از مدل را مشاهده می‌کنند و با وجود اینکه بسیاری از فروشندگان هوش مصنوعی هزینه را بر اساس تعداد توکن محاسبه می‌کنند، هزینۀ بیشتری برای استفاده می‌پردازند.

توکن‌سازها اغلب با هر کاراکتر در سیستم‌های نوشتاری تصویری (سیستم‌هایی که در آنها نمادهای چاپی بدون ارتباط با تلفظ، کلمات را نشان می‌دهند، مانند چینی)، به عنوان یک توکن مجزا رفتار می‌کنند که باعث تعداد بالای توکن می‌شود. به طور مشابه، توکن‌سازهایی که زبان‌های الحاقی (زبان‌هایی که کلمات از عناصر کوچک معنادار کلمه به نام مورفم ساخته شده‌اند، مانند ترکی) را پردازش می‌کنند، تمایل دارند هر مورفم را به یک توکن تبدیل کنند و در نتیجه تعداد کل توکن‌ها را افزایش دهند. (کلمه معادل «سلام» در تایلندی، «สวัสดี»، شش توکن است.)

در سال ۲۰۲۳، یِنی جون، پژوهشگر هوش مصنوعی در گوگل دیپ‌مایند، تحلیلی را انجام داد که توکن‌سازی زبان‌های مختلف و تأثیرات بعدی آن را مقایسه می‌کرد. جون با استفاده از مجموعه‌ای از متون موازی که به ۵۲ زبان ترجمه شده بود، نشان داد که برخی از زبان‌ها برای انتقال همان معنا به انگلیسی به ۱۰ برابر توکن بیشتر نیاز دارند.

فراتر از نابرابری‌های زبانی، توکن‌سازی ممکن است توضیح دهد که چرا مدل‌های امروزی در ریاضیات ضعیف هستند.

به ندرت ارقام به طور مداوم توکن‌سازی می‌شوند. از آنجایی که آنها واقعاً نمی‌دانند اعداد چیست، توکن‌سازها ممکن است «۳۸۰» را به عنوان یک توکن در نظر بگیرند، اما «۳۸۱» را به صورت یک جفت («۳۸» و «۱») نمایش دهند، در نهایت به طور مؤثر روابط بین ارقام را از بین می‌برند و باعث سردرگمی مدل در معادلات و فرمول‌ها می‌شود. نتیجه این است که مدل‌های ترانسفورماتور دچار سردرگمی می‌شوند. یک مقالۀ اخیر نشان داد که مدل‌ها در درک الگوهای عددی تکراری و متن، به ویژه داده‌های زمانی، با مشکل مواجه هستند. (نگاه کنید به: GPT-4 فکر می‌کند ۷۷۳۵ از ۷۹۲۶ بزرگ‌تر است.)

این همچنین دلیلی است که مدل‌ها در حل مشکلات جدول حروف معکوس (anagram) یا وارونه کردن کلمات عالی نیستند.

بنابراین، توکن‌سازی به طور واضح برای هوش مصنوعی تولیدکنندۀ متن چالش‌هایی را ایجاد می‌کند. آیا می‌توان آنها را حل کرد؟

شاید!

فِوخت به مدل‌های فضای حالت سطح بایتی (byte-level) مانند MambaByte اشاره می‌کند که می‌توانند بدون هیچ‌گونه افت عملکردی، داده‌های بسیار بیشتری نسبت به ترانسفورماتورها را جذب کنند، چرا که به طور کلی توکن‌سازی را کنار می‌گذارند. MambaByte به صورت مستقیم با بایت‌های خام به عنوان نمایندۀ متن و سایر داده‌ها کار می‌کند، در وظایف تحلیل زبان با برخی از مدل‌های ترانسفورماتور رقابت دارد و در عین حال با «نویز»هایی مانند کلمات با حروف جابه‌جا، فاصله و حروف بزرگ بهتر برخورد می‌کند.

با وجود این، مدل‌هایی مانند MambaByte در مراحل اولیۀ تحقیق هستند.

فِوخت گفت: «به احتمال زیاد بهتر است که به مدل‌ها اجازه دهیم بدون اعمال توکن‌سازی به طور مستقیم به کاراکترها نگاه کنند، امّا در حال حاضر این کار از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدل‌های ترانسفورماتور، محاسبات با طول دنباله به طور تصاعدی افزایش می‌یابد، بنابراین ما واقعاً می‌خواهیم از بازنمایی‌های کوتاه متن استفاده کنیم.»

به نظر می‌رسد بدون نوآوری در زمینه توکن‌سازی، معماری‌های جدید، مدل کلید حل این مشکل خواهند بود.

سهیلا محمدی

سهیلا محمدی

دانش‌آموخته مدیریت، مترجم و نویسنده حوزه تکنولوژی

مطالب مرتبط

گوگل نخستین مدل زبانی بزرگ با حفظ حریم خصوصی را معرفی کرد
اخبار هوش مصنوعی

گوگل نخستین مدل زبانی بزرگ با حفظ حریم خصوصی را معرفی کرد

نوشته شده توسط سید محمد برازنده
26 شهریور 1404
اعمال محدودیت‌های تازه بر ChatGPT برای محافظت از کاربران نوجوان
اخبار هوش مصنوعی

اعمال محدودیت‌های تازه بر ChatGPT برای محافظت از کاربران نوجوان

نوشته شده توسط سید محمد برازنده
26 شهریور 1404
جهش ۴۵ درصدی دانلود جمنای با Nano Banana
اخبار هوش مصنوعی

جهش ۴۵ درصدی دانلود جمنای با Nano Banana

نوشته شده توسط اسما کلهر
26 شهریور 1404
گوگل اپلیکیشن جست‌وجوی جدید برای ویندوز معرفی کرد؛ رقیبی برای Spotlight مک
اخبار هوش مصنوعی

گوگل اپلیکیشن جست‌وجوی جدید برای ویندوز معرفی کرد

نوشته شده توسط اسما کلهر
25 شهریور 1404
ناتینگ نخستین دستگاه‌های هوش‌مصنوعی را سال ۲۰۲۶ عرضه می‌کند
اخبار هوش مصنوعی

ناتینگ نخستین دستگاه‌های هوش‌مصنوعی را سال ۲۰۲۶ عرضه می‌کند

نوشته شده توسط اسما کلهر
25 شهریور 1404 - به‌روزشده در 26 شهریور 1404
خبر بعدی
هایلایت کردن محدود مطالب درک مطلب را تقویت می کند

هایلایت کلمات در مطالعه درک مطلب را تقویت می کند

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آذرآنلاین آذرآنلاین آذرآنلاین

پیشنهادی

رویداد گلکسی سامسونگ

در رویداد جدید سامسونگ چه محصولی معرفی می‌شود؛ گلکسی S25 FE یا تبلت؟

6 شهریور 1404 - به‌روزشده در 9 شهریور 1404
بهترین گوشی سامسونگ از نظر دوربین

بهترین گوشی‌های سامسونگ از نظر دوربین (تابستان ۱۴۰۴)

7 شهریور 1404 - به‌روزشده در 8 شهریور 1404

داغ‌ترین‌های روز

بهبود پیرچشمی با قطره های چشمی جدید ممکن شد

بهبود پیرچشمی با قطره های چشمی جدید

25 شهریور 1404
شیء ناشناس در یمن موشک آمریکایی را بلعید و ناپدید شد

شیء ناشناس در یمن موشک آمریکایی را بلعید و ناپدید شد

25 شهریور 1404
قیمت HDD و SSD به‌دلیل افزایش تقاضای مراکز داده برای هوش مصنوعی در ماه‌های آینده تا ۳۰ درصد رشد خواهد کرد.

هوش مصنوعی قیمت HDD و SSD را تا ۳۰ درصد بالا می برد

25 شهریور 1404
سیم کارت eSIM

راهنمای کامل سیم کارت eSIM؛ نسل آینده سیم‌کارت‌های بدون شیار فیزیکی

23 شهریور 1404
HyperOS 3 روی ۸۰ دستگاه شیائومی

شیائومی آزمایش HyperOS 3 مبتنی‌بر اندروید 16 را روی 80 دستگاه آغاز کرد

24 شهریور 1404 - به‌روزشده در 25 شهریور 1404
تک ناک - اخبار تکنولوژی روز جهان و ایران

دنیا با سرعتی خیره کننده به سمت تحقق رویاهایی می رود که تا دیروز دست نیافتنی و محال بود و بشر با گذر از دریایی از موانع یک به یک در حال تحقق آنها است.

ما در” تک ناک” تلاش می کنیم سهمی از انعکاس تحولات بی شمار فناوری و اخبار تکنولوژی داشته باشیم و در این کهکشان بی انتهای یافته های علمی و دانش محور محتوایی قابل اتکاء و اخباری موثق را از گوشه و کنار دنیا در اختیار علاقمندان و مخاطبان خود قرار دهیم.

ما را در شبکه های اجتماعی دنبال کنید

تازه‌ها

سامسونگ نقص امنیتی روز صفر را در گوشی‌های خود برطرف کرد

سامسونگ نقص امنیتی روز صفر را در گوشی‌های خود برطرف کرد

26 شهریور 1404
تیزر رسمی شیائومی 17 پرو با نمایشگر دوم در پشت منتشر شد

تیزر رسمی شیائومی 17 پرو با نمایشگر دوم در پشت منتشر شد

26 شهریور 1404
گوگل نخستین مدل زبانی بزرگ با حفظ حریم خصوصی را معرفی کرد

گوگل نخستین مدل زبانی بزرگ با حفظ حریم خصوصی را معرفی کرد

26 شهریور 1404
این ایربادهای بدون باتری برای تجربه خواب آرام طراحی شده‌اند

این ایربادهای بدون باتری برای تجربه خواب آرام طراحی شده‌اند

26 شهریور 1404

دسترسی سریع

  • فناوری
  • کامپیوتر و موبایل
  • نقد و بررسی
  • آموزش
  • ارز دیجیتال
  • علمی
  • کسب و کار
  • وسائل نقلیه
  • بازی و سرگرمی
  • چند رسانه ای
  • صفحه اصلی
  • همه اخبار
  • تبلیغات تکناک
  • درباره ما
  • تماس با ما

© Copyright 2025 Technoc.ir

technoc-instagram
No Result
مشاهده تمامی نتایج
  • فناوری
    • اخبار هوش مصنوعی
    • رباتیک
    • اینترنت و شبکه
    • شبکه های اجتماعی
    • هوافضا
    • معماری
    • ورزش
    • رویداد ها
    • دوربین دیجیتال
  • کامپیوتر و موبایل
    • موبایل و تبلت
    • لپ تاپ و کامپیوتر
    • اپلیکیشن موبایل
    • نرم افزار
    • سخت افزار
    • ساعت هوشمند
    • مانیتور
    • اسپیکر و هدفون
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
  • نقد و بررسی
    • بررسی موبایل و تبلت
    • کنسول بازی
    • بررسی لپ تاپ و کامپیوتر
    • قطعات کامپیوتر
    • نرم افزار
    • بررسی اسپیکر و هدفون
    • بررسی ساعت هوشمند
  • آموزش
    • سیستم عامل موبایل
    • سیستم عامل کامپیوتر
    • آموزش هوش مصنوعی
    • سخت افزار
  • اخبار ارز دیجیتال
    • قیمت لحظه ای ارز دیجیتال
    • ماشین حساب ارز دیجیتال
    • آموزش ارز دیجیتال
  • علمی
    • سلامت و پزشکی
    • انرژی
    • فیزیک
    • شیمی
    • نجوم
    • ورزش
    • محیط زیست
    • باستان شناسی
  • کسب و کار
    • شرکت ها
    • بورس
    • مدیریت(پروژه، کسب و کار، منابع انسانی)
    • استارتاپ ها
    • دولت الکترونیک
    • رویداد کسب و کار
  • وسائل نقلیه
    • خودرو
    • دوچرخه
    • موتور سیکلت
    • قطار
    • هواپیما
  • بازی و سرگرمی
    • کنسول بازی های کامپیوتری
    • بازی های کامپیوتر
    • بازی کنسول
    • بازی موبایل
    • فیلم و سریال
  • چند رسانه ای
    • عکس
    • ویدئو
  • اخبار داخلی
    • دانش بنیان
    • دولت الکترونیک
    • رویداد داخلی
    • بازار
    • دانشگاه

© Copyright 2025 Technoc.ir