گوگل امروز از انتشار Gemini 1.5 Pro، جدیدترین عضو خانواده مدلهای هوش مصنوعی مولد خود، خبر داد.
بهگزارش تکناک، گوگل مدل هوش مصنوعی Gemini 1.5 Pro را منتشر کرد. این مدل بهگونهای طراحی شده است تا جایگزین مستقیم Gemini 1.0 Pro باشد.
مدل یادشده قبلاً به دلایلی که فقط تیم بازاریابی پیچیده گوگل میداند، با نام Gemini Pro 1.0 نامیده میشد. حالا این مدل در چندین بخش درمقایسهبا مدل قبلی خود بهبود یافته است که شاید مهمترین آنها میزان دادهای است که میتواند پردازش کند.
مدل هوش مصنوعی Gemini 1.5 Pro میتواند حدود 700 هزار کلمه یا حدود 30 هزار خط کد را پردازش کند (35 برابر مدل Gemini 1.0 Pro). ازآنجاکه این مدل چندوجهی است، به متن محدود نمیشود. Gemini 1.5 Pro میتواند حداکثر 11 ساعت صدا یا ۱ ساعت ویدئو را به زبانهای مختلف دریافت کند.
نسخه Gemini 1.5 Pro که از امروز برای اکثر توسعهدهندگان و مشتریان دردسترس است، فقط میتواند حدود 100 هزار کلمه را همزمان پردازش کند. گوگل Gemini 1.5 Pro با ورودی دادههای بزرگ را بهعنوان «آزمایشی» توصیف میکند و فقط به توسعهدهندگانی که بهعنوان بخشی از پیشنمایش خصوصی تأیید شدهاند، اجازه میدهد تا ازطریق ابزار توسعه GenAI AI Studio آن را هدایت کنند. همچنین، چندین مشتری که از پلتفرم Vertex AI گوگل استفاده میکنند، به Gemini 1.5 Pro با ورودی دادههای بزرگ دسترسی دارند؛ اما همه آنها این دسترسی را ندارند.
فهرست مطالب
زمینه بزرگ
زمینه یا پنجره زمینه هر مدل به دادههای ورودی (مانند متن) اشاره میکند که مدل قبل از تولید خروجی (مانند متن اضافی) در نظر میگیرد. سؤالی ساده مانند «چه کسی در انتخابات ریاستجمهوری آمریکا در سال 2020 برنده شد؟»، میتواند بهعنوان زمینه محسوب شود؛ مانند فیلمنامه فیلم یا ایمیل یا کتاب الکترونیکی.
مدلهایی با پنجرههای زمینه کوچک تمایل دارند حتی محتوای مکالمات بسیار قدیمی را فراموش کنند که به منحرفشدن آنها از موضوع منجر میشود. این لزوماً با مدلهایی با زمینههای بزرگ اینطور نیست. بهعنوان مزیتی اضافی، مدلهای با زمینه بزرگ حداقل ازنظر تئوری میتوانند جریان روایی دادههایی که وارد میکنند، بهتر درک و پاسخهایی با زمینه غنیتر تولید کنند. تلاشها و آزمایشهای دیگری روی مدلهایی با پنجرههای زمینه غیرمعمول بزرگ وجود داشته است.
استارتاپ هوش مصنوعی Magic تابستان گذشته ادعا کرد که مدل زبان بزرگی (LLM) با ۵ میلیون توکن زمینه توسعه داده است. اخیراً گروهی از دانشمندان متا و MIT و کارنگی ملون نیز تکنیکی توسعه دادهاند که بهگفته آنان، محدودیت اندازه پنجره زمینه مدل را کاملاً حذف میکند. بااینهمه، گوگل اولین شرکتی است که مدلی با پنجره زمینه به این بزرگی را بهطور تجاری دردسترس قرار داده است. اگر پیشنمایش خصوصی را تجاری در نظر بگیریم، رهبر قبلی Anthropic با پنجره زمینه ۲۰۰ هزار توکن را شکست میدهد.
حداکثر پنجره زمینه Gemini 1.5 Pro یکمیلیون توکن است و نسخه گستردهتر این مدل مشابه GPT-4 Turbo از OpenAI پنجره زمینه ۱۲۸ هزار توکنی دارد. حال این سؤال مطرح میشود که با پنجره زمینه یکمیلیون توکن چه کاری میتوان انجام داد؟ در جواب باید بگوییم که گوگل قولهای زیادی میدهد؛ مانند تجزیهوتحلیل کل کتابخانه کد، استدلال در اسناد طولانی مانند قراردادها، انجام مکالمات طولانی با چتبات و تجزیه و مقایسه محتوای ویدیوها.
گوگل دو دمو ازپیشضبطشده Gemini 1.5 Pro با پنجره زمینه یکمیلیون توکن فعال را نشان داده است. در اولین مورد، نمایشگر از Gemini 1.5 Pro خواست تا متن سخنرانی فرود ماه آپولو ۱۱ که حدود ۴۰۲ صفحه است، برای نقلقولهای حاوی جوک جستوجو و سپس صحنهای در پخش را پیدا کند که شبیه طرح مداد باشد. در دومین مورد، نمایشنامه به مدل گفت که صحنههایی را در شرلوک جونیور، فیلم باستر کیتون، با استفاده از توضیحات و طرحی دیگر جستوجو کند.
Gemini 1.5 Pro با موفقیت تمام کارهای خواستهشده را انجام داد؛ اما نه بهسرعت. هرکدام بین 20 تا ۶۰ ثانیه برای پردازش زمان بردند که بسیار بیشتر از مثلاً میانگین پرسوجوی ChatGPT طول میکشد.
پیشرفتهای دیگر
علاوهبر پنجره گستردهتر زمینه، Gemini 1.5 Pro ارتقاهای دیگری نیز برای راحتی کار ارائه میدهد. گوگل ادعا میکند که کیفیت Gemini 1.5 Pro بهلطف معماری جدیدی که از مدلهای «متخصص» کوچکتر و تخصصی تشکیل شده است، با نسخه فعلی Gemini Ultra، مدل GenAI پرچمدار گوگل، قابلمقایسه است. Gemini 1.5 Pro ابتدا وظایف را به چندین وظیفه کوچک تقسیم و سپس آنها را براساس پیشبینیهای خود به مدلهای متخصص مناسب تفویض میکند.
MoE چیز جدیدی نیست و سالهاست که به اشکال مختلف وجود داشته است؛ اما کارایی و انعطافپذیری آن باعث شده است که به انتخابی محبوب در میان فروشندگان مدل تبدیل شود.
اکنون، «کیفیت قابلمقایسه» کمی توصیفکننده مبهم است. کیفیت در مدلهای GenAI، بهویژه مدلهای چندوجهی، بهسختی اندازهگیریشدنی است؛ بهخصوص زمانیکه مدلها پشت پیشنمایشهای خصوصی که مطبوعات را از آن مستثنی میکند، پنهان هستند. گوگل ادعا میکند که Gemini 1.5 Pro در معیارهایی که شرکت برای توسعه LLM استفاده میکند، درمقایسهبا نسخه اولترا در سطحی مشابه بهطور گسترده عمل میکند؛ درحالیکه در 87 درصد از آن معیارها از Gemini 1.0 Pro بهتر عمل میکند.
مسئله قیمتگذاری
طبق اعلام گوگل، در نمایش خصوصی Gemini 1.5 Pro بهرایگان با یکمیلیون توکن دردسترس خواهد بود. بااینحال، این شرکت برنامهریزی کرده است که بهزودی سطوح قیمتگذاری را ارائه دهد که از ۱۲۸ هزار توکن در پنجره زمینه استاندارد آغاز میشود و تا یکمیلیون توکن افزایش مییابد.
احتمالاً پنجرههای زمینه بزرگتر قیمت ارزانتری نخواهند داشت و گوگل با انتخاب اعلامنکردن قیمتها در جلسه توجیهی، نگرانیها را رفع نکرد. اگر قیمتگذاری مشابه Anthropic باشد، هزینه ممکن است ۸ دلار برای هر یکمیلیون توکن فرمان و ۲۴ دلار برای هر یکمیلیون توکن تولیدی باشد؛ اما احتمال دارد قیمت کمتر هم باشد.