هوش مصنوعی Gemini 1.5 Pro گوگل منتشر شد

گوگل امروز از انتشار Gemini 1.5 Pro، جدیدترین عضو خانواده مدل‌های هوش مصنوعی مولد خود، خبر داد.

به‌گزارش تک‌ناک، گوگل مدل هوش مصنوعی Gemini 1.5 Pro را منتشر کرد. این مدل به‌گونه‌ای طراحی شده است تا جایگزین مستقیم Gemini 1.0 Pro باشد.

مدل یادشده قبلاً به دلایلی که فقط تیم بازاریابی پیچیده گوگل می‌داند، با نام Gemini Pro 1.0 نامیده می‌شد. حالا این مدل در چندین بخش درمقایسه‌با مدل قبلی خود بهبود یافته است که شاید مهم‌ترین آن‌ها میزان داده‌ای است که می‌تواند پردازش کند.

مدل هوش مصنوعی Gemini 1.5 Pro می‌تواند حدود 700 هزار کلمه یا حدود 30 هزار خط کد را پردازش کند (35 برابر مدل Gemini 1.0 Pro). از‌آنجاکه این مدل چندوجهی است، به متن محدود نمی‌شود. Gemini 1.5 Pro می‌تواند حداکثر 11 ساعت صدا یا ۱ ساعت ویدئو را به زبان‌های مختلف دریافت کند.

نسخه Gemini 1.5 Pro که از امروز برای اکثر توسعه‌دهندگان و مشتریان در‌دسترس است، فقط می‌تواند حدود 100 هزار کلمه را هم‌زمان پردازش کند. گوگل Gemini 1.5 Pro با ورودی داده‌های بزرگ را به‌عنوان «آزمایشی» توصیف می‌کند و فقط به توسعه‌دهندگانی که به‌عنوان بخشی از پیش‌نمایش خصوصی تأیید شده‌اند، اجازه می‌دهد تا از‌طریق ابزار توسعه GenAI AI Studio آن را هدایت کنند. همچنین، چندین مشتری که از پلتفرم Vertex AI گوگل استفاده می‌کنند، به Gemini 1.5 Pro با ورودی داده‌های بزرگ دسترسی دارند؛ اما همه آن‌ها این دسترسی را ندارند.

01
از 03
زمینه بزرگ

زمینه یا پنجره زمینه هر مدل به داده‌های ورودی (مانند متن) اشاره می‌کند که مدل قبل از تولید خروجی (مانند متن اضافی) در نظر می‌گیرد. سؤالی ساده مانند «چه کسی در انتخابات ریاست‌جمهوری آمریکا در سال 2020 برنده شد؟»، می‌تواند به‌عنوان زمینه محسوب شود؛ مانند فیلم‌نامه فیلم یا ایمیل یا کتاب الکترونیکی.

مدل‌هایی با پنجره‌های زمینه کوچک تمایل دارند حتی محتوای مکالمات بسیار قدیمی را فراموش کنند که به منحرف‌شدن آن‌ها از موضوع منجر می‌شود. این لزوماً با مدل‌هایی با زمینه‌های بزرگ این‌طور نیست. به‌عنوان مزیتی اضافی، مدل‌های با زمینه بزرگ حداقل ازنظر تئوری می‌توانند جریان روایی داده‌هایی که وارد می‌کنند، بهتر درک و پاسخ‌هایی با زمینه غنی‌تر تولید کنند. تلاش‌ها و آزمایش‌های دیگری روی مدل‌هایی با پنجره‌های زمینه غیرمعمول بزرگ وجود داشته است.

استارتاپ هوش مصنوعی Magic تابستان گذشته ادعا کرد که مدل زبان بزرگی (LLM) با ۵ میلیون توکن زمینه توسعه داده است. اخیراً گروهی از دانشمندان متا و MIT و کارنگی ملون نیز تکنیکی توسعه داده‌اند که به‌گفته آنان، محدودیت اندازه پنجره زمینه مدل را کاملاً حذف می‌کند. بااین‌همه، گوگل اولین شرکتی است که مدلی با پنجره زمینه به این بزرگی را به‌طور تجاری در‌دسترس قرار داده است. اگر پیش‌نمایش خصوصی را تجاری در نظر بگیریم، رهبر قبلی Anthropic با پنجره زمینه ۲۰۰ هزار توکن را شکست می‌دهد.

حداکثر پنجره زمینه Gemini 1.5 Pro یک‌میلیون توکن است و نسخه گسترده‌تر این مدل مشابه GPT-4 Turbo از OpenAI پنجره زمینه ۱۲۸ هزار توکنی دارد. حال این سؤال مطرح می‌شود که با پنجره زمینه یک‌میلیون توکن چه کاری می‌توان انجام داد؟ در جواب باید بگوییم که گوگل قول‌های زیادی می‌دهد؛ مانند تجزیه‌و‌تحلیل کل کتابخانه کد، استدلال در اسناد طولانی مانند قراردادها، انجام مکالمات طولانی با چت‌بات و تجزیه و مقایسه محتوای ویدیوها.

گوگل دو دمو از‌پیش‌ضبط‌شده Gemini 1.5 Pro با پنجره زمینه یک‌میلیون توکن فعال را نشان داده است. در اولین مورد، نمایشگر از Gemini 1.5 Pro خواست تا متن سخنرانی فرود ماه آپولو ۱۱ که حدود ۴۰۲ صفحه است، برای نقل‌قول‌های حاوی جوک جست‌وجو و سپس صحنه‌ای در پخش را پیدا کند که شبیه طرح مداد باشد. در دومین مورد، نمایشنامه به مدل گفت که صحنه‌هایی را در شرلوک جونیور، فیلم باستر کیتون، با استفاده از توضیحات و طرحی دیگر جست‌وجو کند.

Gemini 1.5 Pro با موفقیت تمام کارهای خواسته‌شده را انجام داد؛ اما نه به‌‌سرعت. هر‌کدام بین 20 تا ۶۰ ثانیه برای پردازش زمان بردند که بسیار بیشتر از مثلاً میانگین پرس‌و‌جوی ChatGPT طول می‌کشد.

02
از 03
پیشرفت‌های دیگر

علاوه‌بر پنجره گسترده‌تر زمینه، Gemini 1.5 Pro ارتقاهای دیگری نیز برای راحتی کار ارائه می‌دهد. گوگل ادعا می‌کند که کیفیت Gemini 1.5 Pro به‌لطف معماری جدیدی که از مدل‌های «متخصص» کوچک‌تر و تخصصی تشکیل شده است، با نسخه فعلی Gemini Ultra، مدل GenAI پرچم‌دار گوگل، قابل‌مقایسه است. Gemini 1.5 Pro ابتدا وظایف را به چندین وظیفه کوچک تقسیم و سپس آن‌ها را بر‌اساس پیش‌بینی‌های خود به مدل‌های متخصص مناسب تفویض می‌کند.

MoE چیز جدیدی نیست و سالهاست که به اشکال مختلف وجود داشته است؛ اما کارایی و انعطاف‌پذیری آن باعث شده است که به انتخابی محبوب در میان فروشندگان مدل تبدیل شود.

اکنون، «کیفیت قابل‌مقایسه» کمی توصیف‌کننده مبهم است. کیفیت در مدل‌های GenAI، به‌ویژه مدل‌های چندوجهی، به‌سختی اندازه‌گیری‌شدنی است؛ به‌خصوص زمانی‌که مدل‌ها پشت پیش‌نمایش‌های خصوصی که مطبوعات را از آن مستثنی می‌کند، پنهان هستند. گوگل ادعا می‌کند که Gemini 1.5 Pro در معیارهایی که شرکت برای توسعه LLM استفاده می‌کند، در‌مقایسه‌با نسخه اولترا در سطحی مشابه به‌طور گسترده عمل می‌کند؛ در‌حالی‌که در 87 درصد از آن معیارها از Gemini 1.0 Pro بهتر عمل می‌کند.

03
از 03
مسئله قیمت‌گذاری

طبق اعلام گوگل، در نمایش خصوصی Gemini 1.5 Pro به‌رایگان با یک‌میلیون توکن در‌دسترس خواهد بود. با‌این‌حال، این شرکت برنامه‌ریزی کرده است که به‌زودی سطوح قیمت‌گذاری را ارائه دهد که از ۱۲۸ هزار توکن در پنجره زمینه استاندارد آغاز می‌شود و تا یک‌میلیون توکن افزایش می‌یابد.

احتمالاً پنجره‌های زمینه بزرگ‌تر قیمت ارزان‌تری نخواهند داشت و گوگل با انتخاب اعلام‌نکردن قیمت‌ها در جلسه توجیهی، نگرانی‌ها را رفع نکرد. اگر قیمت‌گذاری مشابه Anthropic باشد، هزینه ممکن است ۸ دلار برای هر یک‌میلیون توکن فرمان و ۲۴ دلار برای هر یک‌میلیون توکن تولیدی باشد؛ اما احتمال دارد قیمت کمتر هم باشد.