گوگل از مدل چندوجهی Gemma 4 12B رونمایی کرد + تصویر

شرکت گوگل به طور رسمی از مدل هوش مصنوعی وزن‌باز و چندوجهی Gemma 4 12B رونمایی کرد.

به گزارش سرویس هوش مصنوعی تک‌ناک، این مدل با هدف انتقال مستقیم هوش عاملی (Agentic Intelligence) به لپ‌تاپ‌ها، توازن بی‌نظیری میان بازدهی بالا در دستگاه‌های همراه و استدلال پیشرفته برقرار کرده است.

مدل چندوجهی Gemma 4 12B با قرارگیری در جایگاهی میان مدل سبک‌وزن E4B و مدل بزرگ‌تر ۲۶ میلیاردی مبتنی بر معماری MoE، کارایی فوق‌العاده‌ای را با کمترین میزان اشغال حافظه به نمایش می‌گذارد. همچنین این محصول کاربردی، نخستین مدل میان‌رده در این خانواده محسوب می‌شود که به قابلیت پردازش بومی ورودی‌های صوتی مجهز شده است.

هم‌زمان با این رونمایی، آمار دانلودهای خانواده Gemma از مرز ۱۵۰ میلیون بار عبور کرده است. این استقبال گسترده نشان می‌دهد که ابزار قدرتمند گوگل اکنون در طیف وسیعی از پروژه‌ها، از ساخت بازوهای رباتیک پوشیدنی گرفته تا توسعه سیستم‌های امنیتی هوش مصنوعی در مقیاس سازمانی، توسط توسعه‌دهندگان به کار گرفته می‌شود.

01
از 14
ویژگی‌های کلیدی مدل چندوجهی Gemma 4 12B

Gemma 4 یک معماری چندوجهی یکپارچه و بدون رمزگذار را معرفی می‌کند که در آن ورودی‌های تصویر و صدا بدون نیاز به پردازشگرهای مجزا به طور مستقیم وارد هسته اصلی مدل زبانی بزرگ می‌شوند. این رویکرد خلاقانه سبب کاهش چشمگیر تاخیر و بار حافظه در مقایسه با سیستم‌های چندوجهی سنتی شده است.

پردازش تصویر: رمزگذار تصویر با یک ماژول جاسازی سبک‌وزن جایگزین شده است که تنها از یک ضرب ماتریسی واحد، جاسازی‌های موقعیتی و نرمال‌سازی‌ها استفاده می‌کند.
پردازش صدا: رمزگذار صدا به طور کامل حذف شده است و سیگنال‌های صوتی خام به صورت مستقیم در همان فضای توکن متن قرار می‌گیرند.

این مدل، عملکردی بسیار نزدیک به مدل ۲۶ میلیاردی MoE ارائه می‌دهد، در حالی که کمتر از نصف آن حافظه را مصرف می‌کند. این ویژگی امکان استدلال چندمرحله‌ای و اجرای گردش کار عامل محور را روی لپ‌تاپ‌های دارای ۱۶ گیگابایت حافظه ویدیویی یا حافظه یکپارچه فراهم می‌سازد. Gemma 4 تحت مجوز آپاچی ۲.۰ منتشر شده است و از پیش‌نویس‌های پیش‌بینی چندتوکنی برای بهبود سرعت استنتاج و کاهش تاخیر بهره می‌برد.

بر اساس گزارش FoneArena، این مدل از قابلیت‌های عامل محور پیشرفته نظیر پردازش خودکار داده‌ها، تولید بینش‌های بصری غنی، ساخت صفحات وب کاملا کاربردی و اجرای ابزارهای روزمره پشتیبانی می‌کند. مخزن مهارت‌های جدید Gemma نیز معرفی شده است که یک کتابخانه رسمی از مهارت‌های قابل استفاده مجدد را برای ساخت سیستم‌های عاملی در اختیار توسعه‌دهندگان می‌گذارد.

02
از 14
اجرای عوامل پیشرفته به صورت محلی

مدل چندوجهی Gemma 4 12B عملکردی نزدیک به مدل‌های بزرگ‌تر ارائه می‌دهد، اما به حافظه بسیار کمتری نیاز دارد، که آن را برای کاربردهای زیر ایدئال می‌سازد:

عوامل هوش مصنوعی محلی
سیستم‌های استدلال روی دستگاه
گردش‌های کاری آفلاین و خصوصی
برنامه‌های هوش مصنوعی مبتنی بر لبه و لپ‌تاپ

03
از 14
تجربه یک معماری یکپارچه و کارآمد

سیستم‌های چندوجهی سنتی به رمزگذارهای جداگانه برای تصویر و صدا متکی هستند که تاخیر و مصرف حافظه را افزایش می‌دهد. Gemma 4 این محدودیت را از طریق طراحی کاملا یکپارچه حذف کرده است:

عدم نیاز به رمزگذارهای مجزا برای تصویر یا صدا
پردازش مستقیم در هسته اصلی مدل زبانی بزرگ
کاهش تاخیر و مصرف حافظه سیستم
بهبود ثبات استدلال بین‌وجهی

04
از 14
فرایند پردازش تصویر مدل چندوجهی Gemma 4 12B

تصویر از طریق یک ماژول جاسازی سبک با یک ضرب ماتریسی واحد، جاسازی‌های موقعیتی و نرمال‌سازی‌ها مدیریت می‌شود و جایگزین رمزگذار کامل تصویر می‌گردد.

05
از 14
فرایند پردازش صدا

صدا با حذف کامل رمزگذار و انتقال مستقیم سیگنال‌های صوتی خام به همان فضای جاسازی توکن‌های متنی پردازش می‌شود.

06
از 14
معیارهای عملکرد مدل چندوجهی Gemma 4 12B

این مدل تفاوت‌های عملکردی مشخصی را در محیط‌های پردازش گرافیکی لینوکس و Mac OS نشان می‌دهد، که شامل سرعت پیش‌پخش، سرعت رمزگشایی، تاخیر و میزان مصرف حافظه است.

لینوکس

دستگاه: ای‌ام‌دی رادئون ای‌آی پرو آر۹۷۰۰
بستر: پردازنده گرافیکی
پیش‌پردازش: ۶۶۲.۳۲ توکن در ثانیه
رمزگشایی: ۶۶.۲۶ توکن در ثانیه
زمان تا اولین توکن: ۱.۵۶ ثانیه
حجم مدل: ۶۲۳۵ مگابایت
حافظه گرافیکی: ۸۰۶۴.۲ مگابایت

Mac OS

دستگاه: مک‌بوک پرو ام ۴
بستر: پردازنده گرافیکی
پیش‌پردازش: ۲۴۳.۵۵ توکن در ثانیه
رمزگشایی: ۲۹.۵۶ توکن در ثانیه
زمان تا اولین توکن: ۴.۲ ثانیه
حجم مدل: ۶۲۳۵ مگابایت
حافظه گرافیکی: ۷۷۶۳ مگابایت

07
از 14
شروع کار از امروز

توسعه‌دهندگان می‌توانند مدل چندوجهی Gemma 4 12B را با استفاده از ابزارهای زیر آزمایش کنند:

LM Studio
Ollama
Google AI Edge Gallery
Google AI Edge Eloquent
LiteRT-LM

رونمایی گوگل از مدل هوش مصنوعی چندوجهی Gemma 4 12B

همچنین آنها می‌توانند:

با استفاده از Google Cloud نقاط پایانی تولیدی ایجاد نمایند،

وزن‌های مدل را از Hugging Face و Kaggle دانلود کنند،

مستندات توسعه‌دهندگان و دفترچه راهنمای شروع سریع را بررسی نمایند،

از فریم‌ورک‌هایی مانند Hugging Face Transformers ،llama.cpp ،MLX ،SGLang و vLLM استفاده کنند،

با استفاده از Unsloth مدل را شخصی‌سازی (Fine-tune) کنند.

08
از 14
بانک مهارت‌های مدل چندوجهی Gemma 4 12B

این مدل شامل یک بانگ مهارت‌های رسمی است که برای کمک به توسعه‌دهندگان در ساخت سیستم‌های عامل محور با استفاده از قابلیت‌های قابل استفاده مجدد Gemma طراحی شده است.

09
از 14
آوردن مدل چندوجهی Gemma 4 12B به لپ‌تاپ

این مدمل برای اجرای محلی روی ماشین‌های معمولی با استفاده از پشته گوگل ای‌آی اج طراحی شده است. این موضوع امکان پردازش خودکار داده‌ها، تولید بینش‌های بصری، ساخت صفحات وب و اجرای گردش کار عوامل کاملا محلی را فراهم می‌کند.

10
از 14
کدنویسی و گردش‌های کاری‌ پیشرفته

این مدل از قابلیت‌های اجرای محلی پیشرفته شامل تولید کد پایتون از روی دستورهای زبان طبیعی، اجرای محلی اسکریپت‌ها و تحلیل داده‌ها، تولید خودکار نمودار از مجموعه‌داده‌ها، تولید کد خوداصلاح‌گر و کارهای رندرینگ سه‌بعدی پیچیده پشتیبانی می‌کند. در آزمون‌های کدنویسی، این مدل می‌تواند خروجی‌هایی مانند نمودارها را تولید کند و حتی صحنه‌های سه‌بعدی را رندر نماید.

11
از 14
دیکته و ویرایش مبتنی بر صدا

الکوئنت گوگل ای‌آی اج یک برنامه کاملا روی دستگاه برای Mac OS است که گفتار را به نوشتار ساختاریافته تبدیل می‌کند. این برنامه دیکته صوتی در سراسر سیستم، پیاده‌سازی محلی فایل‌های صوتی و تصویری و ویرایش متن مبتنی بر صدا را ارائه می‌دهد. Gemma 4 پیروی از دستورالعمل‌ها و کیفیت خروجی را در مقایسه با مدل‌های قبلی بیش از ۶۰ درصد بهبود می‌بخشد.

دیکته و ویرایش مبتنی بر صدا در مدل چندوجهی Gemma 4 12B

12
از 14
LiteRT-LM و سرویس‌دهی محلی

LiteRT-LM یک فرمان سرویس‌دهی جدید را معرفی می‌کند که آن را به یک سرور مدل زبانی بزرگ محلی تبدیل می‌سازد. این موضوع امکان استفاده از نقاط پایانی استاندارد ای‌پی‌آی را برای مدل‌های محلی و ادغام با ابزارهای مختلف فراهم می‌کند.

گوگل از مدل هوش مصنوعی جدید خود رونمایی کرد

13
از 14
گزینه‌های استقرار مدل چندوجهی Gemma 4 12B

مدل Gemma 4 می‌تواند در پلتفرم‌های مختلف توسعه و استقرار از جمله ال‌ام استودیو، اولاما، نقاط پایانی گوگل کلود و پلتفرم عاملی جمینای اینترپرایز مستقر شود.

14
از 14
دسترس‌پذیری

این مدل به عنوان یک مدل متن‌باز تحت مجوز آپاچی ۲.۰ در دسترس است و می‌توان آن را از Hugging Face و Kaggle دانلود کرد. این مدل برای لپ‌تاپ‌های دارای ۱۶ گیگابایت حافظه بهینه‌سازی شده است و از گردش‌های کاری هوش مصنوعی چندوجهی کاملا آفلاین پشتیبانی می‌کند. این مدل با اکوسیستم گوگل ای‌آی اج ادغام شده است تا داده‌ها کاملا روی دستگاه باقی بمانند.