فهرست مطالب
شرکت گوگل به طور رسمی از مدل هوش مصنوعی وزنباز و چندوجهی Gemma 4 12B رونمایی کرد.
به گزارش سرویس هوش مصنوعی تکناک، این مدل با هدف انتقال مستقیم هوش عاملی (Agentic Intelligence) به لپتاپها، توازن بینظیری میان بازدهی بالا در دستگاههای همراه و استدلال پیشرفته برقرار کرده است.
مدل چندوجهی Gemma 4 12B با قرارگیری در جایگاهی میان مدل سبکوزن E4B و مدل بزرگتر ۲۶ میلیاردی مبتنی بر معماری MoE، کارایی فوقالعادهای را با کمترین میزان اشغال حافظه به نمایش میگذارد. همچنین این محصول کاربردی، نخستین مدل میانرده در این خانواده محسوب میشود که به قابلیت پردازش بومی ورودیهای صوتی مجهز شده است.
همزمان با این رونمایی، آمار دانلودهای خانواده Gemma از مرز ۱۵۰ میلیون بار عبور کرده است. این استقبال گسترده نشان میدهد که ابزار قدرتمند گوگل اکنون در طیف وسیعی از پروژهها، از ساخت بازوهای رباتیک پوشیدنی گرفته تا توسعه سیستمهای امنیتی هوش مصنوعی در مقیاس سازمانی، توسط توسعهدهندگان به کار گرفته میشود.
01
از 14ویژگیهای کلیدی مدل چندوجهی Gemma 4 12B
Gemma 4 یک معماری چندوجهی یکپارچه و بدون رمزگذار را معرفی میکند که در آن ورودیهای تصویر و صدا بدون نیاز به پردازشگرهای مجزا به طور مستقیم وارد هسته اصلی مدل زبانی بزرگ میشوند. این رویکرد خلاقانه سبب کاهش چشمگیر تاخیر و بار حافظه در مقایسه با سیستمهای چندوجهی سنتی شده است.
- پردازش تصویر: رمزگذار تصویر با یک ماژول جاسازی سبکوزن جایگزین شده است که تنها از یک ضرب ماتریسی واحد، جاسازیهای موقعیتی و نرمالسازیها استفاده میکند.
- پردازش صدا: رمزگذار صدا به طور کامل حذف شده است و سیگنالهای صوتی خام به صورت مستقیم در همان فضای توکن متن قرار میگیرند.
این مدل، عملکردی بسیار نزدیک به مدل ۲۶ میلیاردی MoE ارائه میدهد، در حالی که کمتر از نصف آن حافظه را مصرف میکند. این ویژگی امکان استدلال چندمرحلهای و اجرای گردش کار عامل محور را روی لپتاپهای دارای ۱۶ گیگابایت حافظه ویدیویی یا حافظه یکپارچه فراهم میسازد. Gemma 4 تحت مجوز آپاچی ۲.۰ منتشر شده است و از پیشنویسهای پیشبینی چندتوکنی برای بهبود سرعت استنتاج و کاهش تاخیر بهره میبرد.
بر اساس گزارش FoneArena، این مدل از قابلیتهای عامل محور پیشرفته نظیر پردازش خودکار دادهها، تولید بینشهای بصری غنی، ساخت صفحات وب کاملا کاربردی و اجرای ابزارهای روزمره پشتیبانی میکند. مخزن مهارتهای جدید Gemma نیز معرفی شده است که یک کتابخانه رسمی از مهارتهای قابل استفاده مجدد را برای ساخت سیستمهای عاملی در اختیار توسعهدهندگان میگذارد.
02
از 14اجرای عوامل پیشرفته به صورت محلی
مدل چندوجهی Gemma 4 12B عملکردی نزدیک به مدلهای بزرگتر ارائه میدهد، اما به حافظه بسیار کمتری نیاز دارد، که آن را برای کاربردهای زیر ایدئال میسازد:
- عوامل هوش مصنوعی محلی
- سیستمهای استدلال روی دستگاه
- گردشهای کاری آفلاین و خصوصی
- برنامههای هوش مصنوعی مبتنی بر لبه و لپتاپ
03
از 14تجربه یک معماری یکپارچه و کارآمد
سیستمهای چندوجهی سنتی به رمزگذارهای جداگانه برای تصویر و صدا متکی هستند که تاخیر و مصرف حافظه را افزایش میدهد. Gemma 4 این محدودیت را از طریق طراحی کاملا یکپارچه حذف کرده است:
- عدم نیاز به رمزگذارهای مجزا برای تصویر یا صدا
- پردازش مستقیم در هسته اصلی مدل زبانی بزرگ
- کاهش تاخیر و مصرف حافظه سیستم
- بهبود ثبات استدلال بینوجهی
04
از 14فرایند پردازش تصویر مدل چندوجهی Gemma 4 12B
تصویر از طریق یک ماژول جاسازی سبک با یک ضرب ماتریسی واحد، جاسازیهای موقعیتی و نرمالسازیها مدیریت میشود و جایگزین رمزگذار کامل تصویر میگردد.
05
از 14فرایند پردازش صدا
صدا با حذف کامل رمزگذار و انتقال مستقیم سیگنالهای صوتی خام به همان فضای جاسازی توکنهای متنی پردازش میشود.
06
از 14معیارهای عملکرد مدل چندوجهی Gemma 4 12B
این مدل تفاوتهای عملکردی مشخصی را در محیطهای پردازش گرافیکی لینوکس و Mac OS نشان میدهد، که شامل سرعت پیشپخش، سرعت رمزگشایی، تاخیر و میزان مصرف حافظه است.

لینوکس
- دستگاه: ایامدی رادئون ایآی پرو آر۹۷۰۰
- بستر: پردازنده گرافیکی
- پیشپردازش: ۶۶۲.۳۲ توکن در ثانیه
- رمزگشایی: ۶۶.۲۶ توکن در ثانیه
- زمان تا اولین توکن: ۱.۵۶ ثانیه
- حجم مدل: ۶۲۳۵ مگابایت
- حافظه گرافیکی: ۸۰۶۴.۲ مگابایت
Mac OS
- دستگاه: مکبوک پرو ام ۴
- بستر: پردازنده گرافیکی
- پیشپردازش: ۲۴۳.۵۵ توکن در ثانیه
- رمزگشایی: ۲۹.۵۶ توکن در ثانیه
- زمان تا اولین توکن: ۴.۲ ثانیه
- حجم مدل: ۶۲۳۵ مگابایت
- حافظه گرافیکی: ۷۷۶۳ مگابایت
07
از 14شروع کار از امروز
توسعهدهندگان میتوانند مدل چندوجهی Gemma 4 12B را با استفاده از ابزارهای زیر آزمایش کنند:
- LM Studio
- Ollama
- Google AI Edge Gallery
- Google AI Edge Eloquent
- LiteRT-LM

همچنین آنها میتوانند:
- با استفاده از Google Cloud نقاط پایانی تولیدی ایجاد نمایند،
- وزنهای مدل را از Hugging Face و Kaggle دانلود کنند،
- مستندات توسعهدهندگان و دفترچه راهنمای شروع سریع را بررسی نمایند،
- از فریمورکهایی مانند Hugging Face Transformers ،llama.cpp ،MLX ،SGLang و vLLM استفاده کنند،
- با استفاده از Unsloth مدل را شخصیسازی (Fine-tune) کنند.
08
از 14بانک مهارتهای مدل چندوجهی Gemma 4 12B
این مدل شامل یک بانگ مهارتهای رسمی است که برای کمک به توسعهدهندگان در ساخت سیستمهای عامل محور با استفاده از قابلیتهای قابل استفاده مجدد Gemma طراحی شده است.
09
از 14آوردن مدل چندوجهی Gemma 4 12B به لپتاپ
این مدمل برای اجرای محلی روی ماشینهای معمولی با استفاده از پشته گوگل ایآی اج طراحی شده است. این موضوع امکان پردازش خودکار دادهها، تولید بینشهای بصری، ساخت صفحات وب و اجرای گردش کار عوامل کاملا محلی را فراهم میکند.
10
از 14کدنویسی و گردشهای کاری پیشرفته
این مدل از قابلیتهای اجرای محلی پیشرفته شامل تولید کد پایتون از روی دستورهای زبان طبیعی، اجرای محلی اسکریپتها و تحلیل دادهها، تولید خودکار نمودار از مجموعهدادهها، تولید کد خوداصلاحگر و کارهای رندرینگ سهبعدی پیچیده پشتیبانی میکند. در آزمونهای کدنویسی، این مدل میتواند خروجیهایی مانند نمودارها را تولید کند و حتی صحنههای سهبعدی را رندر نماید.
11
از 14دیکته و ویرایش مبتنی بر صدا
الکوئنت گوگل ایآی اج یک برنامه کاملا روی دستگاه برای Mac OS است که گفتار را به نوشتار ساختاریافته تبدیل میکند. این برنامه دیکته صوتی در سراسر سیستم، پیادهسازی محلی فایلهای صوتی و تصویری و ویرایش متن مبتنی بر صدا را ارائه میدهد. Gemma 4 پیروی از دستورالعملها و کیفیت خروجی را در مقایسه با مدلهای قبلی بیش از ۶۰ درصد بهبود میبخشد.

12
از 14LiteRT-LM و سرویسدهی محلی
LiteRT-LM یک فرمان سرویسدهی جدید را معرفی میکند که آن را به یک سرور مدل زبانی بزرگ محلی تبدیل میسازد. این موضوع امکان استفاده از نقاط پایانی استاندارد ایپیآی را برای مدلهای محلی و ادغام با ابزارهای مختلف فراهم میکند.

13
از 14گزینههای استقرار مدل چندوجهی Gemma 4 12B
مدل Gemma 4 میتواند در پلتفرمهای مختلف توسعه و استقرار از جمله الام استودیو، اولاما، نقاط پایانی گوگل کلود و پلتفرم عاملی جمینای اینترپرایز مستقر شود.
14
از 14دسترسپذیری
این مدل به عنوان یک مدل متنباز تحت مجوز آپاچی ۲.۰ در دسترس است و میتوان آن را از Hugging Face و Kaggle دانلود کرد. این مدل برای لپتاپهای دارای ۱۶ گیگابایت حافظه بهینهسازی شده است و از گردشهای کاری هوش مصنوعی چندوجهی کاملا آفلاین پشتیبانی میکند. این مدل با اکوسیستم گوگل ایآی اج ادغام شده است تا دادهها کاملا روی دستگاه باقی بمانند.

















