گوگل در مسیر ساخت «مدل جهانی» برای شکل‌دهی به آینده هوش مصنوعی

شرکت گوگل با رونمایی از استراتژی جاه‌طلبانه‌ خود در رویداد I/O 2025، تلاش دارد مسیر آینده هوش مصنوعی را با ساخت یک «مدل جهانی» بازتعریف کند.

به گزارش تک‌ناک، این مدل فراتر از ابزارها و اپلیکیشن‌ها، به‌مثابه یک لایه عملیاتی عمومی برای همه‌ برنامه‌ها عمل خواهد کرد و قرار است تبدیل به زیرساخت اصلی تعامل میان انسان و ماشین در دهه پیش‌رو شود، لایه‌ای که درک محیط، استدلال، تصمیم‌گیری و اقدام را برای دستیاران هوشمند امکان‌پذیر می‌کند.

دمیش هسابیس، مدیرعامل دیپ‌مایند در سخنرانی اصلی رویداد، این چشم‌انداز را با عنوان «مدل جهانی» تبیین کرد و آن را گامی کلیدی در مسیر رسیدن به هوش عمومی مصنوعی (AGI) دانست.

به گفته او، این مدل قرار است توانایی‌هایی مشابه مغز انسان، مانند: شبیه‌سازی تجربیات، درک فیزیک شهودی و پیش‌بینی اثرات علّی را به هوش مصنوعی بیاموزد.

شرکت گوگل این مدل جهانی را قلب دستیار جامع خود، یعنی “Gemini”، قرار داده، که اکنون در حال گسترش نفوذ در بسیاری از محصولات و خدمات گوگل، از جست‌وجو گرفته تا Gmail و Calendar و حتی تحلیل ویدیوی زنده است.

گوگل به دنبال ساخت «مدل جهانی» برای شکل‌دهی به آینده هوش مصنوعی — نقشه زمانی “Shipping at Relentless Pace” گوگل، پیشرفت‌های شتاب‌زده این شرکت در حوزه هوش مصنوعی از مه ۲۰۲۴ تا مه ۲۰۲۵ را نشان می‌دهد؛ از معرفی مدل‌هایی مانند Gemini 1.5، AlphaFold 3 و Veo، تا عرضه Gemini 3، AlphaEvolve و Gemini Robotics. در بخش محصولات نیز شاهد ابزارهایی مانند AI Overviews، Gemini Live، Gemini Can در بخش محصولات و قابلیت‌ها، گوگل از خرداد ۱۴۰۳ تا اردیبهشت ۱۴۰۴ ابزارهایی مانند AI Overviews، VideoFX، Gemini Live، و NotebookLM Audio معرفی کرده و در ادامه قابلیت‌هایی مانند Career Dreamer، Veo 2 Dream Screen، Gemini Canvas، شخصی‌سازی Gemini و نسخه‌هایی برای ساعت، خودرو و تلویزیون را عرضه کرده است.

شرکت گوگل برای تحقق مدل جهانی، مجموعه‌ای از فناوری‌ها و پروژه‌های مکمل را نیز معرفی کرد. پروژه Astra به‌ عنوان نمونه‌ای از دستیار هوشمند آینده، قابلیت درک زنده محیط از طریق دوربین و ویدیو را دارد. ابزار Flow که با مدل Veo 3 کار می‌کند، امکان تولید ویدیوهایی با تداوم کاراکتر و حرکت دوربین را فراهم می‌آورد و پروژه Mariner نیز به‌ عنوان ابزار اتوماسیون مرورگر، نه‌تنها برای Chrome بلکه به‌زودی از طریق API جمینی در دسترس توسعه‌دهندگان خارجی نیز قرار خواهد گرفت. این شرکت در کنار آنها، از مدل جدید Gemini Diffusion نیز رونمایی کرد، که می‌تواند فراتر از معماری Transformer سنتی عمل کند و بهره‌وری را در تولیدات هوش مصنوعی افزایش دهد.

ساندار پیچای، مدیرعامل گوگل اعلام کرد که این شرکت از نظر مقیاس فنی، هم‌اکنون ماهانه بیش از ۴۸۰ تریلیون توکن پردازش می‌کند؛ رقمی که ۵۰ برابر سال گذشته و پنج برابر توان عملیاتی اعلام‌شده توسط مایکروسافت است.

در همین حال، تعداد توسعه‌دهندگانی که از API جمینی استفاده می‌کنند، از ۱.۵ میلیون نفر در سال گذشته به ۷ میلیون نفر رسیده است. استفاده از مدل‌های جمینی در Vertex AI نیز بیش از ۴۰ برابر رشد داشته‌اند و مدل‌های جدید TPU موسوم به Ironwood هزینه‌ها را کاهش و بهره‌وری انرژی را به شکل قابل توجهی افزایش داده‌اند. سرویس AI Overviews گوگل نیز اکنون ماهانه به بیش از ۱.۵ میلیارد کاربر خدمات می‌دهد و حالت جدید AI Mode نیز در ایالات متحده در حال انتشار گسترده است.

شرکت گوگل با ارائه نقشه‌ راهی دقیق از برنامه‌های خود در حوزه هوش مصنوعی، نشان داد که این شرکت مصمم است با سرعتی بی‌سابقه، مدل‌های تحقیقاتی، ابزارهای پیشرفته و محصولات کاربرمحور را روانه بازار کند. این برنامه که با عنوان Shipping at Relentless Pace معرفی شده، از مه ۲۰۲۴ آغاز شده است و تا مه ۲۰۲۵ ادامه دارد.

این شرکت در بازه زمانی یک‌ساله، ده‌ها پروژه در دو حوزه‌ اصلی تحقیقات و مدل‌ها و محصولات و قابلیت‌ها معرفی کرده است. از مدل‌هایی مانند Gemini 1.5 Flash و Imagen 3 گرفته تا ابزارهای کاربردی مثل Gemini Canvas و Live Screen Share، همه نشان‌دهنده رویکردی ساختارمند برای ادغام سریع هوش مصنوعی در زندگی روزمره کاربران هستند.

در نیمه اول این برنامه، تمرکز گوگل بر عرضه مدل‌های بنیادی و قابلیت‌های تحلیل تصویری و زبانی بود. در ادامه، این مدل‌ها در قالب محصولاتی تعاملی و چندرسانه‌ای مانند: Gemini Live، AgentSpace و Career Dreamer ارائه شدند.

شرکت گوگل در سال ۲۰۲۵، با معرفی مدل‌های Gemini 2.0 Pro، Gemini 3 و در نهایت Gemini 2.5 Pro که در مراسم Google I/O رونمایی شد، نشان داد که این مدل‌ها نه‌تنها قوی‌تر شده‌اند، بلکه قابلیت اجرا در طیف گسترده‌ای از پلتفرم‌ها از جمله تلویزیون‌ها، خودروها و ساعت‌های هوشمند را دارند.

با وجود این، مسیر پیش‌روی گوگل با چالش‌های جدی همراه است. در حالی که مایکروسافت با بهره‌گیری از جایگاه تثبیت‌شده‌ خود در فضای سازمانی و ابزارهایی چون Copilot در Office 365 و Azure AI Foundry در حال تحکیم جایگاه خود است، گوگل باید هم‌زمان از امپراتوری ۲۰۰ میلیارد دلاری جست‌وجوی خود محافظت کند، با فشارهای قانونی و ضدانحصاری در ایالات متحده و اروپا مقابله نماید، همچنین سرعت توسعه و پیاده‌سازی را در مقیاس جهانی افزایش دهد. علاوه بر این، شرکت OpenAI با بیش از ۶۰۰ میلیون کاربر ماهانه برای ChatGPT و ورود به حوزه جست‌وجو و تبلیغات، تهدیدی بالقوه برای مدل تجاری گوگل به‌ حساب می‌آید. گفته می‌شود که این شرکت در حال طراحی سخت‌افزار اختصاصی با همکاری جانی آیو، طراح پیشین اپل است، که امکان دارد فصل جدیدی از رقابت را رقم بزند.

در همین حال، آمازون نیز با ارائه زیرساخت Bedrock و میزبانی مدل‌های شرکت‌هایی مانند: Anthropic، Meta، Mistral و Cohere، سهم مهمی از بازار چندمدلی سازمانی را به خود اختصاص داده است. در این فضای رقابتی شدید، گوگل تلاش دارد با ارائه ابزارهایی متنوع از جمله AI Studio، Firebase Studio و Vertex AI، هم‌زمان توسعه‌دهندگان انفرادی و شرکت‌های بزرگ را جذب کند.

مسئله کلیدی در این رقابت، سرعت اجرا و کیفیت یکپارچه‌سازی فناوری‌ها است. گوگل که پیش‌تر به کندی در تجاری‌سازی متهم شده بود، در سال گذشته نشان داد که با سرمایه‌گذاری سنگین در زیرساخت، توانسته است سرعت توسعه را به‌طرز چشم‌گیری افزایش دهد. هرچند، این شرکت باید تعادل دشواری را میان حفظ انحصار بر دارایی‌های کلیدی‌ خود و ارائه دسترسی باز به اکوسیستم توسعه‌دهندگان برقرار کند.

اگر گوگل بتواند در تحقق مدل جهانی موفق عمل کند، به احتمال زیاد شاهد شکل‌گیری لایه‌ای جدید از تعامل انسان و ماشین خواهیم بود؛ لایه‌ای که مانند سیستم‌عامل‌های سنتی، اما بسیار هوشمندتر، مبنای اصلی عملکرد دستیارهای شخصی، سازمانی و عمومی خواهد شد. اما اگر این تلاش بزرگ با شکست مواجه شود، ممکن است آینده توسط رقبایی رقم بخورد که با تمرکز کمتر اما سرعت و وضوح بیشتر، مسیرهای مشخص‌تری را در پیش گرفته‌اند.

در نهایت، چند سال آینده تعیین خواهد کرد که آیا جاه‌طلبی گوگل در معماری آینده، به واقعیتی پایدار تبدیل می‌شود یا به نمونه‌ای از زیاده‌خواهی راهبردی بدل خواهد شد، که در رقابت با بازیگرانی چابک‌تر ناکام مانده است. این رقابت، نه‌فقط رقابت بر سر ابزارها، بلکه نبردی برای تعیین زبان مشترک آینده میان انسان و فناوری خواهد بود.