شرکت OpenAI با معرفی مدل‌های قدرتمندتر، تمرکز خود را بر توسعه‌دهندگان افزایش داد

شرکت OpenAI در جریان رویداد سالانه Dev Day 2025 با معرفی مدل‌های قدرتمندتر، تمرکز خود را بر توسعه‌دهندگان افزایش داد.

به گزارش تک‌ناک، این شرکت از مجموعه‌ به‌روزرسانی‌های گسترده برای API خود رونمایی کرد؛ مجموعه‌ای که شامل مدل زبانی جدید GPT-5 Pro، مدل ویدیوساز پیشرفته Sora 2 و مدل صوتی کم‌هزینه‌تر gpt-realtime mini می‌شود. این حرکت، بخشی از استراتژی تازه OpenAI برای تقویت جایگاه خود به عنوان بستر اصلی توسعه اپلیکیشن‌های هوش مصنوعی و جذب هرچه بیشتر توسعه‌دهندگان است.

به گفته سم آلتمن، مدیرعامل OpenAI، مدل GPT-5 Pro برای صنایعی طراحی شده است که نیازمند دقت بالا و استدلال عمیق هستند، که از جمله آنها می‌توان به حوزه‌های مالی، حقوقی و سلامت اشاره کرد. این مدل، نسخه‌ای ارتقایافته از خانواده GPT است که با درک بهتر زمینه، تحلیل چندلایه و پاسخ‌دهی سازگارتر، تلاش دارد به نیازهای پیچیده‌تر کاربران حرفه‌ای پاسخ دهد.

همچنین آلتمن در سخنان خود تأکید کرد که تعامل صوتی، آینده ارتباط انسان و هوش مصنوعی خواهد بود. او با اشاره به افزایش استفاده از دستیارهای گفتاری و تعامل‌های صوتی در پلتفرم‌های هوش مصنوعی گفت: «در آینده‌ای نزدیک، صدا همان رابط اصلی ارتباط کاربران با مدل‌های ما خواهد شد.» در همین راستا، OpenAI از gpt-realtime mini پرده برداشت؛ مدلی سبک‌تر و ۷۰ درصد ارزان‌تر از مدل صوتی پیشرفته قبلی، که برای گفت‌وگوهای زنده و پردازش آنی طراحی شده است. با وجود کاهش هزینه، این مدل کیفیت و طبیعی‌ بودن صدا را حفظ می‌کند و امکان اجرای روان مکالمات صوتی در اپلیکیشن‌ها را فراهم می‌آورد.

اما شاید چشمگیرترین بخش رویداد، عرضه Sora 2 در API بود؛ نسل دوم مولد ویدیو و صدا که اکنون در اختیار توسعه‌دهندگان قرار گرفته است. این مدل به‌ تازگی همراه با اپلیکیشن Sora عرضه شده بود؛ پلتفرمی با ساختاری مشابه تیک‌تاک که کاربران را قادر می‌سازد تنها با وارد کردن یک متن، ویدیوهایی از خود یا دوستان خود بسازند و در فید الگوریتمی به اشتراک بگذارند.

آلتمن اعلام کرد: «توسعه‌دهندگان اکنون می‌توانند از همان مدلی استفاده کنند که خروجی‌های ویدیویی خیره‌کننده Sora 2 را تولید می‌کند و آن را به صورت مستقیم در اپلیکیشن خود به کار گیرند.»

شرکت OpenAI با عرضه مدل‌های قدرتمندتر، تمرکز خود را بر توسعه‌دهندگان افزایش می دهد

مدل Sora 2 نسبت به نسل پیشین خود، در خلق صحنه‌های واقعی‌تر و هماهنگی دقیق‌تر میان تصویر و صدا پیشرفت چشمگیری دارد. این مدل از جهت‌دهی دوربین، سبک‌های بصری گوناگون و صدای محیطی هوشمند پشتیبانی می‌کند و می‌تواند میان عناصر بصری و صوتی هماهنگی فیزیکی برقرار کند.

آلتمن در توضیح قابلیت‌های خلاقانه Sora 2 گفت: «برای مثال، می‌توانید نمایی معمولی از آیفون را به مدل بدهید تا آن را به یک نمای سینمایی گسترده با جلوه‌های بصری و صوتی واقع‌گرایانه تبدیل کند. یکی از هیجان‌انگیزترین ویژگی‌های این مدل، هماهنگی دقیق صدا با تصویر است؛ از گفتار گرفته تا صدای پس‌زمینه و افکت‌های محیطی که بر اساس صحنه تولید می‌شوند.»

شرکت OpenAI از Sora 2 به عنوان ابزاری برای توسعه مفاهیم خلاقانه، از ساخت ویدیوهای تبلیغاتی مفهومی تا طراحی محصولات یاد می‌کند. آلتمن در بخشی از سخنرانی خود به نمونه همکاری با شرکت Mattel اشاره کرد؛ جایی که طراحان این برند با کمک Sora می‌توانند طرح‌های اولیه اسباب‌بازی‌ها را به مدل‌های مفهومی و قابل نمایش تبدیل کنند.

شرکت OpenAI با معرفی این مدل‌های قدرتمندتر تلاش می‌کند موقعیت خود را به‌ عنوان پیشروترین پلتفرم توسعه هوش مصنوعی تثبیت کند؛ جایی که از پردازش زبان طبیعی گرفته تا تولید صدا و تصویر، همگی در یک اکوسیستم واحد در دسترس توسعه‌دهندگان قرار دارد.