شرکت OpenAI در جریان رویداد سالانه Dev Day 2025 با معرفی مدلهای قدرتمندتر، تمرکز خود را بر توسعهدهندگان افزایش داد.
به گزارش تکناک، این شرکت از مجموعه بهروزرسانیهای گسترده برای API خود رونمایی کرد؛ مجموعهای که شامل مدل زبانی جدید GPT-5 Pro، مدل ویدیوساز پیشرفته Sora 2 و مدل صوتی کمهزینهتر gpt-realtime mini میشود. این حرکت، بخشی از استراتژی تازه OpenAI برای تقویت جایگاه خود به عنوان بستر اصلی توسعه اپلیکیشنهای هوش مصنوعی و جذب هرچه بیشتر توسعهدهندگان است.
به گفته سم آلتمن، مدیرعامل OpenAI، مدل GPT-5 Pro برای صنایعی طراحی شده است که نیازمند دقت بالا و استدلال عمیق هستند، که از جمله آنها میتوان به حوزههای مالی، حقوقی و سلامت اشاره کرد. این مدل، نسخهای ارتقایافته از خانواده GPT است که با درک بهتر زمینه، تحلیل چندلایه و پاسخدهی سازگارتر، تلاش دارد به نیازهای پیچیدهتر کاربران حرفهای پاسخ دهد.
همچنین آلتمن در سخنان خود تأکید کرد که تعامل صوتی، آینده ارتباط انسان و هوش مصنوعی خواهد بود. او با اشاره به افزایش استفاده از دستیارهای گفتاری و تعاملهای صوتی در پلتفرمهای هوش مصنوعی گفت: «در آیندهای نزدیک، صدا همان رابط اصلی ارتباط کاربران با مدلهای ما خواهد شد.» در همین راستا، OpenAI از gpt-realtime mini پرده برداشت؛ مدلی سبکتر و ۷۰ درصد ارزانتر از مدل صوتی پیشرفته قبلی، که برای گفتوگوهای زنده و پردازش آنی طراحی شده است. با وجود کاهش هزینه، این مدل کیفیت و طبیعی بودن صدا را حفظ میکند و امکان اجرای روان مکالمات صوتی در اپلیکیشنها را فراهم میآورد.
اما شاید چشمگیرترین بخش رویداد، عرضه Sora 2 در API بود؛ نسل دوم مولد ویدیو و صدا که اکنون در اختیار توسعهدهندگان قرار گرفته است. این مدل به تازگی همراه با اپلیکیشن Sora عرضه شده بود؛ پلتفرمی با ساختاری مشابه تیکتاک که کاربران را قادر میسازد تنها با وارد کردن یک متن، ویدیوهایی از خود یا دوستان خود بسازند و در فید الگوریتمی به اشتراک بگذارند.
آلتمن اعلام کرد: «توسعهدهندگان اکنون میتوانند از همان مدلی استفاده کنند که خروجیهای ویدیویی خیرهکننده Sora 2 را تولید میکند و آن را به صورت مستقیم در اپلیکیشن خود به کار گیرند.»

مدل Sora 2 نسبت به نسل پیشین خود، در خلق صحنههای واقعیتر و هماهنگی دقیقتر میان تصویر و صدا پیشرفت چشمگیری دارد. این مدل از جهتدهی دوربین، سبکهای بصری گوناگون و صدای محیطی هوشمند پشتیبانی میکند و میتواند میان عناصر بصری و صوتی هماهنگی فیزیکی برقرار کند.
آلتمن در توضیح قابلیتهای خلاقانه Sora 2 گفت: «برای مثال، میتوانید نمایی معمولی از آیفون را به مدل بدهید تا آن را به یک نمای سینمایی گسترده با جلوههای بصری و صوتی واقعگرایانه تبدیل کند. یکی از هیجانانگیزترین ویژگیهای این مدل، هماهنگی دقیق صدا با تصویر است؛ از گفتار گرفته تا صدای پسزمینه و افکتهای محیطی که بر اساس صحنه تولید میشوند.»
شرکت OpenAI از Sora 2 به عنوان ابزاری برای توسعه مفاهیم خلاقانه، از ساخت ویدیوهای تبلیغاتی مفهومی تا طراحی محصولات یاد میکند. آلتمن در بخشی از سخنرانی خود به نمونه همکاری با شرکت Mattel اشاره کرد؛ جایی که طراحان این برند با کمک Sora میتوانند طرحهای اولیه اسباببازیها را به مدلهای مفهومی و قابل نمایش تبدیل کنند.
شرکت OpenAI با معرفی این مدلهای قدرتمندتر تلاش میکند موقعیت خود را به عنوان پیشروترین پلتفرم توسعه هوش مصنوعی تثبیت کند؛ جایی که از پردازش زبان طبیعی گرفته تا تولید صدا و تصویر، همگی در یک اکوسیستم واحد در دسترس توسعهدهندگان قرار دارد.