هوش مصنوعی مولد متن به ویدئو Higgsfield برای رقابت با مدل هوش مصنوعی تولید ویدئویی Sora شرکت OpenAI راهاندازی شد.
بهگزارش تکناک، الکس ماشرابوف، رئیس پیشین بخش هوش مصنوعی مولد Snap، پلتفرم ایجاد و ویرایش ویدئو مبتنیبر هوش مصنوعی Higgsfield را راهاندازی کرده است تا با مدل هوش مصنوعی تولید ویدئویی Sora شرکت OpenAI رقابت کند. Higgsfield از مدل متن به ویدئو برای تولید ویدئوهای شخصیسازیشده استفاده میکند و هدف آن خلق محتوای جذاب برای انواع کاربران، از کاربران عادی گرفته تا بازاریابان رسانههای اجتماعی است.
این پلتفرم به کاربران امکان میدهد تا خود را مستقیماً در صحنههای تولیدشده با هوش مصنوعی قرار دهند یا حرکاتی را تقلید کنند که در ویدئوهای دیگر ضبط شده است.
شرکت OpenAI چند ماه پیش با مدل هوش مصنوعی مولد Sora که توضیحات متنی بدون نیاز به دوربین یا گروه فیلمبرداری را به ویدئو تبدیل میکند، دنیای فناوری را مجذوب خود کرد. بااینهمه، Sora تاکنون بسیار محدود شده است و بهنظر میرسد این شرکت آن را برای افراد خلاق دارای بودجه مناسب مانند کارگردانان هالیوود هدف قرار داده است، نه لزوماً برای علاقهمندان یا بازاریابان خردهپا.
الکساندر ماشرابوف این فرصت را مغتنم شمرد و شرکت Higgsfield AI را راهاندازی کرد. اولین اپلیکیشن این شرکت به نام Diffuse که از مدل اختصاصی تبدیل متن به ویدئو استفاده میکند، میتواند ویدئوها را از ابتدا بسازد یا با استفاده از تصویری سلفی، کلیپی با نقشآفرینی آن شخص تولید کند.
شرکت Higgsfield مجموعهای از کلیپهای ازپیشساختهشده و ابزاری برای آپلود منابع مرجع (مانند تصاویر و ویدیوها) و ویرایشگر مبتنیبر خط فرمان را ارائه میکند و به کاربران امکان میدهد تا شخصیتها و رفتارها و صحنههایی را توصیف کنند که میخواهند بهتصویر بکشند.
با استفاده از Diffuse، کاربران میتوانند خود را بهطور مستقیم در صحنهای تولیدشده با هوش مصنوعی وارد کنند یا شبیهسازی دیجیتالی خود را به انجام کارهایی مانند حرکات موزون وادار کنند که در ویدئوهای دیگر ضبط شده است.
شرکت Higgsfield تنها استارتآپ تولید ویدئو با استفاده از دستورهای متنی نیست که بهدنبال رقابت با OpenAI است. Runway یکی از اولین شرکتها در این زمینه بود و ابزارهایش همچنان در حال پیشرفت هستند. ماشرابوف معتقد است که Diffuse بهلطف استراتژی ورود به بازار با اولویت موبایل و رویکرد اجتماعی، متمایز خواهد شد. وی میگوید:
با اولویتدادن به برنامههای iOS و اندروید بهجای گردش کار دسکتاپ، به سازندگان کمک میکنیم تا در هر زمان و هر مکان محتوای جذاب رسانههای اجتماعی را ایجاد کنند. درواقع با تکیه بر موبایل، میتوانیم از روز اول بر سهولت استفاده و ویژگیهای کاربرپسند تمرکز کنیم.
شرکت Higgsfield نیز با حداقل امکانات کار میکند. ماشرابوف میگوید که مدلهای مولد زیربنای پلتفرم را تیمی ۱۶ نفره در کمتر از ۹ ماه توسعه و آن را روی خوشه ۳۲ پردازنده گرافیکی آموزش دادهاند. شاید ۳۲ پردازنده گرافیکی زیاد بهنظر برسد؛ اما با درنظرگرفتن اینکه OpenAI از دههاهزار پردازنده استفاده میکند، واقعاً زیاد نیست.
Higgsfield تابهامروز فقط ۸ میلیون دلار جمعآوری کرده است که بخش عمده آن از رویداد تأمین مالی اولیه بهرهبری Menlo Ventures بهدست آمده است. این شرکت برای اینکه یک قدم جلوتر از رقبا بماند، قصد دارد از سرمایه اولیه برای ساخت ویرایشگر ویدئو بهبودیافته بهره ببرد که به کاربران امکان ویرایش شخصیتها و اشیای در ویدئوها را میدهد.
همچنین، این شرکت میخواهد برای آموزش مدلهای مولد ویدئو قدرتمندتر بهطور خاص از رسانههای اجتماعی استفاده کند. درواقع، ماشرابوف رسانههای اجتماعی و بازاریابی رسانههای اجتماعی را بهعنوان جایگاه اصلی درآمدزایی Higgsfield میبیند.
درحالحاضر، Diffuse رایگان است؛ اما ماشرابوف آیندهای را تصور میکند که بازاریابان برای دسترسی به ویژگیهای پریمیوم این ابزار حق اشتراک پرداخت کنند. ناگفته نماند که Higgsfield نیز از مشکلات گسترده پیش روی استارتآپهای هوش مصنوعی مولد در امان نیست.
ماشرابوف حاضر نشد تا منبع دادههای آموزشی Higgsfield را فاش کند؛ بهجز اینکه گفت از مکانهای «عمومی متعدد» بهدست میآید. همچنین، وی اشاره نکرد که آیا Higgsfield دادههای کاربران را برای آموزش مدلهای آینده نگه میدارد یا خیر. این ممکن است با سیاستهای برخی از مشتریان تجاری همخوانی نداشته باشد. او اشاره کرد که کاربران Diffuse میتوانند در هر زمان ازطریق برنامه برای حذف دادههایشان درخواست بدهند.
همانطورکه انتشار گسترده دیپفیکها در شبکههای اجتماعی در ماههای اخیر نشان داده است، پلتفرمهای «شبیهسازی» دیجیتال مانند Higgsfield مستعد سوءاستفاده هستند. بههمینترتیب، Higgsfield میتواند سرقت محتوای سازندگان را آسانتر کند. برای مثال، کافی است ویدئویی از رقص فردی را بارگذاری کنید تا ویدئویی از خودتان در حال اجرای همان رقص تولید کنید.
ماشرابوف در پاسخ به این پرسش که «Higgsfield چه تدابیری برای جلوگیری از سوءاستفادههای احتمالی اندیشیده است؟»، فقط به این موضوع اشاره کرد که پلتفرم مذکور ترکیبی از تعدیل خودکار و دستی را بهکار میبرد. ماشرابوف افزود:
تصمیم گرفتهایم بهطور تدریجی محصول را عرضه و ابتدا در بازارهای منتخب آن را آزمایش کنیم تا بتوانیم سوءاستفادههای احتمالی را کنترل کنیم و درصورت لزوم محصول را تکامل دهیم.