مدل هوش مصنوعی مولد متن به ویدئو Higgsfield معرفی شد

هوش مصنوعی مولد متن به ویدئو Higgsfield برای رقابت با مدل هوش مصنوعی تولید ویدئویی Sora شرکت OpenAI راه‌اندازی شد.

به‌گزارش تک‌ناک، الکس ماشرابوف، رئیس پیشین بخش هوش مصنوعی مولد Snap، پلتفرم ایجاد و ویرایش ویدئو مبتنی‌بر هوش مصنوعی Higgsfield را راه‌اندازی کرده است تا با مدل هوش مصنوعی تولید ویدئویی Sora شرکت OpenAI رقابت کند. Higgsfield از مدل متن به ویدئو برای تولید ویدئوهای شخصی‌سازی‌شده استفاده می‌کند و هدف آن خلق محتوای جذاب برای انواع کاربران، از کاربران عادی گرفته تا بازاریابان رسانه‌های اجتماعی است.

این پلتفرم به کاربران امکان می‌دهد تا خود را مستقیماً در صحنه‌های تولیدشده با هوش مصنوعی قرار دهند یا حرکاتی را تقلید کنند که در ویدئوهای دیگر ضبط شده است.

شرکت OpenAI چند ماه پیش با مدل هوش مصنوعی مولد Sora که توضیحات متنی بدون نیاز به دوربین یا گروه فیلم‌برداری را به ویدئو تبدیل می‌کند، دنیای فناوری را مجذوب خود کرد. بااین‌همه، Sora تاکنون بسیار محدود شده است و به‌نظر می‌رسد این شرکت آن را برای افراد خلاق دارای بودجه مناسب مانند کارگردانان هالیوود هدف قرار داده است، نه لزوماً برای علاقه‌مندان یا بازاریابان خرده‌پا.

الکساندر ماشرابوف این فرصت را مغتنم شمرد و شرکت Higgsfield AI را راه‌اندازی کرد. اولین اپلیکیشن این شرکت به نام Diffuse که از مدل اختصاصی تبدیل متن به ویدئو استفاده می‌کند، می‌تواند ویدئوها را از ابتدا بسازد یا با استفاده از تصویری سلفی، کلیپی با نقش‌آفرینی آن شخص تولید کند.

شرکت Higgsfield مجموعه‌ای از کلیپ‌های از‌پیش‌ساخته‌شده و ابزاری برای آپلود منابع مرجع (مانند تصاویر و ویدیوها) و ویرایشگر مبتنی‌بر خط فرمان را ارائه می‌کند و به کاربران امکان می‌دهد تا شخصیت‌ها و رفتارها و صحنه‌هایی را توصیف کنند که می‌خواهند به‌تصویر بکشند.

با استفاده از Diffuse، کاربران می‌توانند خود را به‌طور مستقیم در صحنه‌ای تولیدشده با هوش مصنوعی وارد کنند یا شبیه‌سازی دیجیتالی خود را به انجام کارهایی مانند حرکات موزون وادار کنند که در ویدئوهای دیگر ضبط شده است.

شرکت Higgsfield تنها استارت‌آپ تولید ویدئو با استفاده از دستورهای متنی نیست که به‌دنبال رقابت با OpenAI است. Runway یکی از اولین شرکت‌ها در این زمینه بود و ابزارهایش همچنان در حال پیشرفت هستند. ماشرابوف معتقد است که Diffuse به‌لطف استراتژی ورود به بازار با اولویت موبایل و رویکرد اجتماعی، متمایز خواهد شد. وی می‌گوید:

با اولویت‌دادن به برنامه‌های iOS و اندروید به‌جای گردش کار دسکتاپ، به سازندگان کمک می‌کنیم تا در هر زمان و هر مکان محتوای جذاب رسانه‌های اجتماعی را ایجاد کنند. در‌واقع با تکیه بر موبایل، می‌توانیم از روز اول بر سهولت استفاده و ویژگی‌های کاربرپسند تمرکز کنیم.

شرکت Higgsfield نیز با حداقل امکانات کار می‌کند. ماشرابوف می‌گوید که مدل‌های مولد زیربنای پلتفرم را تیمی ۱۶ نفره در کمتر از ۹ ماه توسعه و آن را روی خوشه ۳۲ پردازنده گرافیکی آموزش داده‌اند. شاید ۳۲ پردازنده گرافیکی زیاد به‌نظر برسد؛ اما با در‌نظر‌گرفتن اینکه OpenAI از ده‌ها‌هزار پردازنده استفاده می‌کند، واقعاً زیاد نیست.

Higgsfield تا‌به‌امروز فقط ۸ میلیون دلار جمع‌آوری کرده است که بخش عمده آن از رویداد تأمین مالی اولیه به‌رهبری Menlo Ventures به‌دست‌ آمده است. این شرکت برای اینکه یک قدم جلوتر از رقبا بماند، قصد دارد از سرمایه اولیه برای ساخت ویرایشگر ویدئو بهبود‌یافته بهره ببرد که به کاربران امکان ویرایش شخصیت‌ها و اشیای در ویدئوها را می‌دهد.

همچنین، این شرکت می‌خواهد برای آموزش مدل‌های مولد ویدئو قدرتمندتر به‌طور خاص از رسانه‌های اجتماعی استفاده کند. در‌واقع، ماشرابوف رسانه‌های اجتماعی و بازاریابی رسانه‌های اجتماعی را به‌عنوان جایگاه اصلی درآمدزایی Higgsfield می‌بیند.

در‌حال‌حاضر، Diffuse رایگان است؛ اما ماشرابوف آینده‌ای را تصور می‌کند که بازاریابان برای دسترسی به ویژگی‌های پریمیوم این ابزار حق اشتراک پرداخت کنند. ناگفته نماند که Higgsfield نیز از مشکلات گسترده‌ پیش روی استارت‌آپ‌های هوش مصنوعی مولد در امان نیست.

ماشرابوف حاضر نشد تا منبع داده‌های آموزشی Higgsfield را فاش کند؛ به‌جز اینکه گفت از مکان‌های «عمومی متعدد» به‌دست می‌آید. همچنین، وی اشاره نکرد که آیا Higgsfield داده‌های کاربران را برای آموزش مدل‌های آینده نگه می‌دارد یا خیر. این ممکن است با سیاست‌های برخی از مشتریان تجاری همخوانی نداشته باشد. او اشاره کرد که کاربران Diffuse می‌توانند در هر زمان از‌طریق برنامه برای حذف داده‌هایشان درخواست بدهند.

همان‌طور‌که انتشار گسترده دیپ‌فیک‌ها در شبکه‌های اجتماعی در ماه‌های اخیر نشان داده است، پلتفرم‌های «شبیه‌سازی» دیجیتال مانند Higgsfield مستعد سوءاستفاده هستند. به‌همین‌ترتیب، Higgsfield می‌تواند سرقت محتوای سازندگان را آسان‌تر کند. برای مثال، کافی است ویدئویی از رقص فردی را بارگذاری کنید تا ویدئویی از خودتان در حال اجرای همان رقص تولید کنید.

ماشرابوف در پاسخ به این پرسش که «Higgsfield چه تدابیری برای جلوگیری از سوءاستفاده‌های احتمالی اندیشیده است؟»، فقط به این موضوع اشاره کرد که پلتفرم مذکور ترکیبی از تعدیل خودکار و دستی را به‌کار می‌برد. ماشرابوف افزود:

تصمیم گرفته‌ایم به‌طور تدریجی محصول را عرضه و ابتدا در بازارهای منتخب آن را آزمایش کنیم تا بتوانیم سوءاستفاده‌های احتمالی را کنترل کنیم و درصورت لزوم محصول را تکامل دهیم.

برچسب‌ها: p6