شرکت ElevenLabs اپلیکیشنی به نام ElevenLabs Reader: AI Audio را برای گوشیهای آیفون منتشر کرده است که میتواند هر نوع سند متنی را با صداهای تولیدشده با هوش مصنوعی این شرکت بخواند.
بهگزارش تکناک، شرکت ElevenLabs که مهندسان سابق Palantir آن را تأسیس کردهاند و درزمینهی ساخت ابزارهای صوتی با هوش مصنوعی فعالیت میکند، اولین اپلیکیشن خود برای سیستمعامل iOS به نام ElevenLabs Reader: AI Audio را معرفی کرد.
برخلاف وبسایت ElevenLabs که شامل طیف وسیعی از مدلهای هوش مصنوعی و قابلیتهایی نظیر تبدیل متن به گفتار، تبدیل گفتار به صداها و زبانهای دیگر، دوبله با هوش مصنوعی و جلوههای صوتی مبتنیبر هوش مصنوعی است، اپلیکیشن جدید iOS این شرکت کاربردی محدودتر و متمرکز بر تبدیل فایلهای متنی یا لینکهای وب به روایت صوتی دارد.
درحالحاضر، این قابلیت تبدیل متن به گفتار فقط به زبان انگلیسی در این اپلیکیشن دردسترس خواهد بود. بااینحال، صفحهی پاپآپ حاکی از آن است که بهزودی تمام ۲۹ زبانی که ElevenLabs روی وب پشتیبانی میکند، به اپلیکیشن iOS Reader این شرکت نیز اضافه خواهند شد. اپلیکیشن یادشده بهرایگان ازطریق اپاستور اپل برای دانلود دردسترس قرار دارد و برای نصب نیازمند سیستمعامل iOS 15 یا نسخههای جدیدتر است.
برای استفاده از اپلیکیشن ElevenLabs Reader: AI Audio، احراز هویت با حساب کاربری ElevenLabs موجود یا ایجاد حساب جدید با ایمیل و رمز بور یا استفاده از حساب گوگل یا اپل الزامی است. پس از ورود به اپلیکیشن، فهرستی از فایلهای متنی ازپیشبارگذاریشده با روایت صوتی همراه برای کاربر نمایش داده میشود.
با ضربهزدن روی هرکدام از این داستانها، متن آن نمایش داده و بلافاصله پخش صوتی هوش مصنوعی شروع میشود؛ درحالیکه هایلایتر تعاملی سبزرنگ همزمان با گفتار هوش مصنوعی، واژهبهواژه متن را هایلایت میکند.
دکمهی مثبت دیگری در گوشهی بالا سمت راست منو اصلی اپلیکیشن تعبیه شده است. با کلیک روی این دکمه، منویی برای افزودن محتوای شخصی کاربر باز میشود. این محتوا میتواند واردکردن URL از مرورگر وب موبایل باشد یا ازطریق اپلیکیشن Files سیستمعامل iOS، کاربر فایلی را برای تبدیل به صدا انتخاب کند.
همچنین، اپلیکیشن ElevenLabs Reader: AI Audio با قابلیت «اشتراکگذاری» پیشفرض سیستمعامل iOS ادغام شده است. این یعنی کاربر میتواند هنگام گشتوگذار در اینترنت با سافاری، گجتی به صفحهی اشتراکگذاری اضافه کند و بدون نیاز به کپی و پیست کردن، لینکها را مستقیماً از سافاری به اپلیکیشن مذکور منتقل کند.
با ضربهزدن روی نشانگر سرعت پیشفرض ۱/۰ برابر که در گوشهی پایین سمت راست اپلیکیشن قرار دارد، کاربر میتواند سرعت روایت صوتی را بین ۰/۸ و ۲ برابر کند یا زیاد کند. بااینحال، انتخاب این سرعتها ازطریق منو کشویی یا اسکرول امکانپذیر نیست و کاربر مجبور است با ضربات مکرر، سرعت را بهصورت تکرارشونده تغییر دهد که این موضوع ممکن است برای برخی کاربران آزاردهنده باشد.
بهنقل از Venturebeat، با ضربهزدن روی آیکون شکل موج صدا در سمت چپ میتوانید از ۱۱ صدای مختلف طبیعی و لهجه، از زن و مرد گرفته تا لهجهی آمریکایی و اتریشی و انگلیسی بریتانیایی انتخاب کنید.
در آزمایشهای انجامشده، بارگذاری فایل PDF با تصاویر و گرافیک از اپلیکیشن Files سیستمعامل iOS به اپلیکیشن ElevenLabs Reader: AI Audio چند ثانیه طول کشید و متأسفانه اپلیکیشن تمام تصاویر را حذف کرد و فقط متن را نشان داد.
همچنین، با فرمتبندی مشکلاتی داشت که باعث شد روایت صوتی کمی غیرطبیعی شود و در جاهای نامناسب بهدلیل عوضکردن خطها مکث کند. آزمایشهای انجامشده، با چندین پیام خطای تصادفی و موفقیتآمیزنبودن در تبدیل متن به گفتار مواجه شد.
بااینحال، ازآنجاکه این اپلیکیشن کاملاً جدید است، بهسرعت بهبود خواهد یافت. کارکرد کلی روایت صوتی مبتنیبر هوش مصنوعی بهطور شگفتانگیزی روان و بهطرز باورنکردنی دقیق و گیرا بود. این قابلیت حتی روی مقالات وبسایت VentureBeat و رمانی کامل با بیش از ۳۰۰ صفحه نیز بهخوبی عمل کرد.