شرکت xAI با معرفی پلتفرم جدید Voice Agent Builder امکان ساخت دستیار صوتی مبتنی بر Grok Voice را بدون کدنویسی و در کمتر از دو دقیقه فراهم کرد.
به گزارش سرویس هوش مصنوعی تکناک، این سرویس جدید به کاربران اجازه میدهد بدون نیاز به دانش برنامهنویسی، یک دستیار صوتی برای پاسخگویی به تماسهای تلفنی، پشتیبانی مشتریان یا انجام وظایف سازمانی آماده کنند. این پلتفرم علاوه بر ساخت سریع دستیار صوتی، ابزارهای مورد نیاز را برای اتصال به سامانههای سازمانی، مدیریت تماسها و نظارت بر عملکرد نیز به صورت یکپارچه در اختیار کاربران قرار میدهد.
شرکت xAI اعلام کرده است که Voice Agent Builder برای توسعهدهندگان، شرکتها و اپراتورهایی طراحی شده است که به دستیارهای صوتی در مقیاس بالا نیاز دارند، اما تمایلی به توسعه زیرساختهای پیچیده از ابتدا ندارند. این پلتفرم جدید xAI به صورت پیشفرض امکاناتی مانند تلفن، بازیابی اطلاعات از پایگاه دانش، ابزارهای عملیاتی، Guardrails، پشتیبانی از MCP و ابزارهای نظارت بر تماسها را ارائه میدهد. همچنین کاربران میتوانند شمارههای تلفن فعلی خود را از طریق SIP به این سرویس متصل کنند، APIهای اختصاصی و سرورهای MCP را به آن اضافه نمایند یا از طریق WebSocket کلاینت اختصاصی خود را به سیستم متصل کنند.
مرتبط: اسپیسایکس از یک دستگاه هوش مصنوعی رونمایی کرد

یکی از مهمترین ویژگیهای Voice Agent Builder، استفاده از معماری یکپارچه گفتار به گفتار است. در بسیاری از سامانههای متداول، پردازش تماسهای صوتی به سه سرویس مجزا شامل تبدیل گفتار به متن، پردازش توسط مدل زبانی و تبدیل متن به گفتار وابسته است. هر یک از این مراحل معمولا توسط سرویسدهندهای متفاوت انجام میشود و همین موضوع هزینه، تأخیر و احتمال بروز خطا را افزایش میدهد. شرکت xAI بیان کرده است که Voice Agent Builder این سه مرحله را در قالب یک مسیر واحد و کاملا یکپارچه مبتنی بر Grok Voice انجام میدهد و به همین دلیل پاسخگویی سریعتر و پایدارتری ارائه میکند.
این شرکت برای آموزش Grok Voice از مجموعه بزرگی از تماسهای واقعی استفاده کرده است. تماسهایی که کیفیت صدای پایینی دارند، نویز محیط در آنها زیاد است، کاربران با لهجههای مختلف صحبت میکنند، صحبتها بارها قطع میشود یا تماسگیرندگان در میانه مکالمه درخواست خود را تغییر میدهند. همچنین این تماسها ممکن است به دهها ابزار مختلف متصل باشند و به بیش از ۲۵ زبان انجام شوند. شرکت xAI معتقد است که آموزش مدل بر اساس چنین سناریوهایی باعث شده است که عملکرد آن به شرایط واقعی استفاده نزدیکتر شود.
این شرکت برای ارزیابی توانایی این مدل نیز از معیار اختصاصی τ-voice Bench استفاده کرده است. بر اساس نتایج منتشرشده، مدل Grok Voice Think Fast 1.0 توانسته است امتیاز ۶۷٫۳ درصد را کسب کند. در همین ارزیابی، Gemini 3.1 Flash Live امتیاز ۴۳٫۸ درصد و GPT Realtime 1.5 امتیاز ۳۵٫۳ درصد را به دست آوردهاند. این نتایج نشان میدهد که Grok Voice در آزمون معرفیشده توسط xAI عملکرد بهتری نسبت به دو رقیب اصلی خود ثبت کرده است.
راهاندازی یک دستیار صوتی در این پلتفرم جدید xAI با چند مرحله ساده انجام میشود. کاربر ابتدا با زبان طبیعی توضیح میدهد که تماسها باید چگونه مدیریت شوند. سپس اسناد، ابزارها و قوانین مورد نظر خود را به دستیار اضافه میکند. به گفته xAI، این فرایند در حدود دو دقیقه تکمیل میشود و دستیار آماده پاسخگویی خواهد بود.
مرتبط: گوگل دستیار Gemini Spark را برای مک منتشر کرد

پایگاه دانش یکی از مهمترین بخشهای Voice Agent Builder محسوب میشود. کاربران میتوانند فایلهایی با فرمتهای متداول مانند متن ساده، Markdown، Word، PowerPoint، Excel، HTML و JSON را بارگذاری کنند تا دستیار هنگام مکالمه، اطلاعات مورد نیاز را از آنها استخراج کند. این اسناد در قالب مجموعههای مختلف سازماندهی میشوند و امکان استفاده از یک مجموعه اسناد برای چندین دستیار به طور همزمان وجود دارد. به این ترتیب، سیاستهای سازمان، مشخصات محصولات یا راهنماهای عملیاتی تنها یک بار بارگذاری میشوند و نیازی به تکرار آنها در هر دستیار نیست.
پلتفرم جدید xAI تنها به پاسخگویی محدود نمیشود و میتواند وظایف مختلفی را نیز اجرا کند. برای مثال، یک دستیار میتواند قرار ملاقات را در Google Calendar یا Outlook Calendar ثبت کند، ایمیل تأیید ارسال نماید، وضعیت سفارش را از طریق API بررسی کند یا درخواست بازپرداخت را در سامانه داخلی شرکت ثبت نماید. همچنین این پلتفرم از جستوجوی وب و جستوجو در X برای دسترسی به اطلاعات عمومی پشتیبانی میکند و قابلیت اتصال به سرویسهایی مانند Linear، Notion، Google Drive و OneDrive را نیز در اختیار کاربران قرار میدهد.
اگر تماس نیازمند حضور نیروی انسانی باشد، دستیار میتواند تماس را به اپراتور منتقل کند. همچنین این سیستم در طول مکالمه اعلانهای لحظهای ارسال میکند تا اعضای تیم بتوانند فعالیتهای دستیار را مشاهده کنند و در صورت لزوم وارد مکالمه شوند.
مرتبط: عامل هوش مصنوعی OpenClaw به موبایل آمد

شرکت xAI برای شخصیسازی تجربه کاربران بیش از ۸۰ صدای آماده ارائه کرده است. علاوه بر این، شرکتها میتوانند تنها با حدود دو دقیقه فایل صوتی، نسخهای مشابه صدای برند یا گوینده مورد نظر خود ایجاد کنند. هر حساب کاربری نیز یک شماره تلفن رایگان دریافت میکند که برای آزمایش یا استفاده عملیاتی قابل استفاده است. امکان اتصال شمارههای موجود از طریق SIP و آزمایش دستیار در مرورگر نیز فراهم شده است.
تمام تماسها در این پلتفرم ضبط و متن آنها نیز به صورت خودکار ثبت میشود. کاربران میتوانند فایل صوتی، متن کامل مکالمه و ابزارهای استفادهشده در هر تماس را بررسی کنند. همچنین قابلیت Guardrails به مدیران اجازه میدهد محدودیتهایی مانند جلوگیری از خواندن اطلاعات حساس، از جمله شماره کارت بانکی، یا ممنوعیت پاسخگویی به موضوعات خارج از دستورالعمل تعیینشده را برای دستیار تعریف کنند.
شرکت xAI اعلام کرده است که هزینه استفاده از Voice Agent Builder بر اساس تعرفه API محاسبه میشود و در حال حاضر برابر با ۰٫۰۵ دلار برای هر دقیقه صوت است. هزینه استفاده از صداها در همین مبلغ لحاظ شده است و کارمزد جداگانهای برای پلتفرم دریافت نمیشود. همچنین استفاده از شماره تلفن رایگان ارائهشده توسط xAI حدود ۰٫۰۱ دلار به ازای هر دقیقه تماس هزینه خواهد داشت. به گفته این شرکت، هدف از این مدل قیمتگذاری، سادهتر کردن محاسبه هزینهها در مقایسه با سرویسهایی است که برای هر بخش از پردازش صوت هزینه جداگانهای دریافت میکنند.
مرتبط: اپل قابلیتهای جدید هوش مصنوعی به Creator Studio اضافه کرد

















