مدل جدید PP-OCRv5 بایدو در آزمون‌های OCR رقبای بزرگ را پشت سر گذاشت

مدل جدید PP-OCRv5 شرکت بایدو در وظایف OCR، عملکرد بهتری در مقایسه مستقیم با مدل‌های مطرحی مانند GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL از خود نشان داده است.

به گزارش تک‌ناک، شرکت بایدو پس از معرفی مدل Ernie X1.1 اکنون از PP-OCRv5، نسل جدید مدل تشخیص کاراکتر نوری خود رونمایی کرده است؛ مدلی سبک و کارآمد که روی پلتفرم Hugging Face در دسترس قرار گرفته و به‌ طور ویژه برای دقت بالا در خواندن متون طراحی شده است.

برخلاف مدل‌های عظیم چندوجهی که در تشخیص ساختار دقیق متون، گاهی با محدودیت روبه‌رو هستند، PP-OCRv5 تمرکز خود را بر این حوزه گذاشته است. این مدل در دو مرحله عمل می‌کند: ابتدا محل قرارگیری متن در تصویر را شناسایی می‌کند و سپس محتوای آن را می‌خواند. همین رویکرد باعث می‌شود که جعبه‌های دقیقی پیرامون متون ترسیم شود، که قابلیتی کلیدی برای پردازش فرم‌ها و استخراج داده از اسناد است.

شرکت بایدو اعلام کرده است این مدل تنها ۰.۰۷ میلیارد پارامتر دارد، که عددی بسیار کوچک در مقایسه با مدل‌های سنگین مشابه به حساب می‌آید. تست‌ها نشان داده‌اند که PP-OCRv5 روی پردازنده Intel Xeon توانسته است بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند؛ عملکردی که امکان اجرای آن را روی رایانه‌های معمولی یا حتی دستگاه‌های لبه شبکه بدون نیاز به زیرساخت‌های عظیم فراهم می‌کند.

توانایی این مدل محدود به زبان انگلیسی نیست و از ۴۰ زبان، از جمله چینی ساده، چینی سنتی، ژاپنی و پین‌یین پشتیبانی می‌کند.

پشت سر گذاشت رقبای بزرگ در آزمون‌های OCR توسط مدل جدید PP-OCRv5 بایدو

فرایند پردازش شامل مراحل آماده‌سازی هوشمندانه تصویر مانند: اصلاح زاویه، کاهش اعوجاج و تشخیص جهت خطوط متنی است. سپس مدل با دقت بالا، کاراکترها را به متن دیجیتال تبدیل می‌کند و همراه با مختصات دقیق، محل هر بخش را ارائه می‌دهد، که ویژگی‌ حیاتی برای کاربردهایی نظیر پردازش فاکتورها یا اسناد اداری است.

عرضه رایگان مدل PP-OCRv5 روی Hugging Face نشان می‌دهد که شرکت بایدو قصد دارد این ابزار را در اختیار توسعه‌دهندگان و شرکت‌هایی قرار دهد که به یک راهکار سبک، سریع و چندزبانه برای OCR نیاز دارند؛ بدون آنکه هزینه‌های سنگین مدل‌های عظیم را متحمل شوند.