مدل جدید PP-OCRv5 شرکت بایدو در وظایف OCR، عملکرد بهتری در مقایسه مستقیم با مدلهای مطرحی مانند GPT-4o، Gemini 2.5 Pro و Qwen2.5-VL از خود نشان داده است.
به گزارش تکناک، شرکت بایدو پس از معرفی مدل Ernie X1.1 اکنون از PP-OCRv5، نسل جدید مدل تشخیص کاراکتر نوری خود رونمایی کرده است؛ مدلی سبک و کارآمد که روی پلتفرم Hugging Face در دسترس قرار گرفته و به طور ویژه برای دقت بالا در خواندن متون طراحی شده است.
برخلاف مدلهای عظیم چندوجهی که در تشخیص ساختار دقیق متون، گاهی با محدودیت روبهرو هستند، PP-OCRv5 تمرکز خود را بر این حوزه گذاشته است. این مدل در دو مرحله عمل میکند: ابتدا محل قرارگیری متن در تصویر را شناسایی میکند و سپس محتوای آن را میخواند. همین رویکرد باعث میشود که جعبههای دقیقی پیرامون متون ترسیم شود، که قابلیتی کلیدی برای پردازش فرمها و استخراج داده از اسناد است.
شرکت بایدو اعلام کرده است این مدل تنها ۰.۰۷ میلیارد پارامتر دارد، که عددی بسیار کوچک در مقایسه با مدلهای سنگین مشابه به حساب میآید. تستها نشان دادهاند که PP-OCRv5 روی پردازنده Intel Xeon توانسته است بیش از ۳۷۰ کاراکتر در ثانیه پردازش کند؛ عملکردی که امکان اجرای آن را روی رایانههای معمولی یا حتی دستگاههای لبه شبکه بدون نیاز به زیرساختهای عظیم فراهم میکند.
توانایی این مدل محدود به زبان انگلیسی نیست و از ۴۰ زبان، از جمله چینی ساده، چینی سنتی، ژاپنی و پینیین پشتیبانی میکند.

فرایند پردازش شامل مراحل آمادهسازی هوشمندانه تصویر مانند: اصلاح زاویه، کاهش اعوجاج و تشخیص جهت خطوط متنی است. سپس مدل با دقت بالا، کاراکترها را به متن دیجیتال تبدیل میکند و همراه با مختصات دقیق، محل هر بخش را ارائه میدهد، که ویژگی حیاتی برای کاربردهایی نظیر پردازش فاکتورها یا اسناد اداری است.
عرضه رایگان مدل PP-OCRv5 روی Hugging Face نشان میدهد که شرکت بایدو قصد دارد این ابزار را در اختیار توسعهدهندگان و شرکتهایی قرار دهد که به یک راهکار سبک، سریع و چندزبانه برای OCR نیاز دارند؛ بدون آنکه هزینههای سنگین مدلهای عظیم را متحمل شوند.