مدل OCR دیپسیک با تبدیل متن به تصویر، نیاز به منابع محاسباتی را کاهش میدهد و نرخ دقت بیش از ۹۷ درصد را حفظ میکند.
به گزارش تکناک، دیپسیک، شرکت چینی توسعهدهنده مدلهای هوش مصنوعی، از مدل جدید و کارآمدی پردهبرداری کرده است که با روشی نوآورانه، مصرف منابع محاسباتی را بسیار کاهش میدهد. این مدل که OCR نام دارد، اسناد و متون طولانی را ابتدا به تصویر تبدیل و سپس تحلیل میکند. این رویکرد نیاز به توکنهای پردازشی را تا ۲۰ برابر کاهش میدهد و در عین حال دقت زیاد را حفظ میکند.
مدل OCR دیپسیک برپایه دو جزء اصلی عمل میکند: رمزگذاری به نام DeepEncoder و رمزگشایی به نام DeepSeek3B-MoE-A570M. فرایند به این صورت است که ابتدا رمزگذار حجم زیادی از دادههای متنی و جداول یا نمودارها را دریافت و آنها را به تصویری با وضوح چشمگیر تبدیل میکند. سپس، رمزگشا که برای درک بافت متنی درون تصاویر بهینهسازی شده است، این تصویر را تحلیل میکند.
تامزهاردور مینویسد که نتیجه این فرایند کاهش چشمگیر تعداد «توکنها» (واحدهای پردازشی هوش مصنوعی) است. درحالیکه تحلیل مستقیم متن به منابع زیادی نیاز دارد، تحلیل تصویرِ همان متن بهمراتب کارآمدتر است. توسعهدهندگان دیپسیک میگویند: «این روش مسیر امیدوارکنندهای را برای مدیریت محاسبات با بافت طولانی ارائه میدهد.»
براساس بنچمارکهای منتشر شده، مدل OCR دیپسیک عملکردی خیرهکننده از خود به نمایش گذاشته است. این مدل با فشردهسازی ۱۰ برابری (کاهش تعداد توکنها به یکدهم)، نرخ دقت ۹۷ درصدی را میتواند حفظ کند. اگرچه با افزایش نسبت فشردهسازی به ۲۰ برابر، دقت به ۶۰ درصد کاهش مییابد، حتی دستیابی به فشردهسازی کمتر (مثلاً ۲ برابر) با دقت نزدیک به ۱۰۰ درصد، میتواند تأثیر بزرگی بر کاهش هزینههای عملیاتی مدلهای پیشرفته هوش مصنوعی بگذارد.

مدل OCR دیپسیک بهویژه برای مدیریت دادههای پیچیده مانند جداول و نمودارها و دیگر نمایشهای بصری اطلاعات بسیار مؤثر است. ازاینرو، کاربردهای بالقوه گستردهای در حوزههایی مانند امور مالی و علوم و پزشکی دارد؛ جایی که تحلیل حجم عظیمی از اسناد و گزارشها امری ضروری است.
دیپسیک که پیشاز این با ارائه مدلهای زبانی قدرتمند و در عین حال کمهزینهتر از رقبایی همچون OpenAI و گوگل توجهات را به خود جلب کرده بود، با این نوآوری باردیگر بر تمرکز خود بر بهینهسازی و کارایی تأکید میکند. مدل OCR بهصورت متنباز ازطریق پلتفرمهای Hugging Face و GitHub در دسترس علاقهمندان و توسعهدهندگان قرار گرفته است.