حدیث روز
امام علی (ع) می فرماید : هر کس از خود بدگویی و انتقاد کند٬ خود را اصلاح کرده و هر کس خودستایی نماید٬ پس به تحقیق خویش را تباه نموده است.

یکشنبه, ۲۱ دی , ۱۴۰۴ Sunday, 11 January , 2026 ساعت تعداد کل نوشته ها : 5820 تعداد نوشته های امروز : 6 تعداد اعضا : 30 تعداد دیدگاهها : 0×
بایدو از مدل هوش مصنوعی PP-OCRv5 رونمایی کرد؛ متخصص خواندن متن
1404-09-30 ساعت: ۸:۱۵
شناسه : 2612
بازدید 22
1

این مدل از بیش از ۴۰ زبان پشتیبانی می‌کند.

ارسال توسط :
پ
پ

بایدو پس از معرفی مدل Ernie X1.1، حالا مدل جدید PP-OCRv5 را منتشر کرده است. PP-OCRv5 یک مدل تشخیص نوری حروف (OCR) است که هم‌اکنون از طریق Hugging Face در دسترس کاربران قرار دارد.

به گزارش گیزموچاینا، نکته‌ای که این مدل را از رقبا متمایز می‌کند توانایی بسیار خوب آن در خواندن متون است. همچنین این مدل سبک و کم حجم طراحی شده. یکی از ضعف‌های مدل‌های بزرگ بینایی زبان این است که بعضاً در انجام کار دقیق و جزئی مانند خواندن متن‌های ساختاریافته با مشکل مواجه می‌شوند. اما PP-OCRv5 می‌تواند چنین مشکلی را برای کاربران حل کند.

با قابلیت‌های مدل هوش مصنوعی PP-OCRv5 از بایدو آشنا شوید

مدل هوش مصنوعی PP-OCRv5 به طور خاص برای دور زدن این محدودیت‌ها طراحی شده است. این مدل در دو مرحله اصلی کار می‌کند، یعنی در ابتدا موقعیت متن را در تصویر پیدا می‌کند و سپس خود متن را می‌خواند.

این رویکرد به مدل کمک می‌کند تا مشخص کند متن دقیقاً در کجا قرار دارد. همچنین این روش برای استخراج داده‌ها از اسناد یا تحلیل فرم‌ها بسیار کاربردی است. مدل PP-OCRv5 فقط ۰.۰۷ میلیارد پارامتر دارد که در مقایسه با مدل‌های شناخته‌شده این حوزه بسیار کوچک است.

بایدو این مدل را روی سیستم‌های موبایل آزمایش و مشاهده کرده که می‌تواند بیش از ۳۷۰ کاراکتر در ثانیه روی پردازنده اینتل Xeon پردازش کند. این یعنی می‌توان این مدل را روی کامپیوترهای معمولی یا حتی دستگاه‌های لبه فناوری بدون نیاز به دیتاسنترهای بزرگ اجرا کرد.

بایدو PP-OCRv5 را در وظایف OCR با برخی مدل‌های شناخته‌شده مانند جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد خوبی از خود نشان دهد. همچنین این مدل می‌تواند هم متون چاپی و هم دست‌نویس را به‌خوبی پردازش کند و در مجموع از بیش از ۴۰ زبان پشتیبانی می‌کند.

بایدو این مدل را از طریق Hugging Face در دسترس همه قرار داده است و توسعه‌دهندگان می‌توانند به‌راحتی از آن استفاده کنند.

ثبت دیدگاه

  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.