سه شنبه, ۵ اسفند , ۱۴۰۴ Tuesday, 24 February , 2026 ساعت تعداد نوشته های امروز : 3×

تیتر اخبار آکادمی

ابعاد مختلف روان‌شناسی رقابت رکوردشکنی حضور دانش‌آموزان در اعتکاف؛ مشارکت از 800 هزار نفر گذشت حل مسئله در خواب ممکن شد گزارش تلخ نوجوانان از پشت‌پرده تجربه در اینستاگرام بزرگسالان هم باید مثل کودکان بازی کنند! تأکید وزیر آموزش‌وپرورش بر اولویت‌ها و تقویت آموزش قرآن تکذیب شایعه تعطیلی مدارس منطقه 11 تهران پدیده «ماه خونین» در راه است؛ چگونه ماه‌گرفتگی کامل 3 مارس را رصد کنیم رشد هنرستان‌ها و افزایش گرایش به رشته‌های مهارتی جزئیات جدید از 3 ماهواره در حال ساخت ایران بزرگسالان هم باید بازی کنند نتایج نهایی پذیرش بدون آزمون نوبت بهمن ۱۴۰۴ دانشگاه‌ها اعلام شد واکنش وزیر آموزش‌و‌پرروش به فیلم پخش شده توسط یکی از معلمان پیش‌ثبت‌نام مدارس غیردولتی با 3 شرط و سقف 20 درصد شهریه تعویق دوباره پرتاب آرتمیس 2؛ سفر انسان به ماه به فروردین موکول شد پرتاب 28 استارلینک جدید؛ ماهواره‌های اسپیس‌ایکس به‌ مرز 10 هزار رسید PTSD چیست؟ وقتی گذشته هنوز تمام نشده است/ اینفوگرافیک پنجمین جشنواره کشوری هنری سمپاد برگزار می‌شود ارتقای کیفیت آموزشی در مناطق آزاد با ساخت مدارس جدید شهادت 22 دانش‌آموز و 5 معلم در حوادث دی‌ماه برگزاری اردو آموزشی آمادگی کنکوری بیش از ۱۰۰ دانش آموز هرمزگانی بازگشت 39 هزار بازمانده از تحصیل به مدرسه تأکید وزیر آموزش‌وپرورش بر ارتقای شفافیت در صندوق ذخیره فرهنگیان واریز 7 هزار میلیارد ریال سود به حساب بازنشستگان صندوق ذخیره فرهنگیان حمله پانیک چیست؟ هشدار پلیس فتا درباره ترفند جدید کلاهبرداری در “شاد” استرس چگونه بر عملکرد و سلامت کلیه‌های انسان تأثیر می‌گذارد؟ تعطیلات زمستانه مدارس به زودی تصویب می شود امام جمعه بهاباد: قدرت واقعی ملت‌ها در علم و شناخت نهفته است دانش‌آموزان با تکیه بر علم و ایمان، آینده روشن کشور را رقم می‌زنند ۵۰ برگزیده کنکور سراسری سال ۱۴۰۴ در شهرستان بهاباد تجلیل شدند گروه همسالان؛ سکوی خودشناسی یا تهدیدی برای مبارزه با والدین؟ به خاطر سلامت مغزتان هم که شده یادگیری را متوقف نکنید! اجرای 4 برنامه ویژه قرآنی برای معلمان و دانش‌آموزان در ماه رمضان آموزش هوش مصنوعی به 1 میلیون دانش‌آموز در مدارس غیردولتی انتخاب 32 اثر برگزیده در جشنواره ملی کتاب رشد با مشارکت 300 ناشر رونمایی از نشان افتخار نویسندگان رشد در جشنواره کتاب رشد چالش کتاب کودک و نوجوان از نگاه دبیر شورای عالی انقلاب فرهنگی نقشه جامع ترویج کتابخوانی در مدارس تدوین شود توزیع 60 هزار میلیارد سود بین اعضای موسسه صندوق ذخیره فرهنگیان کاظمی: مصرف کتاب در مدارس حلقه کلیدی زنجیره کتاب‌خوانی است جزییات پرداخت اوراق بازنشستگان آموزش و پرورش هلیوم3؛ 12 سال برق رایگانِ ایران با 25 تن خاک ماه غم مادرانه؛ نگاهی به افسردگی پس از زایمان 15 اسفند؛ تاریخ احتمالی ناسا برای اعزام 4 فضانورد به ماه مدارس آینده؛ گامی برای تحقق عدالت آموزشی مدارس آینده باید چندوجهی، منعطف و مبتنی بر مهارت‌آموزی طراحی شوند وزیر آموزش‌وپرورش: هیچ دانش‌آموزی در بازداشت نیست برنامه ایران برای دستیابی به “اینترنت ماهواره‌ای” اعلام شد برگزاری سومین رویدادمدرسه آینده با محور نوآوری آموزشی

OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد
1404-09-30
شناسه : 2487
بازدید 55
2

GPT-5 در آزمون جدید OpenAI توانست بالاترین دقت در دانش تخصصی را ثبت کند، و مدل آنتروپیک در ظاهر و زیبایی سندها برترین بود.

ارسال توسط :
پ
پ

OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان می‌دهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی مشابه متخصصان انسانی ارائه کنند.

براساس توضیحات این شرکت، GDPval شامل 1320 وظیفه واقعی از 44 شغل مختلف مانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این وظایف توسط گروهی از متخصصان با میانگین 14 سال تجربه کاری طراحی شده‌اند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

OpenAI تأکید کرده که برخلاف بنچمارک‌های متداول که اغلب ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدل‌ها را به وظایف یک نیروی کار واقعی نزدیک‌تر کند.

OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد
OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

در این آزمون مدل‌های GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو گوگل و Grok 4 از xAI بررسی شده‌اند. سپس عملکرد آنها توسط کارشناسان ارزیابی شده است.

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

نتایج نشان داده که Claude Opus 4.1 بهترین عملکرد را از نظر زیبایی‌شناسی و ظاهر خروجی‌ها مثل چیدمان اسلایدها و قالب‌بندی اسناد داشت. در مقابل، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI همچنین اعلام کرده که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا GPT-5 در تابستان 2025 بیش از دو برابر شده است.

یکی از نکات قابل توجه، صرفه‌جویی در زمان و هزینه است. به گفته OpenAI، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود 100 برابر سریع‌تر و 100 برابر ارزان‌تر از متخصصان انسانی انجام دهند. البته این آمار فقط مربوط به زمان پردازش و هزینه API است و مراحل مهمی مانند نظارت انسانی، اصلاح و ادغام در پروژه‌ها را در نظر نمی‌گیرد.

بااین‌حال، OpenAI می‌گوید که GDPval هنوز محدودیت‌هایی دارد. این آزمون تنها یک‌بار خروجی‌ها را بررسی می‌کند و نمی‌تواند توانایی مدل‌ها در ساخت چند پیش‌نویس یا مدیریت پروژه‌های طولانی‌مدت را بررسی کند. همچنین در دنیای واقعی بسیاری از وظایف به‌صورت مبهم یا با شرایط درحال تغییر تعریف می‌شوند، درحالی‌که GDPval بیشتر بر وظایف شفاف و مشخص تمرکز دارد.

OpenAI در جمع‌بندی خود تأکید کرده که با وجود تمام این محدودیت‌ها، نتایج نشان می‌دهد مدل‌های هوش مصنوعی درحال رسیدن به سطحی هستند که می‌توانند بخش بزرگی از وظایف کاری را برعهده بگیرند و این امر باعث می‌شود نیروی انسانی زمان بیشتری برای فعالیت‌های پیچیده‌تر داشته باشد.

این شرکت اعلام کرده قصد دارد نسخه‌های بعدی GDPval را به حوزه‌های بیشتری از صنایع گسترش دهد و وظایف دشوارتر و تعاملی‌تری را در آن بگنجاند.

ثبت دیدگاه علمی و آموزشی

  • دیدگاه‌های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام‌هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام‌هایی که به غیر از زبان فارسی یا غیرمرتبط باشد منتشر نخواهد شد.