خبر " OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد " | مجله آموزشی آکادمی علمی eaedu | مجله آموزشی آکادمی علمی

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

نتایج نشان داده که Claude Opus 4.1 بهترین عملکرد را از نظر زیبایی‌شناسی و ظاهر خروجی‌ها مثل چیدمان اسلایدها و قالب‌بندی اسناد داشت. در مقابل، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI همچنین اعلام کرده که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا GPT-5 در تابستان 2025 بیش از دو برابر شده است.

یکی از نکات قابل توجه، صرفه‌جویی در زمان و هزینه است. به گفته OpenAI، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود 100 برابر سریع‌تر و 100 برابر ارزان‌تر از متخصصان انسانی انجام دهند. البته این آمار فقط مربوط به زمان پردازش و هزینه API است و مراحل مهمی مانند نظارت انسانی، اصلاح و ادغام در پروژه‌ها را در نظر نمی‌گیرد.

بااین‌حال، OpenAI می‌گوید که GDPval هنوز محدودیت‌هایی دارد. این آزمون تنها یک‌بار خروجی‌ها را بررسی می‌کند و نمی‌تواند توانایی مدل‌ها در ساخت چند پیش‌نویس یا مدیریت پروژه‌های طولانی‌مدت را بررسی کند. همچنین در دنیای واقعی بسیاری از وظایف به‌صورت مبهم یا با شرایط درحال تغییر تعریف می‌شوند، درحالی‌که GDPval بیشتر بر وظایف شفاف و مشخص تمرکز دارد.

OpenAI در جمع‌بندی خود تأکید کرده که با وجود تمام این محدودیت‌ها، نتایج نشان می‌دهد مدل‌های هوش مصنوعی درحال رسیدن به سطحی هستند که می‌توانند بخش بزرگی از وظایف کاری را برعهده بگیرند و این امر باعث می‌شود نیروی انسانی زمان بیشتری برای فعالیت‌های پیچیده‌تر داشته باشد.

این شرکت اعلام کرده قصد دارد نسخه‌های بعدی GDPval را به حوزه‌های بیشتری از صنایع گسترش دهد و وظایف دشوارتر و تعاملی‌تری را در آن بگنجاند.

مجله آموزشی آکادمی علمی EAedu از سال ۱۳۸۱ با انتشار اخبار و مقالات علمی و آموزشی، آموزش‌های تخصصی و مهارت‌محور را به‌صورت سریع، جذاب و به‌روز ارائه می‌دهد و با رویکردی کاربردی، مسیر پیوند دانش‌آموزان، دانشجویان و علاقه‌مندان به یادگیری را با نیازهای بازار کار هموار می‌کند.

تیتر اخبار آکادمی

OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

اخبار و مقالات علمی و آموزشی مرتبط

دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی

روبات انسان نما به یک کودک لگد زد

انویدیا با غول‌های فناوری کره جنوبی قرارداد بست

روبات انسان نما به قله ۶۲۰۰ متری صعود کرد!

ثبت دیدگاه علمی و آموزشی

دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی

روبات انسان نما به یک کودک لگد زد

انویدیا با غول‌های فناوری کره جنوبی قرارداد بست

روبات انسان نما به قله ۶۲۰۰ متری صعود کرد!

روبات انسان نما فروشگاه ۲۴ ساعته را می گرداند

محقق ایرانی پمپ مینیاتوری برای نرم روبات‌ها ابداع کرد

روبات انسان نمای چینی کارگر آزمایشی انبار می شود

علی بابا هوش مصنوعی برای روبات ها ارائه کرد

روبات ایتالیایی به کمک بیماران ALS آمد

مذاکره با دستگاه‌ها برای توسعه صادرات محصولات فریلنسرها

اخبار تحصیل

رنجبر: ۲ زندانی خراسان شمالی در کنکور کارشناسی ارشد شرکت کردند

آزمون کارشناسی ارشد ۱۴۰۵ در مشهد

رقابت ۶۵۰ هزار نفری در کنکور ارشد؛ سهم یک‌درصدی سمنان از ماراتن علمی

علم فناوری اطلاعات

معاون اجرایی رییس جمهور: دولت بیشترین ضرر را از قطع اینترنت متحمل می‌شود

اینترنت «همراه اول» وصل شد؟

اینترنت «ایرانسل» وصل شد؟

عضو اتاق بازرگانی: اینترنت تجار هنوز وصل نشده

جدیدترین مقالات و اخبار روز علمی

ماشین‌ها شما را زیر نظر می‌گیرند

تأکید انصاری بر اجرای دغدغه‌های محیط‌زیستی رهبر شهید

متفاوت‌ترین کتابفروشی اروپا که سکوت را فریاد می‌زند

ذهن آرام، تصمیم‌های بهتر؛ چگونه شتاب افکار را مهار کنیم؟/ اینفوگرافیک

صلح با چه کسی؟ دوقطبی‌سازی بدهنگام یاران خاتمی

دیدگاه‌های علمی و آموزشی اخیر

Davood