خبر " آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟ " | مجله آموزشی آکادمی علمی eaedu | مجله آموزشی آکادمی علمی

ماجرای انتشار بنچمارک‌های Grok 3

xAI در وبلاگ رسمی خود نموداری منتشر کرد که نشان می‌داد Grok 3 در بنچمارک «AIME 2025» نسبت به مدل «o3-mini-high» از OpenAI عملکرد بهتری دارد. طبق گزارش «Techcrunch»، آزمون AIME 2025 مجموعه‌ای از سؤالات ریاضی چالش‌برانگیز است که برای ارزیابی توانایی ریاضی مدل‌های هوش مصنوعی به کار می‌رود. البته برخی کارشناسان اعتبار «AIME» را به‌عنوان معیار سنجش مدل‌های هوش مصنوعی زیر سؤال برده‌اند.

آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟

کارکنان OpenAI در شبکه اجتماعی X به‌سرعت متوجه شدند نمودار xAI امتیاز مدل o3-mini-high را در متریک «cons@64» لحاظ نکرده است. این متریک که مخفف consensus@64 است، به مدل اجازه می‌دهد 64 بار برای حل هر مسئله تلاش کند و پاسخ پرتکرارترین خروجی را به‌عنوان جواب نهایی ثبت شود. در بسیاری از موارد، این روش بهبود قابل‌توجهی در امتیازات مدل‌ها ایجاد می‌کند؛ بنابراین، حذف این معیار از مقایسه‌ها تصویر نادرستی از برتری Grok 3 ایجاد کرده است.

حذف یک متریک کلیدی از مقایسه‌ها

براساس بررسی‌های دقیق‌تر، مدل‌های Grok 3 Reasoning Beta و Grok 3 mini Reasoning در متریک @1 (اولین پاسخ تولیدی مدل) امتیاز پایین‌تری نسبت به o3-mini-high دارند. علاوه‌براین، مدل Grok 3 Reasoning Beta حتی در مقایسه با مدل o1-medium از OpenAI نیز عملکرد پایین‌تری دارد. باوجوداین، xAI همچنان Grok 3 را باهوش‌ترین هوش مصنوعی جهان معرفی می‌کند.

بابوشکین در پاسخ به انتقادات، OpenAI را به مقایسه‌های مشابه متهم و اشاره کرد آنها نیز در گذشته نمودارهای گمراه‌کننده منتشر کرده‌اند.

آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟

مطابق آنچه محقق هوش مصنوعی به‌ نام «نیتن لمبرت» (Nathan Lambert) می‌گوید، یکی از مهم‌ترین نکاتی که در این مقایسه‌ها نادیده‌ گرفته‌ شده، هزینه‌های رسیدن به بهترین عملکرد است. بدون دانستن این اطلاعات، مقایسه عملکرد مدل‌ها نمی‌تواند تصویری واقعی از توانایی‌های آنها ارائه دهد.

مجله آموزشی آکادمی علمی EAedu از سال ۱۳۸۱ با انتشار اخبار و مقالات علمی و آموزشی، آموزش‌های تخصصی و مهارت‌محور را به‌صورت سریع، جذاب و به‌روز ارائه می‌دهد و با رویکردی کاربردی، مسیر پیوند دانش‌آموزان، دانشجویان و علاقه‌مندان به یادگیری را با نیازهای بازار کار هموار می‌کند.

تیتر اخبار آکادمی

آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟

ماجرای انتشار بنچمارک‌های Grok 3

حذف یک متریک کلیدی از مقایسه‌ها

اخبار و مقالات علمی و آموزشی مرتبط

دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی

روبات انسان نما به یک کودک لگد زد

انویدیا با غول‌های فناوری کره جنوبی قرارداد بست

روبات انسان نما به قله ۶۲۰۰ متری صعود کرد!

ثبت دیدگاه علمی و آموزشی

دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی

روبات انسان نما به یک کودک لگد زد

انویدیا با غول‌های فناوری کره جنوبی قرارداد بست

روبات انسان نما به قله ۶۲۰۰ متری صعود کرد!

روبات انسان نما فروشگاه ۲۴ ساعته را می گرداند

محقق ایرانی پمپ مینیاتوری برای نرم روبات‌ها ابداع کرد

روبات انسان نمای چینی کارگر آزمایشی انبار می شود

علی بابا هوش مصنوعی برای روبات ها ارائه کرد

روبات ایتالیایی به کمک بیماران ALS آمد

مذاکره با دستگاه‌ها برای توسعه صادرات محصولات فریلنسرها

اخبار تحصیل

6340 مدرسه برای اسکان زائران مراسم وداع و تشییع رهبر شهید آماده شد

لغو امتحانات نهایی 28 و 29 تیر در 4 استان جنوبی کشور

نهضت سوادآموزی به سکوی ملی یادگیری و توانمندسازی تبدیل می‌شود

علم فناوری اطلاعات

معاون اجرایی رییس جمهور: دولت بیشترین ضرر را از قطع اینترنت متحمل می‌شود

اینترنت «همراه اول» وصل شد؟

اینترنت «ایرانسل» وصل شد؟

عضو اتاق بازرگانی: اینترنت تجار هنوز وصل نشده

جدیدترین مقالات و اخبار روز علمی

فروش فوری سورن پلاس ایران‌خودرو آغاز شد؛ تحویل ۳۰ روزه بدون قرعه‌کشی

چرا خودروهای خارجی در ایران چند برابر قیمت جهانی فروخته می‌شوند؟

اروپا به نسخه‌ای رسید که خودرو در ایران را کشت!

فروش فوری خودروی اقتصادی آغاز شد؛ ثبت‌نام از ۲۸ تیر با تحویل ۹۰ روزه

توقف ثبت سفارش خودروهای وارداتی؛ ۸۰ هزار خودرو در بلاتکلیفی

دیدگاه‌های علمی و آموزشی اخیر

Davood