خبر " بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد " | مجله آموزشی آکادمی علمی eaedu | مجله آموزشی آکادمی علمی

عملکرد ضعیف مدل‌های گوگل و OpenAI

در این رقابت بین هوش مصنوعی‌های شناخته‌شده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدل‌های معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.

نکته جالب اینکه مدل‌ها برای هدایت ماریو باید دستورات را به‌صورت کدهای پایتون تولید می‌کردند. GamingAgent به مدل‌ها اطلاعات اولیه‌ای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرین‌شات‌هایی از محیط بازی ارائه می‌کرد. سپس مدل‌ها باید با تحلیل این داده‌ها، استراتژی‌هایی برای عبور از موانع، جمع‌آوری سکه‌ها و پیشرفت در مراحل طراحی می‌کردند.

یکی از نکات جالب عملکرد ضعیف‌تر مدل‌های مبتنی‌بر استدلال گام‌به‌گام مانند نسخه GPT-4o reasoning نسبت به مدل‌های معمولی بود. برخلاف انتظار، مدل‌های استدلالگر که در حل مسائل پیچیده‌تر و تفکر منطقی عملکرد بهتری دارند، در محیط‌های بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمان‌بر بودن تصمیم‌گیری است که گاهی چند ثانیه طول می‌کشد و در بازی‌هایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم می‌زند.

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

استفاده از بازی‌ها برای بنچمارک‌کردن هوش مصنوعی کار جدیدی نیست و از دهه‌ها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازی‌ها با پیشرفت واقعی در هوش مصنوعی عمومی گمراه‌کننده است. بازی‌ها نسبت به دنیای واقعی انتزاعی‌تر و ساده‌ترند و حجم داده‌های در دسترس برای تمرین نیز تقریباً بی‌نهایت است.

این آزمایش‌های نمایشی و رقابت‌های گیمینگ به بخشی از آن چیزی تبدیل شده‌اند که «آندری کارپاتی»، پژوهشگر ارشد و هم‌بنیان‌گذار OpenAI، آن را بحران ارزیابی توصیف می‌کند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:

«راستش را بخواهید، دیگر نمی‌دانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمی‌دانم این مدل‌ها دقیقاً چقدر خوب‌اند.»

این آزمایش در شرایطی انجام شده که شرکت‌ها به‌دنبال روش‌های جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازی‌های بلادرنگ شاید معیار کاملی نباشند اما نشان می‌دهند مدل‌های زبانی هنوز در تلفیق سرعت تصمیم‌گیری و استدلال منطقی، چالش‌های اساسی دارند.

مجله آموزشی آکادمی علمی EAedu از سال ۱۳۸۱ با انتشار اخبار و مقالات علمی و آموزشی، آموزش‌های تخصصی و مهارت‌محور را به‌صورت سریع، جذاب و به‌روز ارائه می‌دهد و با رویکردی کاربردی، مسیر پیوند دانش‌آموزان، دانشجویان و علاقه‌مندان به یادگیری را با نیازهای بازار کار هموار می‌کند.

تیتر اخبار آکادمی

بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد

عملکرد ضعیف مدل‌های گوگل و OpenAI

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

اخبار و مقالات علمی و آموزشی مرتبط

بازیابی ارزش از باطله‌ها با تکیه بر هوش مصنوعی

مهلت ارسال مقاله برای ویژه‌نامه «هوش مصنوعی و سیاستگذاری توسعه علمی و فناورانه»

هوش مصنوعی مسیرهای پنهان ساخت نانوبلورهای نیمه‌رسانا را آشکار کرد

ارائه سرویس‌های هوش مصنوعی به کاربران از سوی پلتفرم داخلی

ثبت دیدگاه علمی و آموزشی

بازیابی ارزش از باطله‌ها با تکیه بر هوش مصنوعی

مهلت ارسال مقاله برای ویژه‌نامه «هوش مصنوعی و سیاستگذاری توسعه علمی و فناورانه»

هوش مصنوعی مسیرهای پنهان ساخت نانوبلورهای نیمه‌رسانا را آشکار کرد

ارائه سرویس‌های هوش مصنوعی به کاربران از سوی پلتفرم داخلی

اولین کلینیک هوش مصنوعی جهان؛ رفتن به مطب را فراموش کنید

Runway از «مدل‌های جهانی عمومی» به‌عنوان آینده هوش مصنوعی رونمایی کرد [تماشا کنید]

مدیرعامل شرکت آرم می‌ترسد که انسان‌ها کنترل هوش مصنوعی را از دست بدهند

مایکروسافت مدل زبانی کوچک Phi-2 را معرفی کرد؛ قدرتمندتر از Gemini Nano گوگل

گوگل ظاهراً درحال توسعه دستیار هوش مصنوعی پیشرفته Pixie برای پیکسل 9 است

درآمدزایی از خطر؛ آیا فعالان هوش مصنوعی نگران تهدیدات آن هستند؟

اخبار تحصیل

برنامه مدرسه تلویزیونی ایران برای 23 فروردین اعلام شد

تداوم‌ اسکان اضطراری فرهنگیان تا پایان فروردین

انتشار مجموعه صوتی «از ایرانمان دفاع می‌کنیم» برای دانش‌آموزان

علم فناوری اطلاعات

معاون اجرایی رییس جمهور: دولت بیشترین ضرر را از قطع اینترنت متحمل می‌شود

اینترنت «همراه اول» وصل شد؟

اینترنت «ایرانسل» وصل شد؟

عضو اتاق بازرگانی: اینترنت تجار هنوز وصل نشده

جدیدترین مقالات و اخبار روز علمی

کاربست آیه 139 آل‌عمران در مدیریت تهدیدات ترکیبی

وقتی آنتن خالی نماند و نمایش‌خانگی عقب ماند

سکوت سلبریتی‌ها شکست/ دوران رعب‌آفرینان روبه پایان است

خداقوت رئیس قوه قضاییه به تیم مذاکره‌کننده ایرانی در اسلام‌آباد

توقیف 34 قلم از اموال مدیر شبکه اینترنشنال در ایران

دیدگاه‌های علمی و آموزشی اخیر

Davood