پنجشنبه, ۷ اسفند , ۱۴۰۴ Thursday, 26 February , 2026 ساعت تعداد نوشته های امروز : 9×

تیتر اخبار آکادمی

برنامه‌های جدید وزارت علوم برای تقویت سلامت روان جامعه دانشگاهی چگونه مواد روان‌گردان، خاطره را به توهم تبدیل می‌کند؟! مسیر شکوفایی استعداد با توجه به نظام تحولی پیاژه آغاز نام‌نویسی آزمون‌های ورودی سمپاد از 13 اسفند دانشگاه فرهنگیان تا 3 سال آینده مرجع ملی تربیت معلم می‌شود نگاهی به مفهوم و ابزارهای خود افشایی هیجانی دریافت گواهینامه صلاحیت حرفه‌ای برای همه معلمان اجباری شد ماهواره «خیام» کاهش پوشش جنگلی اطراف دریاچه سوها را ثبت کرد ابعاد مختلف روان‌شناسی رقابت رکوردشکنی حضور دانش‌آموزان در اعتکاف؛ مشارکت از 800 هزار نفر گذشت حل مسئله در خواب ممکن شد گزارش تلخ نوجوانان از پشت‌پرده تجربه در اینستاگرام بزرگسالان هم باید مثل کودکان بازی کنند! تأکید وزیر آموزش‌وپرورش بر اولویت‌ها و تقویت آموزش قرآن تکذیب شایعه تعطیلی مدارس منطقه 11 تهران پدیده «ماه خونین» در راه است؛ چگونه ماه‌گرفتگی کامل 3 مارس را رصد کنیم رشد هنرستان‌ها و افزایش گرایش به رشته‌های مهارتی جزئیات جدید از 3 ماهواره در حال ساخت ایران بزرگسالان هم باید بازی کنند نتایج نهایی پذیرش بدون آزمون نوبت بهمن ۱۴۰۴ دانشگاه‌ها اعلام شد واکنش وزیر آموزش‌و‌پرروش به فیلم پخش شده توسط یکی از معلمان پیش‌ثبت‌نام مدارس غیردولتی با 3 شرط و سقف 20 درصد شهریه تعویق دوباره پرتاب آرتمیس 2؛ سفر انسان به ماه به فروردین موکول شد پرتاب 28 استارلینک جدید؛ ماهواره‌های اسپیس‌ایکس به‌ مرز 10 هزار رسید PTSD چیست؟ وقتی گذشته هنوز تمام نشده است/ اینفوگرافیک پنجمین جشنواره کشوری هنری سمپاد برگزار می‌شود ارتقای کیفیت آموزشی در مناطق آزاد با ساخت مدارس جدید شهادت 22 دانش‌آموز و 5 معلم در حوادث دی‌ماه برگزاری اردو آموزشی آمادگی کنکوری بیش از ۱۰۰ دانش آموز هرمزگانی بازگشت 39 هزار بازمانده از تحصیل به مدرسه تأکید وزیر آموزش‌وپرورش بر ارتقای شفافیت در صندوق ذخیره فرهنگیان واریز 7 هزار میلیارد ریال سود به حساب بازنشستگان صندوق ذخیره فرهنگیان حمله پانیک چیست؟ هشدار پلیس فتا درباره ترفند جدید کلاهبرداری در “شاد” استرس چگونه بر عملکرد و سلامت کلیه‌های انسان تأثیر می‌گذارد؟ تعطیلات زمستانه مدارس به زودی تصویب می شود امام جمعه بهاباد: قدرت واقعی ملت‌ها در علم و شناخت نهفته است دانش‌آموزان با تکیه بر علم و ایمان، آینده روشن کشور را رقم می‌زنند ۵۰ برگزیده کنکور سراسری سال ۱۴۰۴ در شهرستان بهاباد تجلیل شدند گروه همسالان؛ سکوی خودشناسی یا تهدیدی برای مبارزه با والدین؟ به خاطر سلامت مغزتان هم که شده یادگیری را متوقف نکنید! اجرای 4 برنامه ویژه قرآنی برای معلمان و دانش‌آموزان در ماه رمضان آموزش هوش مصنوعی به 1 میلیون دانش‌آموز در مدارس غیردولتی انتخاب 32 اثر برگزیده در جشنواره ملی کتاب رشد با مشارکت 300 ناشر رونمایی از نشان افتخار نویسندگان رشد در جشنواره کتاب رشد چالش کتاب کودک و نوجوان از نگاه دبیر شورای عالی انقلاب فرهنگی نقشه جامع ترویج کتابخوانی در مدارس تدوین شود توزیع 60 هزار میلیارد سود بین اعضای موسسه صندوق ذخیره فرهنگیان کاظمی: مصرف کتاب در مدارس حلقه کلیدی زنجیره کتاب‌خوانی است جزییات پرداخت اوراق بازنشستگان آموزش و پرورش

بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد
1404-10-18
شناسه : 11887
بازدید 30
پ
پ

محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازی‌های کلاسیک کردند و مدل‌های هوش مصنوعی مطرح را در نسخه‌ای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیه‌ساز اجرا می‌شد، به کمک فریم‌ورک داخلی «GamingAgent» به هوش مصنوعی امکان کنترل مستقیم ماریو را می‌داد.

عملکرد ضعیف مدل‌های گوگل و OpenAI

در این رقابت بین هوش مصنوعی‌های شناخته‌شده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدل‌های معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.

نکته جالب اینکه مدل‌ها برای هدایت ماریو باید دستورات را به‌صورت کدهای پایتون تولید می‌کردند. GamingAgent به مدل‌ها اطلاعات اولیه‌ای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرین‌شات‌هایی از محیط بازی ارائه می‌کرد. سپس مدل‌ها باید با تحلیل این داده‌ها، استراتژی‌هایی برای عبور از موانع، جمع‌آوری سکه‌ها و پیشرفت در مراحل طراحی می‌کردند.

رقابت مدل‌های هوش مصنوعی

یکی از نکات جالب عملکرد ضعیف‌تر مدل‌های مبتنی‌بر استدلال گام‌به‌گام مانند نسخه GPT-4o reasoning نسبت به مدل‌های معمولی بود. برخلاف انتظار، مدل‌های استدلالگر که در حل مسائل پیچیده‌تر و تفکر منطقی عملکرد بهتری دارند، در محیط‌های بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمان‌بر بودن تصمیم‌گیری است که گاهی چند ثانیه طول می‌کشد و در بازی‌هایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم می‌زند.

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

استفاده از بازی‌ها برای بنچمارک‌کردن هوش مصنوعی کار جدیدی نیست و از دهه‌ها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازی‌ها با پیشرفت واقعی در هوش مصنوعی عمومی گمراه‌کننده است. بازی‌ها نسبت به دنیای واقعی انتزاعی‌تر و ساده‌ترند و حجم داده‌های در دسترس برای تمرین نیز تقریباً بی‌نهایت است.

این آزمایش‌های نمایشی و رقابت‌های گیمینگ به بخشی از آن چیزی تبدیل شده‌اند که «آندری کارپاتی»، پژوهشگر ارشد و هم‌بنیان‌گذار OpenAI، آن را بحران ارزیابی توصیف می‌کند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:

«راستش را بخواهید، دیگر نمی‌دانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمی‌دانم این مدل‌ها دقیقاً چقدر خوب‌اند.»

این آزمایش در شرایطی انجام شده که شرکت‌ها به‌دنبال روش‌های جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازی‌های بلادرنگ شاید معیار کاملی نباشند اما نشان می‌دهند مدل‌های زبانی هنوز در تلفیق سرعت تصمیم‌گیری و استدلال منطقی، چالش‌های اساسی دارند.

ثبت دیدگاه علمی و آموزشی

  • دیدگاه‌های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام‌هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام‌هایی که به غیر از زبان فارسی یا غیرمرتبط باشد منتشر نخواهد شد.