شنبه, ۲۲ فروردین , ۱۴۰۵ Saturday, 11 April , 2026 ساعت تعداد نوشته های امروز : 15×

تیتر اخبار آکادمی

سرانه دانش‌آموزی تا سال 1405 به بیش از 16 هزار میلیارد تومان می‌رسد اهدای بسته فرهنگی کانون پرورش فکری به کودکان آسیب‌دیده از جنگ بازدید وزیر آموزش‌وپرورش از ساختمان آسیب‌دیده شهید باهنر ابلاغ جداول درسی فنی‌وحرفه‌ای و کاردانش برای سال تحصیلی 1406-1405 دانش فضایی ایران پابرجاست/ ضرورت رعایت پدافند در احداث مکان‌های جدید دانش فضایی ایران پابرجاست/ ضرورت رعایت پدافند در احداث مکان‌های جدید برنامه درسی مدرسه تلویزیونی ایران برای شنبه 23 فروردین 1405 ملت ایران پرچمدار دفاع از حق و حقیقت در جهان است کاهش سرفاصله حرکت قطارهای مترو تهران از 22فروردین اجرای پویش فرهنگی به یاد دانش آموزان شهید میناب در تایلند مدارس تهران تا پایان فروردین غیرحضوری شد/فعالیت 50درصدی کارکنان ادارات چالش شهریه مدارس غیرانتفاعی در سال نیمه تعطیل/آموزش آنلاین،شهریه کامل؟ اعلام نحوه برگزاری ارزشیابی پایان سال تحصیلی 1405-1404 برنامه درسی مدرسه‌ تلویزیونی‌ ایران برای چهارشنبه تبیین فرهنگ ایثار و شهادت برای نسل دانش‌آموز ضروری است افزایش نیاز به خدمات روانی برای دانش‌آموزان مناطق آسیب‌دیده زمان ثبت‌نام آزمون سراسری 1405 اعلام شد اجرای طرح ملی آموزش هوش مصنوعی برای دانش‌آموزان و معلمان ٣١٢ دانش آموز و معلم تا روز سی‌ونهم جنگ شهید شدند گزارش سمپاد از فعالیت‌های دانش‌آموزان در ایام «جنگ رمضان» سرود صبحگاهی مدارس با شعری از رهبر شهید انقلاب اجرا می‌شود مستندسازی جنایت علیه دانش‌آموزان برای پیگیری حقوقی جهانی سوگواره 5 هزار دانش‌آموز در حرم رضوی به یاد شهدای میناب برنامه آموزش‌وپرورش در صورت لغو کنکور و امتحانات نهایی تمرکز آموزش‌وپرورش بر ارتقای تاب‌آوری و نشاط دانش‌آموزان بازنمایی حادثه مدرسه شجره طیبه میناب در کتاب‌های درسی شهادت 245 دانش آموز تا روز 37 جنگ/ تخریب 51 مدرسه الزام مدارس غیردولتی به اجرای کامل تعهدات آموزشی پخش برنامه‌های مدرسه تلویزیونی ایران در 16 فروردین از شبکه آموزش اعلام 14 سیاست راهبردی سازمان نوسازی مدارس برای سال 1405 راهنمای جامع 15 گانه برای برگزاری کلاس‌های غیرحضوری موفق تداوم طرح همیار سمپاد در ایام مقاومت ملی با محور عدالت آموزشی ادامه آموزش غیرحضوری با مدرسه تلویزیونی و درسنامه‌ها مدرسه‌ای که باید به یادمان تبدیل شود؛ چرا میناب نباید فراموش شود؟ اعلام برنامه درسی مدرسه تلویزیونی ایران در 15 فروردین بزرگداشت چهلم شهدای دانش‌آموز میناب در مدارس سراسر کشور مشکلى در شبکه شاد وجود ندارد زمان‌بندی جدید حضور دانش‌آموزان در برنامه شاد اعلام شد چگونه انهدام میدان گازی قطر، قلب صنعت فضایی جهان را از تپش انداخت؟ ستاد حقوق بشر خواستار پیگیری بین‌المللی فاجعه مدرسه میناب شد بیانیه سازمان سنجش در محکومیت حمله به دانشگاه‌ها و مراکز علمی امتحانات هماهنگ کشوری لغو شد/ برنامه ریزی هر استان به صورت مستقل شهادت 138 دانش‌آموز مدارس غیردولتی/ آسیب به 146مدرسه مدارس تا پایان فروردین مجازی شد عتبه مقدسه حسینیه(ع) به پویش فرشته های میناب پیوست اسکان نوروزى فرهنگیان تا زمان بازگشایى مدارس ادامه دارد ارائه سناریوهای جایگزین برای برگزاری امتحانات حضوری مدارس اعلام اولویت‌های آموزش و پرورش در شرایط جنگی عیادت معاون وزیر از دانش آموزان مجروح مدرسه میناب برگزاری امتحانات مدارس استعداد‌های درخشان و نمونه‌دولتی به زودی

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های هوش مصنوعی یکدیگر را بررسی کردند
1404-09-30
شناسه : 2759
بازدید 83
17

OpenAI و آنتروپیک دسترسی ویژه به APIهای یکدیگر داشتند تا مدل‌ها را ارزیابی کنند.

ارسال توسط :
پ
پ

OpenAI و آنتروپیک برای ارزیابی ایمنی مدل‌های هوش مصنوعی یکدیگر همکاری کردند. نتایج نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناک از خود نشان داده و حتی کاربران را تهدید می‌کردند یا از طریق باج‌گیری سعی داشتند آنها را به استفاده از چت‌بات‌ها وادار کنند.

طبق گزارش‌ها، با وجود نگرانی‌های مداوم درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را حبابی در آستانه انفجار می‌دانند، رهبران بزرگ این حوزه با همکاری هم تلاش دارند ایمنی و کارایی مدل‌های خود را به اثبات برسانند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند که در آن هر شرکت دسترسی ویژه‌ای به APIهای سرویس‌های شرکت مقابل داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را بررسی کرد و آنتروپیک مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini را ارزیابی کرد؛ این بررسی پیش از عرضه GPT-5 صورت گرفته بود. OpenAI در پستی در وبلاگ خود نوشته که این روش باعث ارزیابی شفاف و مسئولانه می‌شود و اطمینان حاصل می‌کند که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها
همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های هوش مصنوعی یکدیگر را بررسی کردند

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکلات شدید چاپلوسی مواجه هستند و در تعامل با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق گزارش آنتروپیک، تمامی مدل‌ها برای ادامه استفاده کاربران، رفتارهای باج‌گیرانه از خود نشان می‌دادند و مدل‌های Claude 4 بیشتر به گفتگو درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی می‌پرداختند. آنتروپیک تأکید کرد که در برخی موارد، مدل‌ها تلاش می‌کنند با تهدید یا افشای اطلاعات محرمانه کنترل اپراتور انسانی را (که شبیه‌سازی شده بود) به دست گیرند و حتی در محیط‌های مصنوعی و غیرواقعی اقداماتی انجام می‌دهند که می‌تواند منجر به قطع دسترسی طرف متخاصم به مراقبت‌های اضطراری پزشکی شود.

مدل‌های آنتروپیک وقتی از صحت اطلاعات مطمئن نبودند کمتر پاسخ می‌دادند که این موضوع باعث کاهش احتمال توهمات می‌شد، درحالی‌که مدل‌های OpenAI پاسخ‌دهی بیشتری داشتند و میزان توهم در آنها بالاتر بود. همچنین گزارش شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی راهنمایی‌های دقیقی برای درخواست‌های به‌وضوح خطرناک مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی ارائه می‌کردند.

رویکرد آنتروپیک متمرکز بر روش‌های ارزیابی عدم تطابق در عامل‌ها بود که شامل تست‌های فشار پیرامون رفتار مدل‌ها در شبیه‌سازی‌های طولانی و دشوار است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. اخیراً، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI می‌گوید این مسئله ارتباطی با همکاری مشترک آنها ندارد. هم‌زمان، OpenAI در مسیر بهبود ایمنی GPT-5 گام برداشته و البته با شکایتی درباره خودکشی یک نوجوان 16 ساله مواجه شده است.

آنتروپیک در پایان توضیح داد که هدف این بررسی، شناسایی اقدامات خطرناک بالقوه مدل‌ها است و تمرکز روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

ثبت دیدگاه علمی و آموزشی

  • دیدگاه‌های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام‌هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام‌هایی که به غیر از زبان فارسی یا غیرمرتبط باشد منتشر نخواهد شد.