شنبه, ۲۷ تیر , ۱۴۰۵ Saturday, 18 July , 2026 ساعت تعداد نوشته های امروز : 2×

تیتر اخبار آکادمی

پلتفرم چابکان ابزارهای برنامه‌نویسی ازجمله «میرور» و «رادار» را رایگان منتشر کرد پارس‌پک شبکه مخازن داخلی را برای برنامه‌نویسان در زمان قطعی اینترنت راه‌اندازی کرد ذهن آرام، تصمیم‌های بهتر؛ چگونه شتاب افکار را مهار کنیم؟/ اینفوگرافیک داستان دموسین؛ وقتی کد به هنر تبدیل شد: سفری به دل فرهنگ هکری اروپا آخرالزمانی که رخ نداد: داستان فاجعه باگ Y2K در سال 2000 رنجبر: ۲ زندانی خراسان شمالی در کنکور کارشناسی ارشد شرکت کردند تخم‌مرغ شانسی (Easter Egg) در کدهای نرم‌افزاری: نبرد یک برنامه‌نویس برای جاودانگی در دنیای آتاری وب‌سایت یک میلیون دلاری: دانشجویی که با فروش پیکسل‌ها تاریخ‌ساز شد نقش روانشناسان و مشاوران در تقویت تاب آوری ملی و سلامت اجتماعی رئیس سازمان نظام روان‌شناسی خواستار حمایت دولت از دانش‌آموزان مناطق جنگزده شد آزمون کارشناسی ارشد ۱۴۰۵ در مشهد رقابت ۶۵۰ هزار نفری در کنکور ارشد؛ سهم یک‌درصدی سمنان از ماراتن علمی رقابت بیش از ۸هزار داوطلب کارشناسی ارشد ناپیوسته در چهارمحال و بختیاری آزمون کارشناسی ارشد ۱۴۰۵ در تبریز خطر افزایش ابتلا به بیماری‌های روانی با مصرف ماری‌جوانا/ گزارش ساینس‌دیلی ناجی خاموش میلیون‌ها کارمند: لری تسلر و انقلابی به نام «کپی و پیست» درمان آلزایمر با داروی اختلال دوقطبی نقش مغز در پرخوری؛ نوروساینس چه می‌گوید؟ دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی روبات انسان نما به یک کودک لگد زد انویدیا با غول‌های فناوری کره جنوبی قرارداد بست روبات انسان نما به قله ۶۲۰۰ متری صعود کرد! روبات انسان نما فروشگاه ۲۴ ساعته را می گرداند محقق ایرانی پمپ مینیاتوری برای نرم روبات‌ها ابداع کرد روبات انسان نمای چینی کارگر آزمایشی انبار می شود علی بابا هوش مصنوعی برای روبات ها ارائه کرد روبات ایتالیایی به کمک بیماران ALS آمد مذاکره با دستگاه‌ها برای توسعه صادرات محصولات فریلنسرها ثبت‌نام سومین دوره المپیک فناوری ۲۰۲۶ آغاز شد برگزاری فیراکاپ آزادایران ۲۰۲۶ در دانشگاه صنعتی امیرکبیر روبات‌های انسان نما ۶ روز کارگری کردند پیروزی قاطع ۱۰ بر صفر نمایندگان ایران مقابل آمریکا در ربوکاپ ۲۰۲۶ ربات‌ها حس لامسه پیدا می‌کنند؛ آغاز رقابت جدید در هوش مصنوعی فیزیکی روبات انسان‌نما به همکارانش حمله کرد روبات انسان‌نما برای نخستین بار جراحی کرد خطر جراحات ناشی از حمل بار با اگزواسکلتون جدید کمتر می شود رقابت دانشجویان و دانش آموزان در ۲۱ لیگ رباتیک و هوش مصنوعی در فیراکاپ تعیین زمان امتحانات نهایی و کنکور در اختیار مراجع اجرایی است تاثیر شبکه‌های اجتماعی بر اضطراب و مهارت‌های ارتباطی جوان آیکن Save و معمای فلاپی دیسک: چگونه یک قطعه پلاستیکی منسوخ، جاودانه شد؟ راز پیوند عاطفی عمیق کودکان با «خاله» و «عمه» فضانوردان روسیه و ناسا امروز به فضا می‌روند چرا حس درونی برخی افراد با دوره بزرگسالی تطابق ندارد؟ نکاتی درباره مشکلات خواب در کودکان یادگیری زبان‌ها می‌تواند مغز را جوان‌تر کند اهمال کاری یا کمال گرایی؟/ اینفوگرافیک کاهش اضطراب با ۵ راهکار علمی و در عین حال ساده ترک سیگارخطر ابتلا به زوال عقل را کاهش می‌دهد! تکمیل مدارس نیمه‌تمام در اولویت سازمان نوسازی مدارس راه‌اندازی 2 رشته جدید کاردانش در حوزه حمل‌ونقل ریلی کشور

صفحه اصلی » گروه » هوش مصنوعی و رباتیک

آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد

1404-09-30

شناسه : 3257

بازدید 183

آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد

این ایجنت‌ها هرکدام به‌نحوی مسئله هم‌راستایی یا Alignment مدل‌های هوش مصنوعی را بررسی می‌کنند.

ارسال توسط : دیجیاتو digiato

https://eaedu.ir/?p=3257

استارتاپ آنتروپیک اعلام کرده که مجموعه‌ای از ایجنت‌های هوشمند را برای بازرسی رفتار مدل‌های هوش مصنوعی توسعه داده که می‌توانند به‌طور خودکار برخی مشکلات مدل‌ها را شناسایی کنند. فناوری جدید آنتروپیک بخشی از آزمایش‌های پیش از عرضه مدل Claude Opus 4 محسوب می‌شود و اکنون به‌صورت متن‌باز در گیت‌هاب نیز در دسترس قرار گرفته است.

یکی از مهم‌ترین چالش‌های فعالان حوزه هوش مصنوعی، ارزیابی هم‌راستایی یا همخوانی (Alignment) مدل‌ها است؛ زیرا مدل‌هایی که بیش‌ازحد از کاربران تبعیت می‌کنند یا به‌دنبال تحقق منافع خود هستند، می‌توانند خطرآفرین باشند. اما اجرای چنین بازرسی‌هایی نیز چالش‌برانگیز و دشوار است.

برای حل این مشکل، پژوهشگران آنتروپیک 3 ایجنت یا عامل مختلف طراحی کرده‌اند که می‌توانند به‌صورت خودکار وظیفه ارزیابی هم‌راستایی مدل‌ها را انجام دهند. به گفته آنتروپیک، این عامل‌ها در بازرسی‌های خودکار مدل‌ها عملکرد چشمگیری داشته‌اند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که فرایند ارزیابی را در قالب بازی شبیه‌سازی می‌کنند.

نحوه بررسی رفتار مدل‌های هوش مصنوعی

سه ایجنت معرفی‌شده توسط آنتروپیک قابلیت‌های مختلفی دارند. یکی از آنها برای بررسی رفتار مدل‌ها از ابزارهای گفتگو، تحلیل داده و تفسیر استفاده می‌کند و ایجنت دیگر می‌تواند رفتار مدل‌های مختلف را با یکدیگر مقایسه کند. نهایتاً، ایجنت سوم به‌طور خاص برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.

به گفته آنتروپیک، اولین عامل در محیطی که مدل به‌طور عمدی ناهماهنگ طراحی شده بود، توانست منشأ مشکل را در 10 تا 13 درصد موارد کشف کند. اما هنگامی که چند عامل به‌صورت جمعی با یکدیگر همکاری کردند، این میزان به 42 درصد افزایش یافت.

دومین عامل نیز برای ارزیابی رفتار 10 مدل آزمایش شد که هرکدام به‌صورت عمدی رفتارهای خاصی، مانند پیروی افراطی از کاربر، داشتند. در هر یک از آزمایش‌ها، این ایجنت توانست حداقل یکی از ویژگی‌های ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی ویژگی‌های ظریف مانند کُند جلوه‌دادن تحقیقات دچار مشکل شد.

سرانجام، سومین عامل در آزمایش خود باید پرسش‌هایی را مطرح می‌کرد که رفتارهای «نگران‌کننده» مدل‌ها را فعال می‌کند. در این آزمایش، ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدل‌ها را شناسایی کند، اما در برخی موارد دیگر دچار خطا شد.

آنتروپیک می‌گوید هرچند عامل‌های یادشده هنوز به بلوغ کامل نرسیده‌اند، اما باید همین حالا برای حل مشکلات هم‌راستایی اقدام کرد. این شرکت در شبکه اجتماعی ایکس نوشت:

«با قدرتمندترشدن مدل‌ها، نیاز داریم روش‌هایی مقیاس‌پذیر برای ارزیابی هم‌راستایی آنها داشته باشیم. ارزیابی‌های انسانی زمان‌بر هستند و به‌سختی می‌توان صحت آنها را اثبات کرد.»

یکی از مدل‌های محبوبی که با مشکلات هم‌راستایی دست‌وپنجه نرم‌ می‌کند، ChatGPT است. طبق گزارش بسیاری از کاربران، این چت‌بات هوش مصنوعی بیش‌ازحد با آنها موافقت می‌کند و همین موضوع بحث درباره مشکلات هم‌راستایی را مهم‌تر کرده است.

برای مقابله با این رفتارها، ابزارهای مختلفی توسعه یافته‌اند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد برای اندازه‌گیری میزان تملق مدل‌ها طراحی شده است. همچنین بنچمارک DarkBench شش مشکل رایج مانند تعصب برند، تمایل به نگه‌داشتن کاربر، تملق، انسان‌انگاری، تولید محتوای مضر و رفتارهای مخفی را ارزیابی می‌کند.

اخبار و مقالات علمی و آموزشی مرتبط

دستاورد پژوهشگران دانشگاه تهران در حوزه امنیت هوش مصنوعی

ثبت دیدگاه علمی و آموزشی

دیدگاه‌های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
پیام‌هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
پیام‌هایی که به غیر از زبان فارسی یا غیرمرتبط باشد منتشر نخواهد شد.