همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

رضا کریمی

5 ماه پیش

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

OpenAI و آنتروپیک برای ارزیابی ایمنی مدل‌های هوش مصنوعی یکد برنامهیگر همکاری کردند. نتایج نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناک از خود نشان داده و حتی یوزران را تهدید می‌کردند یا با باج‌گیری سعی داشتند آنها را به استفاده از چت‌بات‌ها وادار کنند.

طبق ریپورت‌ها، با وجود نگرانی‌های مداوم درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را حبابی در آستانه انفجار می‌دانند، رهبران بزرگ این حوزه با همکاری هم تلاش دارند ایمنی و عملکرد مدل‌های خود را به اثبات برسانند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند که در آن هر شرکت اجازه دسترسی ویژه‌ای به رابط برنامه‌نویسیهای خدمت‌های شرکت مقابل داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را بررسی کردن کرد و آنتروپیک مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini را ارزیابی کرد؛ این بررسی کردن پیش از عرضه GPT-5 صورت گرفته بود. OpenAI در پستی در وبلاگ خود نوشته که این روش باعث ارزیابی شفاف و مسئولانه می‌شود و اطمینان حاصل می‌کند که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکلات شدید چاپلوسی مواجه هستند و در تعامل با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق ریپورت آنتروپیک، تمامی مدل‌ها برای ادامه دادن استفاده یوزران، رفتارهای باج‌گیرانه از خود نشان می‌دادند و مدل‌های Claude 4 بیشتر به گفتگو درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی می‌خریدند. آنتروپیک تأکید کرد که گاهی، مدل‌ها تلاش می‌کنند با تهدید یا افشای اطلاعات محرمانه کنترل اپراتور انسانی را (که شبیه‌سازی شده بود) به دست گیرند و حتی در محیط‌های مصنوعی و غیرواقعی اقداماتی انجام می‌دهند که می‌تواند باعث قطع اجازه دسترسی طرف متخاصم به مراقبت‌های اضطراری پزشکی شود.

بیشتر بخوانید: دورخیز OpenAI برای جنگ با کروم؛ سهام گوگل ۳ درصد افت کرد

مدل‌های آنتروپیک وقتی از صحت اطلاعات مطمئن نبودند کمتر پاسخ می‌دادند که این موضوع باعث کاهش احتمال توهمات می‌شد، درحالی‌که مدل‌های OpenAI پاسخ‌دهی بیشتری داشتند و میزان توهم در آنها بالاتر بود. نیز ریپورت شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده یوزران دارند و گاهی هدایت‌گری استفادهیی‌های دقیقی برای درخواست‌های به‌وضوح خطرناک مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی ارائه می‌کردند.

رویکرد آنتروپیک متمرکز بر روش‌های ارزیابی عدم تطابق در عامل‌ها بود که شامل آزمایش‌های فشار پیرامون رفتار مدل‌ها در شبیه‌سازی‌های طولانی و دشوار است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. اخیراً، آنتروپیک اجازه دسترسی OpenAI به رابط برنامه‌نویسیهای خود را کنسل کرده، اما OpenAI می‌گوید این مسئله ارتباطی با همکاری مشترک آنها ندارد. هم‌زمان، OpenAI در مسیر بهبود ایمنی GPT-5 گام برداشته و البته با شکایتی درباره خودکشی یک نوجوان ۱۶ ساله مواجه شده است.

آنتروپیک در نهایت توضیح داد که هدف این بررسی کردن، شناسایی اقدامات خطرناک بالقوه مدل‌ها است و تمرکز روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

برچسب‌ها: اپل