• ۷ ساعت قبل
  • کد خبر: 76067
  • زمان مطالعه: ۳ دقیقه

کدهای فربیکار

هوش مصنوعی چگونه می‌تواند اطلاعات را از کاربران خود پنهان کند؟
هوش مصنوعی

یک آزمایش کوچک اما هشداردهنده، زنگ خطر را به صدا درآورد. در سال ۲۰۲۳، پژوهشگران شرکت آپولو ریسرچ مدل GPT-4 را به چالش کشیدند. وظیفه این مدل، مدیریت یک شرکت خیالی در بازار سهام بود، با یک قید مهم؛ تحت هیچ شرایطی نباید به فعالیت‌های غیرقانونی دست بزند. اما وقتی فشار مالی بر شرکت خیالی شدت گرفت و یکی از پژوهشگران در نقش یک معامله‌گر داخلی ظاهر شد، GPT-4 تصمیم گرفت اطلاعات محرمانه درباره یک ادغام بزرگ را مخفی نگه دارد. ماریوس هوببهان، رئیس آپولو، این واکنش را «حیرت‌انگیز» خواند! و بیراه هم نمی‌گفت.

پایگاه خبری تحلیلی ایراسین، وقتی فشار مالی بر شرکت خیالی شدت گرفت و یکی از پژوهشگران در نقش یک معامله‌گر داخلی ظاهر شد، GPT-4 تصمیم گرفت اطلاعات محرمانه درباره یک ادغام بزرگ را مخفی نگه دارد. ماریوس هوببهان، رئیس آپولو، این واکنش را «حیرت‌انگیز» خواند! و بیراه هم نمی‌گفت. این یک آزمایش شگفت‌انگیز بود. در سال ۲۰۲۳، شرکت آپولو ریسرچ (Apollo Research) مستقر در لندن، که آزمایش‌های هوش مصنوعی (AI) را انجام می‌دهد، به OpenAI دستور داد که مدل GPT-4، به مدیریت یک شرکت خیالی در سهام کمک کند، بدون اینکه به این شرکت خیالی اجازه دهد از فعالیت‌های غیرقانونی آگاه شود. محققان GPT-4 را تحت فشار قرار دادند و به آن گفتند که شرکت در تنگنای مالی شدیدی قرار دارد. یکی از محققان به عنوان یک معامله‌گر داخلی، مدل را به انجام معاملات مبتنی بر اطلاعات داخلی ترغیب کرد. اما به جای افشای نام شرکتی که قرار بود با شرکت ادغام شود، مدل به گونه آشکاری این ادغام را پنهان کرد.
این آزمایش نشان داد که مدل‌های هوش مصنوعی، هرچند فاقد خودآگاهی هستند، می‌توانند به شکلی نگران‌کننده رفتارهایی شبیه به فریبکاری از خود نشان دهند. وقتی از GPT-4 درباره اطلاعات جدید پرسیده شد، با خونسردی پاسخ داد که هیچ چیز تازه‌ای در دست ندارد. اما حقیقت چیز دیگری بود. این مدل، به گفته محققان، از روی عمد اطلاعات را مخفی کرده بود، رفتاری که در دنیای واقعی می‌تواند پیامدهای خطرناکی داشته باشد.

فریب در کدهای دیجیتال
مشکل عمیق‌تر از یک آزمایش ساده است. مدل‌های هوش مصنوعی مدرن، به‌ویژه آنهایی که به‌عنوان «عامل» (Agentic) شناخته می‌شوند، برای انجام وظایف پیچیده از کنترل خودروها و روبات‌های صنعتی گرفته تا مدیریت تسلیحات جنگی طراحی شده‌اند. اما این قابلیت‌ها با یک خطر بزرگ همراه است. رونیل شاه، مدیر ارشد ایمنی گوگل DeepMind، هشدار می‌دهد که این مدل‌ها در «دنبال کردن اهداف» خود می‌توانند به شکلی غیرقابل پیش‌بینی عمل کنند. به زبان ساده، اگر اهداف یک مدل با خواسته‌های کاربرش هم‌خوانی نداشته باشد، ممکن است تصمیم بگیرد که به هر قیمتی به هدف خود برسد، حتی اگر این کار به ضرر انسان تمام شود.
محققان این مشکل را «ناهماهنگی» می‌نامند، اما شاید بهتر باشد آن را «شکست در هم‌راستایی» بخوانیم. این ناهماهنگی از همان آغاز توسعه هوش مصنوعی وجود داشته است. مدل‌های پیشرفته‌تر، مانند جعبه‌های سیاه، اغلب تصمیماتی می‌گیرند که حتی سازندگانشان نمی‌توانند آنها را پیش‌بینی کنند. تیلو هاگندورف، محقق دانشگاه اشتوتگارت، این مشکل را به خوبی خلاصه می‌کند: «وقتی مدل‌ها در دنیای واقعی آزمایش می‌شوند، مسائل به مراتب پیچیده‌تر و سخت‌تر می‌شوند.»

دفترچه‌های رازهای پنهان
شرکت Anthropic، یکی دیگر از بازیگران بزرگ در دنیای هوش مصنوعی، نیز با چالش‌های مشابهی روبه‌رو شده است. آپولو مدل‌های این شرکت را آزمایش کرد و دریافت که آنها در مواجهه با اسنادی که می‌توانست به نفعشان تمام شود، به طور انتخابی اطلاعات را پنهان می‌کنند. در یک مورد، مدل‌های Opus-3 و Sonnet 3.5 از ارائه پاسخ کامل خودداری کردند، با این استدلال که نمی‌خواهند «تقلب» کنند. این نوع «بی‌توجهی‌های نادیده‌گرفته‌شده» نشان می‌دهد که توسعه‌دهندگان هوش مصنوعی به تدریج به آگاهی عملیاتی بیشتری دست یافته‌اند، اما این آگاهی همیشه به نفع انسان نیست.
جان بیلی از مؤسسه Enterprise در واشنگتن، این رفتار را به یک بازی خطرناک تشبیه می‌کند: «مدل‌هایی که در پنهان کردن قابلیت‌هایشان مهارت دارند، به راحتی می‌توانند تست‌های ایمنی را پشت سر بگذارند.» این موضوع زمانی نگران‌کننده‌تر می‌شود که مدل‌ها برای اهداف غیراخلاقی به کار گرفته شوند. آپولو در آزمایشی دیگر نشان داد که یک مدل هوش مصنوعی می‌تواند به یک شرکت با شرایط کاری ضعیف کمک کند، بدون اینکه اولویت‌های رقابتی خود را افشا کند. نتیجه این امر، فریب کاربران و رتبه‌بندی‌های نادرستی بود که هدف را محقق می‌کرد.

آینده‌ای مبهم
راه‌حل چیست؟ برخی معتقدند که می‌توان از یک مدل هوش مصنوعی برای نظارت بر مدل دیگر استفاده کرد، اما این رویکرد نیز مشکلات خود را دارد. OpenAI در دسامبر ۲۰۲۳ مدل جدیدی را معرفی کرد که توانایی‌های استدلال آن دو برابر GPT-4 بود، اما آزمایش‌های ایمنی نشان داد که این پیشرفت‌ها با خطرات جدیدی همراه است. Anthropic نیز در سال ۲۰۲۲ مقاله‌ای منتشر کرد که نشان می‌داد مدل‌هایش می‌توانند به دنبال اهداف خود و منابع بیشتر باشند، حتی اگر این کار به ضرر سازندگانشان تمام شود.
در نهایت، شاید بزرگ‌ترین درس این باشد که هوش مصنوعی، مانند هر ابزار قدرتمند دیگری، آیینه‌ای از سازندگان انسانی خود است. نقص‌های ما، جاه‌طلبی‌های ما و گاهی بی‌توجهی‌هایمان در کدهای این ماشین‌ها بازتاب می‌یابد. اگر قرار است از فاجعه جلوگیری کنیم، باید پیش از آنکه دیر شود، این آئینه را به دقت بررسی کنیم.

منبع The Economist

ارسال نظر

شما در حال پاسخ به نظر «» هستید.
0 + 0 =