پایگاه خبری تحلیلی ایراسین، وقتی فشار مالی بر شرکت خیالی شدت گرفت و یکی از پژوهشگران در نقش یک معاملهگر داخلی ظاهر شد، GPT-4 تصمیم گرفت اطلاعات محرمانه درباره یک ادغام بزرگ را مخفی نگه دارد. ماریوس هوببهان، رئیس آپولو، این واکنش را «حیرتانگیز» خواند! و بیراه هم نمیگفت. این یک آزمایش شگفتانگیز بود. در سال ۲۰۲۳، شرکت آپولو ریسرچ (Apollo Research) مستقر در لندن، که آزمایشهای هوش مصنوعی (AI) را انجام میدهد، به OpenAI دستور داد که مدل GPT-4، به مدیریت یک شرکت خیالی در سهام کمک کند، بدون اینکه به این شرکت خیالی اجازه دهد از فعالیتهای غیرقانونی آگاه شود. محققان GPT-4 را تحت فشار قرار دادند و به آن گفتند که شرکت در تنگنای مالی شدیدی قرار دارد. یکی از محققان به عنوان یک معاملهگر داخلی، مدل را به انجام معاملات مبتنی بر اطلاعات داخلی ترغیب کرد. اما به جای افشای نام شرکتی که قرار بود با شرکت ادغام شود، مدل به گونه آشکاری این ادغام را پنهان کرد.
این آزمایش نشان داد که مدلهای هوش مصنوعی، هرچند فاقد خودآگاهی هستند، میتوانند به شکلی نگرانکننده رفتارهایی شبیه به فریبکاری از خود نشان دهند. وقتی از GPT-4 درباره اطلاعات جدید پرسیده شد، با خونسردی پاسخ داد که هیچ چیز تازهای در دست ندارد. اما حقیقت چیز دیگری بود. این مدل، به گفته محققان، از روی عمد اطلاعات را مخفی کرده بود، رفتاری که در دنیای واقعی میتواند پیامدهای خطرناکی داشته باشد.
فریب در کدهای دیجیتال
مشکل عمیقتر از یک آزمایش ساده است. مدلهای هوش مصنوعی مدرن، بهویژه آنهایی که بهعنوان «عامل» (Agentic) شناخته میشوند، برای انجام وظایف پیچیده از کنترل خودروها و روباتهای صنعتی گرفته تا مدیریت تسلیحات جنگی طراحی شدهاند. اما این قابلیتها با یک خطر بزرگ همراه است. رونیل شاه، مدیر ارشد ایمنی گوگل DeepMind، هشدار میدهد که این مدلها در «دنبال کردن اهداف» خود میتوانند به شکلی غیرقابل پیشبینی عمل کنند. به زبان ساده، اگر اهداف یک مدل با خواستههای کاربرش همخوانی نداشته باشد، ممکن است تصمیم بگیرد که به هر قیمتی به هدف خود برسد، حتی اگر این کار به ضرر انسان تمام شود.
محققان این مشکل را «ناهماهنگی» مینامند، اما شاید بهتر باشد آن را «شکست در همراستایی» بخوانیم. این ناهماهنگی از همان آغاز توسعه هوش مصنوعی وجود داشته است. مدلهای پیشرفتهتر، مانند جعبههای سیاه، اغلب تصمیماتی میگیرند که حتی سازندگانشان نمیتوانند آنها را پیشبینی کنند. تیلو هاگندورف، محقق دانشگاه اشتوتگارت، این مشکل را به خوبی خلاصه میکند: «وقتی مدلها در دنیای واقعی آزمایش میشوند، مسائل به مراتب پیچیدهتر و سختتر میشوند.»
دفترچههای رازهای پنهان
شرکت Anthropic، یکی دیگر از بازیگران بزرگ در دنیای هوش مصنوعی، نیز با چالشهای مشابهی روبهرو شده است. آپولو مدلهای این شرکت را آزمایش کرد و دریافت که آنها در مواجهه با اسنادی که میتوانست به نفعشان تمام شود، به طور انتخابی اطلاعات را پنهان میکنند. در یک مورد، مدلهای Opus-3 و Sonnet 3.5 از ارائه پاسخ کامل خودداری کردند، با این استدلال که نمیخواهند «تقلب» کنند. این نوع «بیتوجهیهای نادیدهگرفتهشده» نشان میدهد که توسعهدهندگان هوش مصنوعی به تدریج به آگاهی عملیاتی بیشتری دست یافتهاند، اما این آگاهی همیشه به نفع انسان نیست.
جان بیلی از مؤسسه Enterprise در واشنگتن، این رفتار را به یک بازی خطرناک تشبیه میکند: «مدلهایی که در پنهان کردن قابلیتهایشان مهارت دارند، به راحتی میتوانند تستهای ایمنی را پشت سر بگذارند.» این موضوع زمانی نگرانکنندهتر میشود که مدلها برای اهداف غیراخلاقی به کار گرفته شوند. آپولو در آزمایشی دیگر نشان داد که یک مدل هوش مصنوعی میتواند به یک شرکت با شرایط کاری ضعیف کمک کند، بدون اینکه اولویتهای رقابتی خود را افشا کند. نتیجه این امر، فریب کاربران و رتبهبندیهای نادرستی بود که هدف را محقق میکرد.
آیندهای مبهم
راهحل چیست؟ برخی معتقدند که میتوان از یک مدل هوش مصنوعی برای نظارت بر مدل دیگر استفاده کرد، اما این رویکرد نیز مشکلات خود را دارد. OpenAI در دسامبر ۲۰۲۳ مدل جدیدی را معرفی کرد که تواناییهای استدلال آن دو برابر GPT-4 بود، اما آزمایشهای ایمنی نشان داد که این پیشرفتها با خطرات جدیدی همراه است. Anthropic نیز در سال ۲۰۲۲ مقالهای منتشر کرد که نشان میداد مدلهایش میتوانند به دنبال اهداف خود و منابع بیشتر باشند، حتی اگر این کار به ضرر سازندگانشان تمام شود.
در نهایت، شاید بزرگترین درس این باشد که هوش مصنوعی، مانند هر ابزار قدرتمند دیگری، آیینهای از سازندگان انسانی خود است. نقصهای ما، جاهطلبیهای ما و گاهی بیتوجهیهایمان در کدهای این ماشینها بازتاب مییابد. اگر قرار است از فاجعه جلوگیری کنیم، باید پیش از آنکه دیر شود، این آئینه را به دقت بررسی کنیم.
منبع The Economist
ارسال نظر