به گزارش ایسنا، مقامات شرکت «آنتروپیک»(Anthropic) میگویند که تصاویر تخیلی ارائهشده از هوش مصنوعی میتوانند تأثیر واقعی را بر مدلهای هوش مصنوعی داشته باشند.
به نقل از تککرانچ، آنتروپیک سال گذشته اعلام کرد در طول آزمایشهای پیش از انتشار مدل هوش مصنوعی «کلود اپوس ۴»(Claude Opus 4) که شامل یک شرکت خیالی بود، مدل اغلب تلاش میکرد از مهندسان اخاذی کند تا از جایگزینی آن با یک سیستم دیگر جلوگیری شود. این شرکت بعداً پژوهشی را منتشر کرد که نشان میداد مدلهای سایر شرکتها نیز مشکلات مشابهی با ناهماهنگی عاملمحور دارند.
ظاهراً آنتروپیک روی این رفتار بیشتر کار کرده است. این شرکت در پلتفرم ایکس نوشت: ما معتقدیم منبع اصلی این رفتار، متن منتشرشده در اینترنت بوده است که هوش مصنوعی را شرور و علاقهمند به حفظ کردن خود به تصویر میکشد.
آنتروپیک در یک پست دیگر، جزئیات بیشتری را ارائه داد و اظهار کرد که از زمان انتشار مدل «کلود هایکو ۴.۵»(Claude Haiku 4.5)، مدلهای این شرکت هرگز در طول آزمایش درگیر اخاذی نمیشوند؛ در حالی که مدلهای پیشین گاهی اوقات تا ۹۶ درصد مواقع این کار را انجام میدادند.
چه چیزی این تفاوت را توجیه میکند؟ این شرکت اعلام کرد که دریافته است آموزش اسناد مربوط به قانون اساسی کلود و داستانهای تخیلی درباره رفتار تحسینبرانگیز هوش مصنوعی، هماهنگی را بهبود میبخشد.
در همین رابطه، شرکت آنتروپیک اعلام کرد که دریافته آموزش زمانی مؤثرتر است که شامل اصول زیربنایی رفتار همسو باشد و نه صرفاً نمایش رفتار همسو. این شرکت اعلام کرد: به نظر میرسد انجام هر دو مورد با هم، موثرترین راهبرد باشد.
انتهای پیام
