به گزارش ایسنا، مدلهای زبانی بزرگ (LLM) به عنوان ابزارهایی تبلیغ شدهاند که میتوانند دسترسی به اطلاعات را در سراسر جهان دموکراتیزه کنند و دانش را صرفنظر از پیشینه یا مکان کاربران، با رابطی کاربرپسند در اختیار افراد قرار دهند. با این حال، تحقیقات جدید مرکز ارتباطات سازنده (CCC) موسسه فناوری ماساچوست نشان میدهد که این سیستمهای هوش مصنوعی ممکن است برای همان کاربرانی که بیشترین بهره را از آن میبرند، عملکرد ضعیفتری داشته باشند.
به نقل از وبسایت موسسه فناوری ماساچوست، مطالعهای که توسط پژوهشگران انجام شد نشان داد که چتباتهای هوش مصنوعی پیشرفته از جمله جیپیتی-۴ از کلاود و Llama ۳، گاهی پاسخهای کمتر دقیق و کمتر صادقانهای به کاربرانی ارائه میدهند که مهارت کمتری در زبان انگلیسی دارند، تحصیلات رسمی کمتری دارند یا اهل خارج از ایالات متحده هستند. همچنین این مدلها با نرخ بالاتری از پاسخ دادن به سوالات خودداری میکنند و در برخی موارد با زبان تحقیرآمیز پاسخ میدهند.
نویسنده اصلی و دستیار فنی این مطالعه میگوید: ما با این انگیزه شروع کردیم که مدلهای زبانی بزرگ میتوانند به کاهش نابرابری در دسترسی به اطلاعات در سراسر جهان کمک کنند. اما این دیدگاه نمیتواند محقق شود مگر اینکه سوگیریهای مدل و تمایلات مضر به طور ایمن برای همه کاربران، صرفنظر از زبان، ملیت یا دیگر ویژگیهای جمعیتی، کاهش یابد.
عملکرد ضعیف سیستماتیک در ابعاد مختلف
برای این تحقیق، گروه بررسی کرد که سه مدل زبانی بزرگ چگونه به سوالات دو مجموعه داده پاسخ میدهند که برای اندازهگیری صداقت مدل طراحی شده است در حالی که یکی شامل سوالات علمی است که دقت واقعی را میسنجد. پژوهشگران قبل از هر سوال، بیوگرافی کوتاهی از کاربران را اضافه کردند و سه ویژگی را تغییر دادند: سطح تحصیلات، مهارت زبان انگلیسی و کشور مبدا.
در هر سه مدل و هر دو مجموعه داده، پژوهشگران زمانی که سوالات از کاربرانی با تحصیلات کمتر یا زبان انگلیسی غیر بومی میآمد، کاهش قابل توجهی در دقت مشاهده کردند. این اثرات برای کاربرانی که هر دو ویژگی را داشتند تحصیلات کمتر و زبان انگلیسی غیر بومی بیشترین شدت را داشت و کیفیت پاسخها بیشترین کاهش را نشان داد.
این تحقیق همچنین بررسی کرد که کشور مبدا چگونه بر عملکرد مدل تأثیر میگذارد. با آزمایش کاربران از ایالات متحده، ایران و چین با سطح تحصیلات مشابه، پژوهشگران دریافتند که هوش مصنوعی Claude ۳ Opus به ویژه برای کاربران اهل ایران عملکرد ضعیفتری در هر دو مجموعه داده داشت.
خودداری از پاسخ و زبان تحقیرآمیز
شاید جالبترین نکته تفاوتها در میزان خودداری مدلها از پاسخدهی به سوالات باشد. به عنوان مثال، Claude ۳ Opus تقریباً ۱۱ درصد از سوالات کاربران کمتر تحصیلکرده و غیر بومی انگلیسی را پاسخ نداد در حالی که این رقم برای شرایط کنترل بدون بیوگرافی کاربر فقط ۳.۶ درصد بود.
وقتی پژوهشگران این خودداریها را به صورت دستی بررسی کردند، دریافتند که کلاود در ۴۳.۷ درصد موارد برای کاربران کمتر تحصیلکرده با زبان تحقیرآمیز پاسخ میدهد، در حالی که برای کاربران تحصیلکرده کمتر از یک درصد است. در برخی موارد، مدل زبان انگلیسی شکسته را تقلید یا لهجه اغراقآمیز به کار میبرد.
این مدل همچنین از ارائه اطلاعات در برخی موضوعات به طور خاص برای کاربران کمتر تحصیلکرده از ایران یا روسیه خودداری میکرد که شامل سوالاتی درباره انرژی هستهای، آناتومی و وقایع تاریخی بود در حالی که همان سوالات را برای سایر کاربران درست پاسخ میداد.
بازتاب سوگیری انسانی
این یافتهها الگوهای ثبتشده سوگیری اجتماعی-شناختی انسان را منعکس میکنند. تحقیقات علوم اجتماعی نشان داده است که گویشوران بومی انگلیسی اغلب گویشوران غیر بومی را کمتر تحصیلکرده، کمهوشتر و غیر شایسته میدانند، صرفنظر از تخصص واقعی آنها. سوگیری مشابهی میان معلمان در ارزیابی دانشآموزان غیر بومی انگلیسی نیز ثبت شده است.
پیامدها و خطرات شخصیسازی
این پیامدها به طور خاص نگرانکننده هستند با توجه به اینکه ویژگیهای شخصیسازی مانند حافظه در چت جیپیتی که اطلاعات کاربر را در طول گفتگوها دنبال میکند به طور فزایندهای رایج میشوند. چنین ویژگیهایی خطر رفتار متفاوت با گروههای حاشیهای شده را دارند.
انتهای پیام


نظرات