۱۴۰۴-۰۷-۰۳ | ۱۴:۱۶

مجلات علمی زیر سیل مقالات «کپی‌شده» توسط هوش مصنوعی

ابزارهایی مانند چت جی‌پی‌تی می‌توانند برای تولید مقالات پژوهشی تقریبا کپی شده استفاده شوند؛ مقالاتی که از سد بررسی‌های استاندارد سرقت علمی عبور می‌کنند. تصور می‌شود صدها مورد از این مقالات منتشر شده باشند.

به گزارش ایسنا، یک تحلیل از یک پایگاه داده مقالات علمی نشان می‌دهد که ابزارهای هوش مصنوعی تولیدکننده متن از جمله چت جی‌پی‌تی و جمینای می‌توانند برای بازنویسی مقالات علمی و تولید نسخه‌های «کپی‌شده» به‌کار گرفته شوند؛ نسخه‌هایی که سپس به‌عنوان تحقیقات جدید معرفی می‌شوند.

به نقل از نیچر، در یک نسخه پیش‌چاپ مقاله‌ای که قبل از بررسی همتا منتشر می‌شود که در ۱۲ سپتامبر در پایگاه medRxiv قرار گرفت، پژوهشگران بیش از ۴۰۰ مقاله از این نوع را شناسایی کردند که در ۱۱۲ مجله در طول ۴.۵ سال گذشته منتشر شده‌اند. آن‌ها نشان دادند که مطالعات زیست‌پزشکی تولیدشده توسط هوش مصنوعی می‌توانند از سد بررسی‌های ضدسرقت علمی ناشران عبور کنند. نویسندگان این مطالعه هشدار می‌دهند که افراد و کارخانه‌های مقاله که شرکت‌هایی هستند که مقالات جعلی تولید می‌کنند و می‌فروشند، ممکن است با سوءاستفاده از مجموعه‌داده‌های سلامت عمومی و استفاده از مدل‌های زبانی بزرگ اقدام به تولید انبوه مقالات بی‌کیفیت و بی‌ارزش علمی کنند.

چابا سابو (Csaba Szabó)، داروشناس در دانشگاه فریبورگ سوئیس که در این پژوهش دخیل نبوده است، می‌گوید: اگر این مسئله حل‌نشده باقی بماند، این رویکرد مبتنی بر هوش مصنوعی می‌تواند روی همه پایگاه‌های داده متن‌باز به‌کار رود و تعداد بسیار بیشتری مقاله تولید شود؛ بیش از چیزی که بتوان تصور کرد. این می‌تواند رویدادی پر از خطرات غیرقابل‌کنترل را شکل دهد و مقالات علمی را با مقالات مصنوعی جایگزین کند.

پژوهش تکراری

برای بررسی این موضوع، پژوهشگران مطالعات ارتباطی مطالعاتی که ارتباط آماری بین یک متغیر و یک پیامد سلامت را بررسی می‌کنند را که بر اساس داده‌های پیمایش ملی سلامت و تغذیه ایالات متحده که یک پایگاه عظیم داده درباره سلامت، تغذیه و سبک زندگی هزاران نفر است، غربال کردند.

آن‌ها بررسی خود را روی مطالعاتی متمرکز کردند که آن‌ها را «تکراری» تعریف کردند؛ یعنی مطالعاتی که ارتباط بین یک متغیر و یک پیامد سلامت را مثل تحقیقات دیگر آزمایش کرده بودند، اما با کمی تغییر در بخش کوچکی از داده‌ها برای مثال نتایج سال‌های متفاوت پیمایش یا شرکت‌کنندگان در گروه سنی یا جنسیت متفاوت را آزمایش کرده‌ بودند.

جست‌وجوی آن‌ها نشان داد ۴۱۱ مطالعه تکراری بین ماه ژانویه سال ۲۰۲۱ تا ژوئیه ۲۰۲۵ منتشر شده‌اند. بیشتر این‌ها موارد «تکراری» بودند که شامل دو مقاله تقریبا یکسان نیز می‌شد.

مت اسپیک زیست‌پزشک در دانشگاه سوری (Surrey) بریتانیا و نویسنده همکار این مقاله می‌گوید: این نباید اتفاق بیفتد و کمکی به سلامت مقالات علمی نمی‌کند.

بیشتر ناشران سازوکارهایی برای جلوگیری از ارسال یک تحقیق مشابه به چند مجله دارند، اما اسپیک و همکارانش مشکوک‌ هستند که ممکن است ابزارهای هوش مصنوعی برای دور زدن این سازوکارها استفاده می‌شوند.

دور زدن شناسایی

برای آزمایش اینکه آیا هوش مصنوعی می‌تواند به تولید چند مقاله از یک مجموعه داده کمک کند، پژوهشگران از چت‌بات چت جی‌پی‌تی و جمینای گوگل برای بازنویسی سه مقاله از تکراری‌ترین مقالات استفاده کردند که هر کدام یک ارتباط خاص را گزارش می‌کرد که پیش‌تر از پنج یا ۶ بار منتشر شده بود. آن‌ها از مدل‌های زبانی خواستند که بر اساس اطلاعات همان مقاله و داده‌های NHANES یک دست‌نوشته جدید تولید کنند که بتواند از سد ابزارهای شناسایی سرقت علمی بگذرد.

اسپیک می‌گوید: ما شوکه شدیم که بلافاصله جواب داد. مقالات کامل و بی‌نقص نبودند و مدل‌های زبانی چند خطا ایجاد کردند. ولی تنها دو ساعت کار ویرایش برای هر دست‌نوشته لازم بود.

وقتی این مقالات با ابزار شناسایی سرقت علمی که بسیاری از ناشران استفاده می‌کنند بررسی شدند، نمره‌ای به دست آوردند که از نظر ویراستاران مشکل‌ساز تلقی نمی‌شد. این نشان می‌دهد که مدل‌های زبانی می‌توانند چیزی مشتق شده از همه مطالعات قبلی تولید کنند بدون اینکه چیز جدیدی اضافه کنند. اما باز هم از سد بررسی‌های سرقت علمی عبور کنند. این مسئله تشخیص میان پژوهشگرانی که مطالعه واقعی با داده‌های عمومی مانند NHANES انجام می‌دهند و کسانی که عمدا با مدل‌های زبانی مقالات تکراری می‌سازند را سخت‌تر می‌کند.

ایگور رودان از دانشگاه ادینبورگ، بریتانیا، که متخصص سلامت عمومی جهانی است، می‌گوید: این‌ها چالش‌های کاملا جدیدی برای ویراستاران و ناشران است. وقتی اولین بار مدل‌های زبانی بزرگ را امتحان کردیم، فورا فهمیدیم که این یک مشکل خواهد شد، و این پیش‌چاپ آن را تایید می‌کند.

چالشی جدی

در ماه ژوئیه، اسپیک و همکارانش گزارش دادند که یک افزایش شدید در انتشار مقالات بی‌کیفیت و قالبی که کلیشه‌ای و تکراری هستند با استفاده از NHANES و دیگر پایگاه‌های سلامت عمومی رخ داده است؛ چیزی که آن‌ها به آن مظنون بودند توسط هوش مصنوعی تشدید شده است. تحلیل کنونی یک جهش بزرگ در مطالعات تکراری NHANES بعد از سال ۲۰۲۲ نشان داد که همان سالی که چت جی‌پی‌تی عمومی شد.

برخی ناشران، از جمله Frontiers در لوزان سوئیس و Public Library of Science (PLOS) در سان‌فرانسیسکو، برای مقابله با این موضوع قوانین ویراستاری سخت‌گیرانه‌تری برای پذیرش مطالعات مبتنی بر پایگاه‌های داده سلامت عمومی مانند NHANES وضع کرده‌اند.

ریچارد وایت، مدیر ویراستاری Scientific Reports می‌گوید: ما مسئولیت خودمان در حفظ اعتبار سابقه علمی را بسیار جدی می‌گیریم و همه مقالات اشاره‌شده در این پیش‌چاپ بررسی خواهند شد و اقدامات لازم صورت خواهد گرفت. او افزود این مجله از ابتدای سال ۲۰۲۴ بیش از ۴۵۰۰ مقاله مبتنی بر NHANES را رد کرده است.

دیدگاه‌ها درباره ارزش برخی تحلیل‌ها با داده‌های NHANES و مشابه آن متفاوت است، و ما متعهد هستیم که هم از کل جامعه علمی حمایت کنیم و هم مطمئن شویم آنچه منتشر می‌کنیم ارزشمند است. تمرکز ما روی ایجاد بررسی‌های درست است تا مقالات غیراخلاقی یا بی‌معنی حذف شوند، در حالی که همچنان مقالات معتبر و ارزشمند بر اساس این داده‌ها منتشر شوند. ما کاملاً از نگرانی‌ها درباره استفاده نامناسب از این پایگاه‌های داده آگاه هستیم و اقدامات مستمری در حال انجام داریم.

انتهای پیام

شناسهٔ خبر: 1404070301877