۱۴۰۵-۰۲-۲۲ | ۱۴:۱۵

شکایت اولین ناشر علمی از «متا» به خاطر مقالات کپی‌شده

شرکت «الزویر»؛ غول انتشارات علمی، به یک دادخواست دسته‌جمعی علیه شرکت «متا» پیوسته است. این شکایت متا را در استفاده غیر مجاز از آثار دارای حق نشر برای آموزش مدل هوش مصنوعی «لاما» (LIama) متهم می‌کند.

به گزارش ایسنا، الزویر که هزاران مجله، از جمله «سل» (Cell) و «لنست» (The Lancet) را منتشر می‌کند، بخشی از یک دادخواست دسته‌جمعی بود که در پنجم ماه می علیه شرکت فناوری متا و مدیر اجرایی آن، مارک زاکربرگ، در ناحیه جنوبی نیویورک ثبت شد.

به نقل از نیچر، علاوه بر الزویر ناشران بزرگی مانند «هاچت» (Hachette) و «مک میلان» (Macmillan) و «اسکات تورو» نویسنده و وکیل آمریکایی نیز به عنوان شاکیان این دادخواست معرفی شده‌اند. این شاکیان ادعا می‌کنند متا برای توسعه مدل زبانی بزرگ «لاما» آثار دارای حق نشر را جمع‌آوری و تکثیر کرده و از آن‌ها در فرآیند آموزش این مدل زبانی استفاده کرده است.

انجمن ناشران آمریکا در بیانیه‌ای اعلام کرد: «این پرونده اولین شکایت ناشران بزرگ علیه متا است؛ ناشرانی که معتقدند حقوق مالکیت فکری آن‌ها به طور آشکار نقض شده است».

این پرونده در ادامه موج شکایت‌هایی مطرح می‌شود که نویسندگان، رسانه‌ها و شرکت‌هایی مانند «نیویورک تایمز» علیه شرکت‌های هوش مصنوعی ثبت کرده‌اند. اگرچه برخی پرونده‌ها به توافق رسیده‌اند، اما هنوز رویه قضایی روشنی درباره قانونی بودن استفاده از آثار دارای حق نشر برای آموزش مدل‌های هوش مصنوعی شکل نگرفته است. سخنگوی متا گفته است که این شرکت «به شدت با این دعوی قضایی مبارزه خواهد کرد»ـ

اگرچه شرکت‌های هوش مصنوعی معمولاً جزئیات داده‌های آموزشی خود را منتشر نمی‌کنند و در این مورد محتاط هستند، اما به طور گسترده تصور می‌شود که مقالات علمی چه پولی و چه دارای دسترسی آزاد، بخشی از میلیاردها صفحه وب را تشکیل می‌دهند که مدل‌های هوش مصنوعی بر اساس آن‌ها آموزش دیده‌اند.

منابع داده برای آموزش مدل‌های زبانی

در متن دادخواست آمده است که متا برای آموزش لاما از مجموعه داده‌های «کامن کرال» (Common Crawl) استفاده کرده است. کامن کرال مجموعه‌ای متشکل از میلیاردها صفحه وب است که با گشتن در اینترنت جمع‌آوری شده است. (این آرشیو به صورت متن باز نسخه‌ای از صفحات وب را جمع‌آوری و منتشر می‌کند تا پژوهشگران بتوانند از آن برای تحلیل داده، موتور جستجو و آموزش مدل‌های هوش مصنوعی استفاده کنند). شاکیان می‌گویند که این مجموعه احتمالاً شامل نسخه‌های غیرمجاز از آثار دارای حق نشر، مانند چکیده‌ مقالات علمی و مقالات پولی بوده است.

ناشران همچنین مدعی‌اند که متا آثاری را از سایت‌هایی از جمله «لیب‌جن» (LibGen) و «سای هاب» (Sci-Hub)؛ دو پایگاه داده‌ای که دسترسی رایگان به میلیون‌ها مقاله و کتاب علمی را بدون توجه به حق نشر منتشر می‌کنند، برداشت کرده است. هر دو سایت سال‌هاست که با چالش‌های حقوقی مواجه هستند.

بخش مهمی از شواهد این پرونده بر ایمیل‌های داخلی کارکنان متا استوار است. این اسناد سال گذشته در جریان شکایت جداگانه گروهی از نویسندگان علیه متا منتشر شده است.

نبرد حقوقی بر سر «استفاده منصفانه»

متا احتمالاً استدلال خواهد کرد که استفاده از آثار دارای حق نشر برای آموزش مدل‌های هوش مصنوعی، مصداق «استفاده منصفانه» است. استفاده منصفانه استثنایی در قانون کپی رایت آمریکا است که در برخی شرایط استفاده محدود از آثار دارای حق نشر را مجاز می‌داند. سخنگوی متا در این مورد گفته: «هوش مصنوعی نوآوری‌های دگرگون‌کننده، بهره‌وری و خلاقیت را برای افراد و شرکت‌ها تقویت می‌کند و دادگاه‌ها به درستی تشخیص داده‌اند که آموزش مدل‌های هوش مصنوعی بر اساس محتواهای دارای حق نشر (کپی‌رایت) می‌تواند به عنوان استفاده منصفانه در نظر گرفته شود».

دادگاه‌های آمریکا تاکنون عمدتاً از ادعاهای شرکت‌های هوش مصنوعی مبنی بر اینکه نحوه استفاده مدل‌های زبانی بزرگ از مطالب دارای حق چاپ «تحول‌آفرین» است، حمایت کرده‌اند. تحول آفرین بودن یکی از معیارهای سنجش استفاده منصفانه است. اما قضات در دو حکم مهم در سال ۲۰۲۵ اعلام کردند که عمل دستیابی و ذخیره محتوای سرقت‌شده می‌تواند به عنوان نقض حق نشر و کپی رایت محسوب شود؛ به‌ویژه اگر صاحبان آثار بتوانند نشان دهند که خروجی مدل‌های هوش مصنوعی به بازار محصولات آن‌ها آسیب زده است.

مقالات علمی؛ داده‌ای ارزشمند برای مدل‌های هوش مصنوعی

«استفان باک»، پژوهشگر مستقل ساکن برلین و طرفدار داده‌های باز (دسترسی آزاد)، می‌گوید: متون دانشگاهی برای شرکت‌های هوش مصنوعی به عنوان منبع آموزشی برای مدل‌های بزرگ زبانی ارزشمند هستند، زیرا محتوایی دقیق، انسانی و غنی از اطلاعات تخصصی ارائه می‌کنند.

او می‌گوید که استفاده از مقالات علمی می‌تواند دقت مدل‌های زبانی را در موضوعات علمی تخصصی افزایش دهد. به همین دلیل پایگاه‌هایی مانند «پاب‌مد» اغلب برای ساخت مجموعه داده‌های آموزشی سفارشی برای بهبود دانش مدل‌های هوش مصنوعی در حوزه‌های علمی تخصصی استفاده می‌شوند.

این پژوهشگر معتقد است که برخی از دانشگاهیان ممکن است خوشحال باشند که مقالاتشان برای آموزش مدل‌های زبانی هوش مصنوعی استفاده شود، در صورتی که این کار به بهبود دقت علمی مدل‌ها کمک کند. طبق تجربه باک، نگرانی اصلی پژوهشگران بیشتر به نحوه استفاده از خروجی مدل‌های زبانی هوش مصنوعی مربوط می‌شود. برای مثال، تقلید از سبک نگارش نویسندگان یا ارجاع نادرست به آثار علمی نگرانی آن‌هاست.

در همین حال، ناشران علمی به طور فزاینده در حال توافق و عقد قراردادهای تجاری با شرکت‌های فناوری برای فروش یا صدور مجوز داده‌های خود هستند. به گفته استفان باک؛ این امر می‌تواند شرکت‌های بزرگ هوش مصنوعی را تقویت کند، اما در مقابل دسترسی پژوهشگرانی را که سعی در ساخت مدل‌های متن‌باز برای دسترسی به محتوا دارند، دشوارتر می‌کند.

وی تاکید می‌کند: در حالت ایده‌آل، باید سازوکارهایی وجود داشته باشد تا بتوان به خواسته‌های سازندگان آثار در مورد نحوه استفاده از کارشان توسط سیستم‌های هوش مصنوعی احترام گذاشت؛ بدون اینکه فقط به قراردادهای انحصاری بین ناشران و شرکت‌های هوش مصنوعی محدود شوند».

انتهای پیام

شناسهٔ خبر: 1405022212973