به گزارش ایسنا، الزویر که هزاران مجله، از جمله «سل» (Cell) و «لنست» (The Lancet) را منتشر میکند، بخشی از یک دادخواست دستهجمعی بود که در پنجم ماه می علیه شرکت فناوری متا و مدیر اجرایی آن، مارک زاکربرگ، در ناحیه جنوبی نیویورک ثبت شد.
به نقل از نیچر، علاوه بر الزویر ناشران بزرگی مانند «هاچت» (Hachette) و «مک میلان» (Macmillan) و «اسکات تورو» نویسنده و وکیل آمریکایی نیز به عنوان شاکیان این دادخواست معرفی شدهاند. این شاکیان ادعا میکنند متا برای توسعه مدل زبانی بزرگ «لاما» آثار دارای حق نشر را جمعآوری و تکثیر کرده و از آنها در فرآیند آموزش این مدل زبانی استفاده کرده است.
انجمن ناشران آمریکا در بیانیهای اعلام کرد: «این پرونده اولین شکایت ناشران بزرگ علیه متا است؛ ناشرانی که معتقدند حقوق مالکیت فکری آنها به طور آشکار نقض شده است».
این پرونده در ادامه موج شکایتهایی مطرح میشود که نویسندگان، رسانهها و شرکتهایی مانند «نیویورک تایمز» علیه شرکتهای هوش مصنوعی ثبت کردهاند. اگرچه برخی پروندهها به توافق رسیدهاند، اما هنوز رویه قضایی روشنی درباره قانونی بودن استفاده از آثار دارای حق نشر برای آموزش مدلهای هوش مصنوعی شکل نگرفته است. سخنگوی متا گفته است که این شرکت «به شدت با این دعوی قضایی مبارزه خواهد کرد»ـ
اگرچه شرکتهای هوش مصنوعی معمولاً جزئیات دادههای آموزشی خود را منتشر نمیکنند و در این مورد محتاط هستند، اما به طور گسترده تصور میشود که مقالات علمی چه پولی و چه دارای دسترسی آزاد، بخشی از میلیاردها صفحه وب را تشکیل میدهند که مدلهای هوش مصنوعی بر اساس آنها آموزش دیدهاند.
منابع داده برای آموزش مدلهای زبانی
در متن دادخواست آمده است که متا برای آموزش لاما از مجموعه دادههای «کامن کرال» (Common Crawl) استفاده کرده است. کامن کرال مجموعهای متشکل از میلیاردها صفحه وب است که با گشتن در اینترنت جمعآوری شده است. (این آرشیو به صورت متن باز نسخهای از صفحات وب را جمعآوری و منتشر میکند تا پژوهشگران بتوانند از آن برای تحلیل داده، موتور جستجو و آموزش مدلهای هوش مصنوعی استفاده کنند). شاکیان میگویند که این مجموعه احتمالاً شامل نسخههای غیرمجاز از آثار دارای حق نشر، مانند چکیده مقالات علمی و مقالات پولی بوده است.
ناشران همچنین مدعیاند که متا آثاری را از سایتهایی از جمله «لیبجن» (LibGen) و «سای هاب» (Sci-Hub)؛ دو پایگاه دادهای که دسترسی رایگان به میلیونها مقاله و کتاب علمی را بدون توجه به حق نشر منتشر میکنند، برداشت کرده است. هر دو سایت سالهاست که با چالشهای حقوقی مواجه هستند.
بخش مهمی از شواهد این پرونده بر ایمیلهای داخلی کارکنان متا استوار است. این اسناد سال گذشته در جریان شکایت جداگانه گروهی از نویسندگان علیه متا منتشر شده است.
نبرد حقوقی بر سر «استفاده منصفانه»
متا احتمالاً استدلال خواهد کرد که استفاده از آثار دارای حق نشر برای آموزش مدلهای هوش مصنوعی، مصداق «استفاده منصفانه» است. استفاده منصفانه استثنایی در قانون کپی رایت آمریکا است که در برخی شرایط استفاده محدود از آثار دارای حق نشر را مجاز میداند. سخنگوی متا در این مورد گفته: «هوش مصنوعی نوآوریهای دگرگونکننده، بهرهوری و خلاقیت را برای افراد و شرکتها تقویت میکند و دادگاهها به درستی تشخیص دادهاند که آموزش مدلهای هوش مصنوعی بر اساس محتواهای دارای حق نشر (کپیرایت) میتواند به عنوان استفاده منصفانه در نظر گرفته شود».
دادگاههای آمریکا تاکنون عمدتاً از ادعاهای شرکتهای هوش مصنوعی مبنی بر اینکه نحوه استفاده مدلهای زبانی بزرگ از مطالب دارای حق چاپ «تحولآفرین» است، حمایت کردهاند. تحول آفرین بودن یکی از معیارهای سنجش استفاده منصفانه است. اما قضات در دو حکم مهم در سال ۲۰۲۵ اعلام کردند که عمل دستیابی و ذخیره محتوای سرقتشده میتواند به عنوان نقض حق نشر و کپی رایت محسوب شود؛ بهویژه اگر صاحبان آثار بتوانند نشان دهند که خروجی مدلهای هوش مصنوعی به بازار محصولات آنها آسیب زده است.
مقالات علمی؛ دادهای ارزشمند برای مدلهای هوش مصنوعی
«استفان باک»، پژوهشگر مستقل ساکن برلین و طرفدار دادههای باز (دسترسی آزاد)، میگوید: متون دانشگاهی برای شرکتهای هوش مصنوعی به عنوان منبع آموزشی برای مدلهای بزرگ زبانی ارزشمند هستند، زیرا محتوایی دقیق، انسانی و غنی از اطلاعات تخصصی ارائه میکنند.
او میگوید که استفاده از مقالات علمی میتواند دقت مدلهای زبانی را در موضوعات علمی تخصصی افزایش دهد. به همین دلیل پایگاههایی مانند «پابمد» اغلب برای ساخت مجموعه دادههای آموزشی سفارشی برای بهبود دانش مدلهای هوش مصنوعی در حوزههای علمی تخصصی استفاده میشوند.
این پژوهشگر معتقد است که برخی از دانشگاهیان ممکن است خوشحال باشند که مقالاتشان برای آموزش مدلهای زبانی هوش مصنوعی استفاده شود، در صورتی که این کار به بهبود دقت علمی مدلها کمک کند. طبق تجربه باک، نگرانی اصلی پژوهشگران بیشتر به نحوه استفاده از خروجی مدلهای زبانی هوش مصنوعی مربوط میشود. برای مثال، تقلید از سبک نگارش نویسندگان یا ارجاع نادرست به آثار علمی نگرانی آنهاست.
در همین حال، ناشران علمی به طور فزاینده در حال توافق و عقد قراردادهای تجاری با شرکتهای فناوری برای فروش یا صدور مجوز دادههای خود هستند. به گفته استفان باک؛ این امر میتواند شرکتهای بزرگ هوش مصنوعی را تقویت کند، اما در مقابل دسترسی پژوهشگرانی را که سعی در ساخت مدلهای متنباز برای دسترسی به محتوا دارند، دشوارتر میکند.
وی تاکید میکند: در حالت ایدهآل، باید سازوکارهایی وجود داشته باشد تا بتوان به خواستههای سازندگان آثار در مورد نحوه استفاده از کارشان توسط سیستمهای هوش مصنوعی احترام گذاشت؛ بدون اینکه فقط به قراردادهای انحصاری بین ناشران و شرکتهای هوش مصنوعی محدود شوند».
انتهای پیام
