به گزارش ایسنا، برای اولین بار از زمان عرضه مدل «GPT-2» در سال ۲۰۱۹، اکنون «اوپنایآی»مدلهای زبان بزرگ با وزن آزاد جدیدی را منتشر میکند. این یک نقطه عطف بزرگ برای شرکتی است که به طور فزایندهای به چشمپوشی از ماموریت اصلی خود مبنی بر اطمینان از اینکه هوش مصنوعی عمومی به نفع همه بشریت است، متهم شده است.
اکنون پس از چندین بار تاخیر در آزمایش و اصلاح ایمنی بیشتر، مدلهای «gpt-oss-120b» و «gpt-oss-20b» برای دانلود در دسترس هستند.
قبل از ادامه، بیایید ببینیم «اوپنایآی» دقیقاً در اینجا چه کاری انجام داده است. این شرکت مدلهای منبعباز جدیدی را که شامل کد و دادههای اساسی مورد استفاده برای آموزش آنها باشد، منتشر نمیکند. در عوض، وزنها، یعنی مقادیر عددی که مدلها یاد گرفتهاند در طول آموزش خود به ورودیها اختصاص دهند را که سیستمهای جدید را آگاه میکنند، به اشتراک میگذارد.
در واقع، مدلهای زبانی وزن باز یا وزن آزاد(Open-Weight) به گونهای طراحی میشوند که توسعهدهندگان بتوانند مدل را تحلیل کنند و آن را بدون نیاز به دادههای اصلی، برای نیازهای خاص خود تنظیم کنند و از آن در پروژههای مختلف استفاده کنند.
این در حالی است که این مدلها «منبع باز» (Open-Source) محسوب نمیشوند، زیرا برخلاف مدلهای متنباز، کد منبع، دادههای آموزشی و روشهای آموزش در دسترس قرار نمیگیرد. بنابراین از آن برای ساخت چتباتهای جدید نمیتوان استفاده کرد. همین امر میتواند مدل زبانی تازه شرکت «اوپنایآی» را منحصر بهفرد کند.
یک مدل هوش مصنوعی در صورتی «وزن باز» در نظر گرفته میشود که پارامترهای آن یا عناصری که خروجیها و پیشبینیهای آن را در طول آموزش بهبود میبخشند، در دسترس عموم باشند.
به گفته بنجامین لی(Benjamin Lee)، استاد مهندسی و علوم رایانه در دانشگاه پنسیلوانیا، مدلهای وزنباز و متنباز دو هدف بسیار متفاوت را دنبال میکنند. او میگوید: یک مدل وزنباز، مقادیری را که در طول آموزش یک مدل زبانی بزرگ آموخته شده است، ارائه میدهد و اساساً به شما این امکان را میدهد که از مدل استفاده کنید و بر روی آن بسازید. میتوانید از مدل به صورت آماده استفاده کنید یا میتوانید آن را برای یک کاربرد خاص دوباره تعریف یا تنظیم کنید و وزنها را به دلخواه خود تنظیم کنید.
به گفته وی، در واقع اگر مدلهای تجاری کاملاً یک جعبهسیاه باشند و یک سیستم «منبعباز» امکان سفارشیسازی و اصلاح کامل را فراهم کند، هوش مصنوعی «وزنباز» جایی در این بین قرار میگیرد.
این یعنی «اوپنایآی» مدلهای «منبعباز» را منتشر نکرده است، احتمالاً به این دلیل که یک رقیب نتواند از دادهها و کد آموزشی برای مهندسی معکوس فناوری آن استفاده کند.
«لی» میگوید: یک مدل منبعباز چیزی بیش از وزنهاست. همچنین به طور بالقوه شامل کدی است که برای اجرای فرآیند آموزش استفاده میشود و عملاً، یک فرد عادی استفاده زیادی از یک مدل منبعباز نخواهد برد، مگر اینکه مزرعهای از پردازندههای گرافیکی رده بالای انویدیا داشته باشد که قبض برق او را بالا میبرد. البته این مدلها برای محققانی که به دنبال کسب اطلاعات بیشتر در مورد دادههایی هستند که شرکت برای آموزش مدلهای خود استفاده کرده است، مفید خواهند بود و تعداد انگشتشماری مدل منبعباز مانند «Mistral NeMo» و «Mistral Small 3» وجود دارند.
با در نظر گرفتن این موضوعات، تفاوت اصلی بین «gpt-oss-120b» و «gpt-oss-20b» در تعداد پارامترهایی است که هر کدام ارائه میدهند. اگر با این اصطلاح آشنا نیستید، پارامترها تنظیماتی هستند که یک مدل زبان بزرگ میتواند برای ارائه پاسخ به شما تغییر دهد.
نامگذاری این مدلها کمی گیجکننده است. در واقع مدل «gpt-oss-120b» یک مدل ۱۱۷ میلیارد پارامتری است، در حالی که مدل کوچکتر آن ۲۱ میلیارد پارامتر دارد.
این در عمل بدان معناست که «gpt-oss-120b» برای اجرا به سختافزار قدرتمندتری نیاز دارد و «اوپنایآی» یک پردازنده گرافیکی ۸۰ گیگابایتی را برای استفاده کارآمد توصیه میکند.
خبر خوب این است که این شرکت میگوید هر رایانه مدرن با ۱۶ گیگابایت رَم میتواند «gpt-oss-20b» را اجرا کند. در نتیجه میتوان از مدل کوچکتر برای انجام کارهای سادهتر بدون اتصال به اینترنت استفاده کرد.
علاوه بر این، «اوپنایآی» این مدلها را از طریق مجوز «Apache 2.0» در دسترس قرار میدهد و به افراد، انعطافپذیری زیادی برای تغییر سیستمها بر اساس نیازهایشان میدهد.
با وجود اینکه این یک نسخه تجاری جدید نیست، «اوپنایآی» میگوید این مدلهای جدید از بسیاری جهات با سیستمهای اختصاصی آن قابل مقایسه هستند.
یکی از محدودیتهای مدلهای «oss» این است که ورودی چندوجهی ارائه نمیدهند، به این معنی که نمیتوانند تصاویر، ویدئوها و صداها را همزمان پردازش کنند. برای این قابلیتها، هنوز باید به فضای ابری و مدلهای تجاری «اوپنایآی» مراجعه کنید، چیزی که هر دو سیستم جدید با «وزن باز» میتوانند برای انجام آن پیکربندی شوند.
با این حال، فراتر از آن، آنها بسیاری از قابلیتهای مشابه، از جمله استدلال زنجیرهای و استفاده از ابزار را ارائه میدهند. این بدان معناست که این مدلها میتوانند با تجزیه مسائل پیچیدهتر به مراحل کوچکتر، آنها را حل کنند و اگر به کمک بیشتری نیاز داشته باشند، میدانند که چگونه از وب و زبانهای برنامهنویسی مانند «پایتون» استفاده کنند.
علاوه بر این، «اوپنایآی» مدلها را با استفاده از تکنیکهایی که این شرکت قبلاً در توسعه مدل «o3» و سایر سیستمهای پیشرفته اخیر خود به کار گرفته بود، آموزش داد.
در کدنویسی سطح رقابتی، «gpt-oss-120b» امتیازی کسب کرد که تنها کمی بدتر از «o3»، مدل استدلال پیشرفته فعلی «اوپنایآی» است، در حالی که «gpt-oss-20b» بین «o3-mini» و «o4-mini» قرار گرفت. البته باید منتظر آزمایشهای بیشتر در دنیای واقعی باشیم تا ببینیم این دو مدل جدید چگونه با مدلهای تجاری «اوپنایآی» و رقبای آن مقایسه میشوند.
انتشار «gpt-oss-120b» و «gpt-oss-20b» و تمایل آشکار «اوپنایآی» برای دو برابر کردن مدلهای وزنباز پس از آن صورت میگیرد که «مارک زاکربرگ» اعلام کرد شرکت «متا» سیستمهای کمتری از این نوع را برای عموم منتشر خواهد کرد.
پروفسور «لی» میگوید: میتوان استدلال کرد که مدلهای open-weight دسترسی به بزرگترین و توانمندترین مدلها را برای افرادی که این مراکز داده عظیم و ابرمقیاس با تعداد زیادی پردازنده گرافیکی را ندارند، دموکراتیزه میکند. این به افراد اجازه میدهد تا از خروجیها یا محصولات یک فرآیند آموزشی چند ماهه در یک مرکز داده عظیم بدون نیاز به سرمایهگذاری در آن زیرساخت به تنهایی استفاده کنند. از دیدگاه کسی که فقط یک مدل واقعاً توانمند برای شروع میخواهد و سپس میخواهد برای برخی از کاربردها بسازد، من فکر میکنم مدلهای open-weight میتوانند واقعاً مفید باشند.
«اوپنایآی» در حال حاضر با چند سازمان مختلف برای استقرار نسخههای خود از این مدلها، از جمله «مرکز ملی هوش مصنوعی کاربردی سوئد» همکاری میکند.
در یک جلسه مطبوعاتی که «اوپنایآی» قبل از اعلامیه امروز برگزار کرد، تیمی که روی «gpt-oss-120b» و «gpt-oss-20b» کار میکرد، گفت که آنها این دو مدل را به عنوان یک آزمایش میبینند. هرچه افراد بیشتری از آنها استفاده کنند، احتمال انتشار مدلهای «وزن بار» بیشتر توسط «اوپنایآی» در آینده بیشتر میشود.
انتهای پیام
نظرات