چهارشنبه / ۱۵ مرداد ۱۴۰۴ / ۱۱:۱۶
دسته‌بندی: هوش مصنوعی
کد مطلب: 1404051509249
چاپ

عرضه یک مدل «وزن‌باز» توسط «اوپن‌ای‌آی» پس از ۶ سال

اولین مدل بزرگ زبانی جدید شرکت «اوپن‌ای‌آی»(OpenAI) که «وزن‌باز»(open-weight) است، پس از ۶ سال از راه رسید.

به گزارش ایسنا، برای اولین بار از زمان عرضه مدل «GPT-2» در سال ۲۰۱۹، اکنون «اوپن‌ای‌آی»مدل‌های زبان بزرگ با وزن آزاد جدیدی را منتشر می‌کند. این یک نقطه عطف بزرگ برای شرکتی است که به طور فزاینده‌ای به چشم‌پوشی از ماموریت اصلی خود مبنی بر اطمینان از اینکه هوش مصنوعی عمومی به نفع همه بشریت است، متهم شده است.

اکنون پس از چندین بار تاخیر در آزمایش و اصلاح ایمنی بیشتر، مدل‌های «gpt-oss-120b» و «gpt-oss-20b» برای دانلود در دسترس هستند.

قبل از ادامه، بیایید ببینیم «اوپن‌ای‌آی» دقیقاً در اینجا چه کاری انجام داده است. این شرکت مدل‌های منبع‌باز جدیدی را که شامل کد و داده‌های اساسی مورد استفاده برای آموزش آنها باشد، منتشر نمی‌کند. در عوض، وزن‌ها، یعنی مقادیر عددی که مدل‌ها یاد گرفته‌اند در طول آموزش خود به ورودی‌ها اختصاص دهند را که سیستم‌های جدید را آگاه می‌کنند، به اشتراک می‌گذارد.

در واقع، مدل‌های زبانی وزن باز یا وزن آزاد(Open-Weight) به گونه‌ای طراحی می‌شوند که توسعه‌دهندگان بتوانند مدل را تحلیل کنند و آن را بدون نیاز به داده‌های اصلی، برای نیازهای خاص خود تنظیم کنند و از آن در پروژه‌های مختلف استفاده کنند.

این در حالی است که این مدل‌ها «منبع باز» (Open-Source) محسوب نمی‌شوند، زیرا برخلاف مدل‌های متن‌باز، کد منبع، داده‌های آموزشی و روش‌های آموزش در دسترس قرار نمی‌گیرد. بنابراین از آن برای ساخت چت‌بات‌های جدید نمی‌توان استفاده کرد. همین امر می‌تواند مدل زبانی تازه شرکت «اوپن‌ای‌آی» را منحصر به‌فرد کند.

یک مدل هوش مصنوعی در صورتی «وزن باز» در نظر گرفته می‌شود که پارامترهای آن یا عناصری که خروجی‌ها و پیش‌بینی‌های آن را در طول آموزش بهبود می‌بخشند، در دسترس عموم باشند.

به گفته بنجامین لی(Benjamin Lee)، استاد مهندسی و علوم رایانه در دانشگاه پنسیلوانیا، مدل‌های وزن‌باز و متن‌باز دو هدف بسیار متفاوت را دنبال می‌کنند. او می‌گوید: یک مدل وزن‌باز، مقادیری را که در طول آموزش یک مدل زبانی بزرگ آموخته شده است، ارائه می‌دهد و اساساً به شما این امکان را می‌دهد که از مدل استفاده کنید و بر روی آن بسازید. می‌توانید از مدل به صورت آماده استفاده کنید یا می‌توانید آن را برای یک کاربرد خاص دوباره تعریف یا تنظیم کنید و وزن‌ها را به دلخواه خود تنظیم کنید.

به گفته وی، در واقع اگر مدل‌های تجاری کاملاً یک جعبه‌سیاه باشند و یک سیستم «منبع‌باز» امکان سفارشی‌سازی و اصلاح کامل را فراهم کند، هوش مصنوعی «وزن‌باز» جایی در این بین قرار می‌گیرد.

این یعنی «اوپن‌ای‌آی» مدل‌های «منبع‌باز» را منتشر نکرده است، احتمالاً به این دلیل که یک رقیب نتواند از داده‌ها و کد آموزشی برای مهندسی معکوس فناوری آن استفاده کند.

«لی» می‌گوید: یک مدل منبع‌باز چیزی بیش از وزن‌هاست. همچنین به طور بالقوه شامل کدی است که برای اجرای فرآیند آموزش استفاده می‌شود و عملاً، یک فرد عادی استفاده زیادی از یک مدل منبع‌باز نخواهد برد، مگر اینکه مزرعه‌ای از پردازنده‌های گرافیکی رده بالای انویدیا داشته باشد که قبض برق او را بالا می‌برد. البته این مدل‌ها برای محققانی که به دنبال کسب اطلاعات بیشتر در مورد داده‌هایی هستند که شرکت برای آموزش مدل‌های خود استفاده کرده است، مفید خواهند بود و تعداد انگشت‌شماری مدل منبع‌باز مانند «Mistral NeMo» و «Mistral Small 3» وجود دارند.

با در نظر گرفتن این موضوعات، تفاوت اصلی بین «gpt-oss-120b» و «gpt-oss-20b» در تعداد پارامترهایی است که هر کدام ارائه می‌دهند. اگر با این اصطلاح آشنا نیستید، پارامترها تنظیماتی هستند که یک مدل زبان بزرگ می‌تواند برای ارائه پاسخ به شما تغییر دهد.

نام‌گذاری این مدل‌ها کمی گیج‌کننده است. در واقع مدل «gpt-oss-120b» یک مدل ۱۱۷ میلیارد پارامتری است، در حالی که مدل کوچکتر آن ۲۱ میلیارد پارامتر دارد.

این در عمل بدان معناست که «gpt-oss-120b» برای اجرا به سخت‌افزار قدرتمندتری نیاز دارد و «اوپن‌ای‌آی» یک پردازنده گرافیکی ۸۰ گیگابایتی را برای استفاده کارآمد توصیه می‌کند.

خبر خوب این است که این شرکت می‌گوید هر رایانه مدرن با ۱۶ گیگابایت رَم می‌تواند «gpt-oss-20b» را اجرا کند. در نتیجه می‌توان از مدل کوچک‌تر برای انجام کارهای ساده‌تر بدون اتصال به اینترنت استفاده کرد.

علاوه بر این، «اوپن‌ای‌آی» این مدل‌ها را از طریق مجوز «Apache 2.0» در دسترس قرار می‌دهد و به افراد، انعطاف‌پذیری زیادی برای تغییر سیستم‌ها بر اساس نیازهایشان می‌دهد.

با وجود اینکه این یک نسخه تجاری جدید نیست، «اوپن‌ای‌آی» می‌گوید این مدل‌های جدید از بسیاری جهات با سیستم‌های اختصاصی آن قابل مقایسه هستند.

یکی از محدودیت‌های مدل‌های «oss» این است که ورودی چندوجهی ارائه نمی‌دهند، به این معنی که نمی‌توانند تصاویر، ویدئوها و صداها را همزمان پردازش کنند. برای این قابلیت‌ها، هنوز باید به فضای ابری و مدل‌های تجاری «اوپن‌ای‌آی» مراجعه کنید، چیزی که هر دو سیستم جدید با «وزن باز» می‌توانند برای انجام آن پیکربندی شوند.

با این حال، فراتر از آن، آنها بسیاری از قابلیت‌های مشابه، از جمله استدلال زنجیره‌ای و استفاده از ابزار را ارائه می‌دهند. این بدان معناست که این مدل‌ها می‌توانند با تجزیه مسائل پیچیده‌تر به مراحل کوچک‌تر، آنها را حل کنند و اگر به کمک بیشتری نیاز داشته باشند، می‌دانند که چگونه از وب و زبان‌های برنامه‌نویسی مانند «پایتون» استفاده کنند.

علاوه بر این، «اوپن‌ای‌آی» مدل‌ها را با استفاده از تکنیک‌هایی که این شرکت قبلاً در توسعه مدل «o3» و سایر سیستم‌های پیشرفته اخیر خود به کار گرفته بود، آموزش داد.

در کدنویسی سطح رقابتی، «gpt-oss-120b» امتیازی کسب کرد که تنها کمی بدتر از «o3»، مدل استدلال پیشرفته فعلی «اوپن‌ای‌آی» است، در حالی که «gpt-oss-20b» بین «o3-mini» و «o4-mini» قرار گرفت. البته باید منتظر آزمایش‌های بیشتر در دنیای واقعی باشیم تا ببینیم این دو مدل جدید چگونه با مدل‌های تجاری «اوپن‌ای‌آی» و رقبای آن مقایسه می‌شوند.

انتشار «gpt-oss-120b» و «gpt-oss-20b» و تمایل آشکار «اوپن‌ای‌آی» برای دو برابر کردن مدل‌های وزن‌باز پس از آن صورت می‌گیرد که «مارک زاکربرگ» اعلام کرد شرکت «متا» سیستم‌های کمتری از این نوع را برای عموم منتشر خواهد کرد.

پروفسور «لی» می‌گوید: می‌توان استدلال کرد که مدل‌های open-weight دسترسی به بزرگترین و توانمندترین مدل‌ها را برای افرادی که این مراکز داده عظیم و ابرمقیاس با تعداد زیادی پردازنده گرافیکی را ندارند، دموکراتیزه می‌کند. این به افراد اجازه می‌دهد تا از خروجی‌ها یا محصولات یک فرآیند آموزشی چند ماهه در یک مرکز داده عظیم بدون نیاز به سرمایه‌گذاری در آن زیرساخت به تنهایی استفاده کنند. از دیدگاه کسی که فقط یک مدل واقعاً توانمند برای شروع می‌خواهد و سپس می‌خواهد برای برخی از کاربردها بسازد، من فکر می‌کنم مدل‌های open-weight می‌توانند واقعاً مفید باشند.

«اوپن‌ای‌آی» در حال حاضر با چند سازمان مختلف برای استقرار نسخه‌های خود از این مدل‌ها، از جمله «مرکز ملی هوش مصنوعی کاربردی سوئد» همکاری می‌کند.

در یک جلسه مطبوعاتی که «اوپن‌ای‌آی» قبل از اعلامیه امروز برگزار کرد، تیمی که روی «gpt-oss-120b» و «gpt-oss-20b» کار می‌کرد، گفت که آنها این دو مدل را به عنوان یک آزمایش می‌بینند. هرچه افراد بیشتری از آنها استفاده کنند، احتمال انتشار مدل‌های «وزن بار» بیشتر توسط «اوپن‌ای‌آی» در آینده بیشتر می‌شود.

انتهای پیام