• چهارشنبه / ۱۸ تیر ۱۴۰۴ / ۱۵:۵۹
  • دسته‌بندی: هوش مصنوعی
  • کد خبر: 1404041811230
  • خبرنگار : 71654

انقلاب انویدیا در هوش مصنوعی با پاسخ‌دهی ۳۲ برابر سریع‌تر به کاربران

انقلاب انویدیا در هوش مصنوعی با پاسخ‌دهی ۳۲ برابر سریع‌تر به کاربران

انویدیا از اولین هوش مصنوعی «طولانی‌متن» (long-context AI) جهان رونمایی کرده است که می‌تواند همزمان به ۳۲ برابر کاربران بیشتری خدمات در لحظه ارائه دهد.

به گزارش ایسنا، این سیستم جدید به‌طور ویژه برای پردازنده گرافیکی بلک‌ول (Blackwell) طراحی شده و با استفاده از روشی نوآورانه به نام هلیکس (Helix)، بازنویسی و درک متن‌های خیلی طولانی را متحول می‌کند و استاندارد جدیدی برای تعامل سریع و هم‌زمان با کاربران متعدد ایجاد می‌کند. بلک‌ول جدیدترین پردازنده گرافیکی انویدیا با قدرت و سرعت بالا برای اجرای مدل‌های بزرگ هوش مصنوعی است.

قدرتی نو برای پردازش متن‌های عظیم

به نقل از آی‌ای، انویدیا یک روش جدید و قدرتمند به نام  موازی‌سازی هلیکس (Helix Parallelism) ارائه کرده است که می‌تواند به‌طور چشمگیری عملکرد مدل‌های هوش مصنوعی را هنگام پردازش متن‌های بسیار طولانی بهبود بخشد.

این روش به مدل‌های هوش مصنوعی این امکان را می‌دهد که میلیون‌ها کلمه را به‌طور هم‌زمان پردازش کنند. برای مثال زمانی که یک چت‌بات یا دستیار هوش مصنوعی باید کل یک دایرةالمعارف یا مکالمه چندماهه را بررسی کند و درعین‌حال پاسخ‌هایی بسیار سریع بدهد.

هلیکس به‌طور ویژه برای هماهنگی با پردازنده‌های گرافیکی جدید انویدیا به نام بلک‌ول طراحی شده که پهنای باند حافظه بسیار بالا و قدرت محاسباتی فوق‌العاده‌ای دارند.

مشکل اصلی: پردازش حافظه زیاد و سنگین

وقتی مدل‌های هوش مصنوعی بزرگ می‌خواهند پاسخ جدید تولید کنند، باید تمام متن‌های قبلی را که به آن‌ها داده شده بررسی کنند این مجموعه‌ی قبلی «کانتکست» یا متن زمینه (context) نامیده می‌شود.

برای هر کلمه جدید، مدل باید بارها و بارها حافظه‌ای به نام KV cache را بخواند، که حاوی همه توکن‌ها یا کلمات قبلی است. این خواندن مکرر باعث فشار شدید به حافظه واحد پردازش گرافیکی (GPU) می‌شود. علاوه بر این، مدل باید در هر مرحله مقادیر عظیمی از داده‌ها را برای بخش شبکه تغذیه پیش ‌رو (FFN) دوباره از حافظه بارگیری کند، که باعث کندی شدید، مخصوصا در برنامه‌های زنده مانند چت‌بات‌ها می‌شود.

تاکنون، برنامه‌نویسان از روشی به نام موازی‌سازی تِنسوری (Tensor Parallelism) استفاده می‌کردند تا این فشار را بین چند واحد پردازش گرافیکی پخش کنند، اما بعد از یک حد خاص، واحدهای پردازش گرافیکی مجبور می‌شوند نسخه‌های تکراری از حافظه KV را نگه دارند، که باعث می‌شود فشار حافظه بیشتر هم بشود.

هلیکس چطور این مشکل را حل می‌کند؟

هلیکس با جدا کردن دو بخش اصلی مدل یعنی توجه یا attention و شبکه تغذیه پیش ‌رو  آن‌ها را به‌طور مستقل اجرا می‌کند. در مرحله توجه (attention)، هلیکس با استفاده از روشی جدید به نام KV Parallelism (KVP) حافظه KV را بین واحدهای پردازش گرافیکی تقسیم می‌کند، بدون اینکه تکراری ایجاد شود.

به زبان ساده به‌جای اینکه هر واحد پردازش گرافیکی مجبور باشد کل حافظه قبلی را بخواند، فقط بخشی از آن را پردازش می‌کند. سپس، همین واحدها به حالت قبلی (TP) برمی‌گردند تا بخش شبکه تغذیه پیش ‌رو را اجرا کنند این یعنی استفاده‌ی هوشمندانه از منابع، بدون اینکه  واحدهای پردازش بیکار بمانند.

هلیکس از اتصال‌های پرسرعت انویدیا مثل NVLink  و NVL۷2 استفاده می‌کند تا داده‌ها را بین واحدهای پردازش گرافیکی به‌سرعت جابه‌جا کند. همچنین تکنیکی به نام HOP-B  را معرفی می‌کند که محاسبات و انتقال اطلاعات را هم‌زمان انجام می‌دهد، تا تاخیرها باز هم کمتر شوند.

جهشی بزرگ در عملکرد

در شبیه‌سازی‌هایی که با یک مدل بسیار بزرگ به نام DeepSeek-R1 671B  انجام شده که مدلی با ظرفیت پردازش یک میلیون توکن یا کلمه است، مشخص شد که هلیکس می‌تواند تا ۳۲ برابر بیشتر از روش‌های قبلی به کاربران هم‌زمان پاسخ دهد و این بدون افزایش تاخیر انجام می‌شود.

در بارهای کاری سبک یعنی وقتی کاربران زیادی به‌طور هم‌زمان فعال نیستند، هلیکس می‌تواند زمان پاسخ‌دهی را تا ۱.۵ برابر کاهش دهد. حتی وقتی اندازه متن‌ها به میلیون‌ها کلمه برسد، هلیکس همچنان استفاده از حافظه را کنترل‌شده نگه می‌دارد و سرعت پردازش را ثابت نگه می‌دارد. این سیستم حافظه KV را به‌صورت چرخشی به‌روزرسانی می‌کند تا از فشار ناگهانی روی حافظه یا شلوغی بیش از حد واحدهای پردازش جلوگیری شود.

نتیجه نهایی

هلیکس به مدل‌های هوش مصنوعی امکان می‌دهد که در عین بزرگ شدن، سریع هم بمانند بدون اینکه عملکرد در لحظه(real-time)  قربانی شود. این یعنی دستیارهای مجازی و ربات‌های حقوقی هوش مصنوعی اکنون می‌توانند با وجود بارهای عظیم، همچنان پاسخ‌گو، سریع و حاضر باقی بمانند.

انتهای پیام

  • در زمینه انتشار نظرات مخاطبان رعایت چند مورد ضروری است:
  • -لطفا نظرات خود را با حروف فارسی تایپ کنید.
  • -«ایسنا» مجاز به ویرایش ادبی نظرات مخاطبان است.
  • - ایسنا از انتشار نظراتی که حاوی مطالب کذب، توهین یا بی‌احترامی به اشخاص، قومیت‌ها، عقاید دیگران، موارد مغایر با قوانین کشور و آموزه‌های دین مبین اسلام باشد معذور است.
  • - نظرات پس از تأیید مدیر بخش مربوطه منتشر می‌شود.

نظرات

شما در حال پاسخ به نظر «» هستید.
لطفا عدد مقابل را در جعبه متن وارد کنید
captcha