• یکشنبه / ۲۰ اردیبهشت ۱۴۰۵ / ۰۸:۴۴
  • دسته‌بندی: زنجان
  • کد مطلب: 1405022011228

هوش مصنوعی چگونه با در نظر گرفتن رفتار دیگران تصمیم می‌گیرد؟

هوش مصنوعی چگونه با در نظر گرفتن رفتار دیگران تصمیم می‌گیرد؟

ایسنا/زنجان پژوهشگر حوزه هوش مصنوعی گفت: پیش‌بینی رفتار سایر عامل‌ها یکی از چالش‌های مهم در حوزه هوش مصنوعی و سیستم‌های چندعاملی به شمار می‌رود؛ جایی که هر عامل باید علاوه بر تصمیم‌گیری برای خود، رفتار و واکنش دیگران را نیز در نظر بگیرد. در همین راستا، تلاش شد با استفاده از روش‌های نوین هوش مصنوعی، راهی برای بهتر فهمیدن رفتار سایر عامل‌ها و تصمیم‌گیری دقیق‌تر در چنین محیط‌هایی ارائه دهد.

پوریا خانی‌زاده در گفت‌وگو با ایسنا با اشاره به محیط‌های چند عاملی، اظهار کرد: در بسیاری از مسائل دنیای واقعی، سیستم‌های هوشمند تنها با یک محیط ساده روبه‌رو نیستند، بلکه باید رفتار چندین عامل دیگر را نیز در نظر بگیرند. به چنین محیط‌هایی در علوم کامپیوتر «محیط‌های چندعاملی» گفته می‌شود.

وی افزود: در این نوع محیط‌ها چند عامل هوشمند به‌طور همزمان در حال تصمیم‌گیری هستند و رفتار هر کدام می‌تواند بر نتیجه تصمیم دیگران اثر بگذارد. نمونه‌هایی از این شرایط را می‌توان در بازی‌های استراتژیک، مدیریت ترافیک شهری، هماهنگی ربات‌ها در عملیات امداد و نجات و حتی در حوزه امنیت سایبری مشاهده کرد.

این پژوهشگر حوزه هوش مصنوعی با اشاره به یکی از مشکلات این حوزه، ادامه داد: مسئله اصلی اینجا است که در چنین محیط هایی تصمیمی گیری بسیار پیچیده می شود، زیرا هر عامل فقط با محیط رو به رو نیست، بلکه رفتار بقیه عامل‌ها هم روی نتیجه تصمیم او اثر می گذارد. برای مثال تصور کنید چند خودروی خودران در یک چهارراه شلوغ و بدون چراغ راهنمایی قرار دارند. هر خودرو باید تصمیم بگیرد چه زمانی حرکت کند، اما این تصمیم تنها به شرایط محیط وابسته نیست و رفتار سایر خودروها نیز در آن نقش دارد. اگر هر خودرو فقط وضعیت خود را در نظر بگیرد، احتمال بروز خطا یا حتی تصادف افزایش پیدا می‌کند.

خانی‌زاده با اشاره به روش مورد استفاده در این پژوهش، گفت: یکی از روش‌های مهم در حوزه هوش مصنوعی برای حل چنین مسائل پیچیده‌ای «یادگیری تقویتی» است. در این روش، یک عامل هوشمند با آزمون و خطا یاد می‌گیرد چه کاری بهتر است. شبیه زمانی که انسان یک بازی جدید را یاد می‌گیرد؛ در ابتدا اشتباه می‌کند، اما به‌مرور از نتیجه کارهایش درس می‌گیرد. اگر تصمیم خوبی بگیرد پاداش می‌گیرد و اگر تصمیم اشتباهی گرفته شود، جریمه خواهد شد. بدین گونه به مرور زمان عامل یاد می‌گیرد کدام رفتارها نتیجه بهتری خواهند داشت.

وی با اشاره به الگوریتم مورد استفاده در این روش، افزود: در این روش از الگوریتم PPO استفاده شده است. این الگوریتم یکی از روش‌های شناخته‌شده در یادگیری تقویتی است که کمک می‌کند فرآیند یادگیری پایدارتر انجام شود و عامل هنگام یادگیری تغییرات خیلی ناگهانی در رفتار خود ایجاد نکند. این موضوع نه تنها باعث می شود فرآیند یادگیری پایدارتر باشد بلکه موجب تبدیل سریع تر سیستم به یک رفتار مناسب می شود.

این پژوهشگر ادامه داد: با این حال در محیط‌های چندعاملی چالش مهم دیگری نیز وجود دارد و آن نحوه مدل‌سازی روابط میان عامل‌ها است. برای مثال در یک تیم رباتیک، هر ربات باید بداند بقیه ربات ها چه کاری انجام می‌دهند تا بتوانند با هم همکاری کنند. در بسیاری از موارد، روش‌های سنتی یادگیری ماشین نمی‌توانند وابستگی‌های پیچیده میان عامل‌های مختلف را به‌خوبی درک کنند.

وی در ادامه با اشاره راهکار استفاده‌شده در این پژوهش، گفت: برای حل این مسئله از «شبکه‌های عصبی گرافی» استفاده شده است. در این روش هر عامل به‌عنوان یک نقطه در یک گراف در نظر گرفته می‌شود و ارتباط میان عامل‌ها به صورت یال‌هایی(خطوطی)، میان این نقطه ها مدل می‌شود. این ساختار به سیستم اجازه می‌دهد روابط میان عامل‌ها را بهتر تحلیل کند.

خانی‌زاده توضیح داد: برای مثال اگر چند ربات در یک عملیات امداد و نجات در حال جست‌وجوی افراد در یک ساختمان تخریب‌شده باشند، هر ربات تنها بخشی از محیط اطراف خود را مشاهده می‌کند، اما اگر بتواند اطلاعات سایر ربات‌ها را نیز در نظر بگیرد، تصمیم‌های دقیق‌تر و هماهنگ‌تری خواهد گرفت. شبکه‌های عصبی گرافی دقیقاً برای چنین شرایطی طراحی شده‌اند. یعنی زمانی که چند موجود به هم مرتبط هستند، رفتار هرکدام روی بقیه اثر می گذارد.

وی با بیان اینکه ترکیب این دو رویکرد می‌تواند به بهبود عملکرد سیستم‌های هوشمند کمک کند، اظهار کرد: در این پژوهش تلاش شده است یادگیری تقویتی با شبکه‌های عصبی گرافی ترکیب شود تا عامل‌ها علاوه بر یادگیری از تجربه‌های خود، بتوانند روابط میان سایر عامل‌ها را نیز در فرآیند تصمیم‌گیری لحاظ کنند. یعنی عامل ها یاد می گیرند چه کاری انجام دهند و همزمان به رفتار بقیه توجه کنند.

این پژوهشگر افزود: چنین رویکردی می‌تواند در کاربردهای مختلفی مورد استفاده قرار گیرد. برای مثال در خودروهای خودران هر خودرو باید رفتار سایر خودروها را پیش‌بینی کند. همچنین در سیستم‌های مدیریت ترافیک شهری، تغییر رفتار یک وسیله نقلیه می‌تواند بر کل جریان ترافیک اثر بگذارد.

خانی‌زاده ادامه داد: علاوه بر این، در حوزه امنیت سایبری نیز سیستم‌های دفاعی باید بتوانند رفتار چند مهاجم مختلف را تحلیل کنند و واکنش مناسب نشان دهند. در بازی‌های رایانه‌ای و شبیه‌سازی‌های پیچیده نیز این روش‌ها می‌توانند به طراحی عامل‌هایی کمک کنند که در برابر استراتژی های مختلف عملکرد بهتری داشته باشند.

وی گفت: به همین دلیل پژوهش هایی که ترکیب یادگیری تقویتی و شبکه های عصبی گرافی را بررسی می کنند، تلاش دارند راهی پیدا کنند تا سیستم های هوشمند بتوانند در محیط های پیچیده تر و واقعی تر بهتر تصمیم بگیرند. هدف اصلی چنین پژوهش‌هایی این است که سیستم‌های هوش مصنوعی بتوانند در شرایطی که چندین عامل به‌طور همزمان در حال تعامل، همکاری یا رقابت هستند تصمیم‌های دقیق‌تر و هوشمندانه‌تری بگیرند؛ شرایطی که در بسیاری از مسائل واقعی جهان وجود دارد.

انتهای پیام