پوریا خانیزاده در گفتوگو با ایسنا با اشاره به محیطهای چند عاملی، اظهار کرد: در بسیاری از مسائل دنیای واقعی، سیستمهای هوشمند تنها با یک محیط ساده روبهرو نیستند، بلکه باید رفتار چندین عامل دیگر را نیز در نظر بگیرند. به چنین محیطهایی در علوم کامپیوتر «محیطهای چندعاملی» گفته میشود.
وی افزود: در این نوع محیطها چند عامل هوشمند بهطور همزمان در حال تصمیمگیری هستند و رفتار هر کدام میتواند بر نتیجه تصمیم دیگران اثر بگذارد. نمونههایی از این شرایط را میتوان در بازیهای استراتژیک، مدیریت ترافیک شهری، هماهنگی رباتها در عملیات امداد و نجات و حتی در حوزه امنیت سایبری مشاهده کرد.
این پژوهشگر حوزه هوش مصنوعی با اشاره به یکی از مشکلات این حوزه، ادامه داد: مسئله اصلی اینجا است که در چنین محیط هایی تصمیمی گیری بسیار پیچیده می شود، زیرا هر عامل فقط با محیط رو به رو نیست، بلکه رفتار بقیه عاملها هم روی نتیجه تصمیم او اثر می گذارد. برای مثال تصور کنید چند خودروی خودران در یک چهارراه شلوغ و بدون چراغ راهنمایی قرار دارند. هر خودرو باید تصمیم بگیرد چه زمانی حرکت کند، اما این تصمیم تنها به شرایط محیط وابسته نیست و رفتار سایر خودروها نیز در آن نقش دارد. اگر هر خودرو فقط وضعیت خود را در نظر بگیرد، احتمال بروز خطا یا حتی تصادف افزایش پیدا میکند.
خانیزاده با اشاره به روش مورد استفاده در این پژوهش، گفت: یکی از روشهای مهم در حوزه هوش مصنوعی برای حل چنین مسائل پیچیدهای «یادگیری تقویتی» است. در این روش، یک عامل هوشمند با آزمون و خطا یاد میگیرد چه کاری بهتر است. شبیه زمانی که انسان یک بازی جدید را یاد میگیرد؛ در ابتدا اشتباه میکند، اما بهمرور از نتیجه کارهایش درس میگیرد. اگر تصمیم خوبی بگیرد پاداش میگیرد و اگر تصمیم اشتباهی گرفته شود، جریمه خواهد شد. بدین گونه به مرور زمان عامل یاد میگیرد کدام رفتارها نتیجه بهتری خواهند داشت.
وی با اشاره به الگوریتم مورد استفاده در این روش، افزود: در این روش از الگوریتم PPO استفاده شده است. این الگوریتم یکی از روشهای شناختهشده در یادگیری تقویتی است که کمک میکند فرآیند یادگیری پایدارتر انجام شود و عامل هنگام یادگیری تغییرات خیلی ناگهانی در رفتار خود ایجاد نکند. این موضوع نه تنها باعث می شود فرآیند یادگیری پایدارتر باشد بلکه موجب تبدیل سریع تر سیستم به یک رفتار مناسب می شود.
این پژوهشگر ادامه داد: با این حال در محیطهای چندعاملی چالش مهم دیگری نیز وجود دارد و آن نحوه مدلسازی روابط میان عاملها است. برای مثال در یک تیم رباتیک، هر ربات باید بداند بقیه ربات ها چه کاری انجام میدهند تا بتوانند با هم همکاری کنند. در بسیاری از موارد، روشهای سنتی یادگیری ماشین نمیتوانند وابستگیهای پیچیده میان عاملهای مختلف را بهخوبی درک کنند.
وی در ادامه با اشاره راهکار استفادهشده در این پژوهش، گفت: برای حل این مسئله از «شبکههای عصبی گرافی» استفاده شده است. در این روش هر عامل بهعنوان یک نقطه در یک گراف در نظر گرفته میشود و ارتباط میان عاملها به صورت یالهایی(خطوطی)، میان این نقطه ها مدل میشود. این ساختار به سیستم اجازه میدهد روابط میان عاملها را بهتر تحلیل کند.
خانیزاده توضیح داد: برای مثال اگر چند ربات در یک عملیات امداد و نجات در حال جستوجوی افراد در یک ساختمان تخریبشده باشند، هر ربات تنها بخشی از محیط اطراف خود را مشاهده میکند، اما اگر بتواند اطلاعات سایر رباتها را نیز در نظر بگیرد، تصمیمهای دقیقتر و هماهنگتری خواهد گرفت. شبکههای عصبی گرافی دقیقاً برای چنین شرایطی طراحی شدهاند. یعنی زمانی که چند موجود به هم مرتبط هستند، رفتار هرکدام روی بقیه اثر می گذارد.
وی با بیان اینکه ترکیب این دو رویکرد میتواند به بهبود عملکرد سیستمهای هوشمند کمک کند، اظهار کرد: در این پژوهش تلاش شده است یادگیری تقویتی با شبکههای عصبی گرافی ترکیب شود تا عاملها علاوه بر یادگیری از تجربههای خود، بتوانند روابط میان سایر عاملها را نیز در فرآیند تصمیمگیری لحاظ کنند. یعنی عامل ها یاد می گیرند چه کاری انجام دهند و همزمان به رفتار بقیه توجه کنند.
این پژوهشگر افزود: چنین رویکردی میتواند در کاربردهای مختلفی مورد استفاده قرار گیرد. برای مثال در خودروهای خودران هر خودرو باید رفتار سایر خودروها را پیشبینی کند. همچنین در سیستمهای مدیریت ترافیک شهری، تغییر رفتار یک وسیله نقلیه میتواند بر کل جریان ترافیک اثر بگذارد.
خانیزاده ادامه داد: علاوه بر این، در حوزه امنیت سایبری نیز سیستمهای دفاعی باید بتوانند رفتار چند مهاجم مختلف را تحلیل کنند و واکنش مناسب نشان دهند. در بازیهای رایانهای و شبیهسازیهای پیچیده نیز این روشها میتوانند به طراحی عاملهایی کمک کنند که در برابر استراتژی های مختلف عملکرد بهتری داشته باشند.
وی گفت: به همین دلیل پژوهش هایی که ترکیب یادگیری تقویتی و شبکه های عصبی گرافی را بررسی می کنند، تلاش دارند راهی پیدا کنند تا سیستم های هوشمند بتوانند در محیط های پیچیده تر و واقعی تر بهتر تصمیم بگیرند. هدف اصلی چنین پژوهشهایی این است که سیستمهای هوش مصنوعی بتوانند در شرایطی که چندین عامل بهطور همزمان در حال تعامل، همکاری یا رقابت هستند تصمیمهای دقیقتر و هوشمندانهتری بگیرند؛ شرایطی که در بسیاری از مسائل واقعی جهان وجود دارد.
انتهای پیام
