چکیده: استفاده از هوش مصنوعی می تواند به کارایی بیشتر سیستم های حمل و نقل کمک کند. یکی از زیر شاخه های هوش مصنوعی حوزه یادگیری تقویتی است که در طول سالیان اخیر توجه متخصصان حوزه حمل و نقل را به خود جلب کرده است. در این مقاله به کاربرد این روش در حوزه های خودروهای خودران، کنترل ترافیک، مسیریابی و حمل و نقل ریلی می پردازیم.

یادگیری تقویتی (Reinforcement Learning) یکی از انواع روش‌های یادگیری ماشین است که به یک عامل (Agent) این امکان را می‌دهد تا از تعامل با محیط و از طریق آزمون و خطا یاد بگیرد. عامل، بازخوردهایی از محیط می‌گیرد و تجربه‌هایی از محیط کسب می‌کند که همه به یادگیریش کمک می‌کنند.

در این روش، یک عامل در محیط قرار می‌گیرد تا با آزمون و خطا یاد بگیرد کدام کارها مفید و کدام کارها غیر مفید هستند و در نهایت به یک هدف مشخص برسد. از این جهت که در مورد یادگیری تقویتی هم هدف مشخصی از یادگیری وجود دارد، می‌توان آن را شبیه یادگیری نظارتی دانست. اما وقتی که اهداف و پاداش‌ها مشخص شدند، الگوریتم به صورت مستقل عمل می‌کند و نسبت به یادگیری نظارتی تصمیمات آزادانه‌تری می‌گیرد. هدف یادگیری تقویتی این است که سعی کند با انجام عملیات مناسب در هر موقعیتی که در آن قرار می‌گیرد، میزان پاداش دریافتی را بیشینه کند. این روش را می‌توان در نرم‌افزارها و ماشین‌های مختلف پیاده‌سازی کرد تا به کمک آن بهترین مسیر یا رفتار در یک موقعیت خاص اتخاذ شود. در واقع در یادگیری تقویتی دیتاست آموزشی وجود ندارد و عامل براساس تجربه‌های خودش یاد می‌گیرد.

مهمترین اصطلاحات در یادگیری تقویتی به شرح زیر است:

عامل (Agent): عامل موجودی است که در محیط به اکتشاف و جستجو می‌پردازد تا با شناخت محیط بتواند متناسب با شرایط تصمیم‌گیری و عمل کند.

محیط (Environment): شرایطی است که عامل در آن حضور دارد، یا توسط آن احاطه شده است. در یادگیری تقویتی، محیط تصادفی (stochastic) است، به این معنی که محیط به‌ خودی خود، تصادفی است.

عمل (Action): عمل، حرکت‌هایی است که توسط عامل در محیط انجام می‌شود.

حالت (State): حالت، شرایطی است که بعد از هر عمل، از طرف محیط بازگردانده می‌شود.

پاداش (Reward): بازخوردی است که از طرف محیط به عامل داده می‌شود تا عملی که انجام داده ارزیابی شود.

سیاست (Policy): سیاست یک نوع استراتژی است که عامل براساس آن، از روی حالت فعلی محیط، عمل بعدی‌اش را انجام می‌دهد.

ارزش (Value): میزان ارزش ایجاد شده در بلند مدت است و می‌تواند با پاداش کوتاه مدت متفاوت باشد. به این معنی که گاهی برخی از تصمیم‌ها در کوتاه‌مدت پاداشی به همراه ندارند یا حتی پاداش منفی دارند، اما در جهت رسیدن به هدف نهایی مساله هستند.

شکل زیر نحوه ارتباط موارد ذکر شده را نشان می دهد.

کاربرد یادگیری تقویتی در حمل و نقل
در این شکل نحوه تعامل یک عامل با محیط نشان داده شده است. عامل با انجام یک عمل، پاداشی را دریافت می کند و حالت جدید (state) نیز توسط محیط به او داده می شود.

استفاده از هوش مصنوعی و زیر شاخه های آن به مهندسین حمل و نقل امکان توسعه سیستم های هوشمند حمل و نقل را می دهد که می تواند به مدیریت بهتر جریان ترافیک، کنترل انطباق پذیر با شرایط، افزایش ایمنی و افزایش رضایت کاربران منجر شود. یادگیری تقویتی به جهت توانایی در حل مسائل بهینه سازی و مسائلی که دارای متغیرهای زیادی هستند می تواند به کمک مهندسین این حوزه بیاید. به همین دلیل در ادامه به کاربرد یادگیری تقویتی در حوزه حمل و نقل می پردازیم.

اگر به دنبال آشنایی با رشته مهندسی حمل و نقل هستید یا به دنبال منابع با کیفیت و رایگان برای یادگیری بیشتر و عمیق تر می باشید می توانید از سایر مطالب وبلاگ و یا بخش کتب و اسناد استفاده کنید.

خودروهای خودران:

به طور کلی می توان عمل رانندگی یک خودروی خودران را به درک از محیط پیرامونی (در نظر گرفتن حرکت سایر خودروها، درک علائم مسیر، توجه به عابران پیاده و ..)، برنامه ریزی برای حرکت از نقطه A به نقطه B (انتخاب مسیر، انتخاب خطوط و …) و کنترل وسیله نقلیه (شتاب گرفتن، ترمز کردن، حرکت به چپ و راست و …) تقسیم کرد. یادگیری تقویتی و ترکیب آن با یادگیری عمیق می تواند در تمام این وظایف نقش ایفا کند.

به عنوان مثال می توان به وظیفه مربوط به تغییر خط در حین رانندگی پرداخت. خودروی خودران بر اساس تحلیل داده های ورودی باید قادر به تصمیم گیری در مورد تغییر خط در موقع نیاز یا ماندن در خط کنونی باشد. سبقت گرفتن، خارج شدن از بزرگراه، گردش به چپ در تقاطعات، جلوگیری از تصادف از جمله مواردی است که تغییر خط در آنها مهم می باشد. دنبال کردن خودروها (Car following) که عمل (Action) مربوط به آن می تواند افزایش شتاب، ترمز گرفتن یا حفظ سرعت قبل باشد، تصمیم گیری در تقاطعات (Intersection Navigation) که خودرو می بایست در مورد جهت حرکت، سرعت و یا توقف تصمیم بگیرد و یا وارد شدن به سایر مسیرها (Ramp merging) که در آن خودرو باید تصمیم بگیرد با چه زاویه ای و یا سرعتی وارد جریان اصلی ترافیک شود از دیگر کاربردهای یادگیری تقویتی می باشد.

کنترل هوشمند ترافیک:

کنترل چراغ راهنمایی به نحوی که بتواند به تغییرات جریان ترافیک در زمان مناسب پاسخگو باشد، با توجه به بزرگ بودن فضای تصمیم گیری کار دشواری می باشد. یادگیری تقویتی می تواند به تنظیم کردن زمان بندی چراغ راهنمایی به نحوی که بتواند به شکل بهینه تری عمل کند، کمک می کند.

در این حالت می توان پاداش مربوط به عامل را با توجه به تاخیر وارد شده به خودروها، طول صف یا نرخ تخلیه صف در نظر گرفت. تحقیقات متنوعی در مورد کنترل تقاطعات منفرد و یا هماهنگ کردن چند تقاطع با استفاده از یادگیری تقویتی صورت گرفته است. کنترل سرعت متغیر، قیمت گذاری خطوط و کنترل رمپ ها از دیگر حوزه های است که می توان از یادگیری تقویتی برای کنترل هوشمند جریان ترافیک با قابلیت پاسخگویی در زمان مناسب (Real-time) استفاده کرد.

مسیریابی:

مسائلی مانند فروشنده دوره گرد ((TSP) Travelling Salesman Problem)، مسیریابی حرکت خودرو (Vehicle Routing Problem (VRP))، تحویل کالاها در شهر (urban freight delivery) و یا پاسخگویی بر اساس تقاضا (On-demand ridesharing) توسط محققان مورد بررسی قرار گرفته است.

قبول کردن درخواست ها، انتخاب مشتری بعدی برای تحویل کالاها، تخصیص خودورها به مسیرها، تخصیص کالاها به خودروها، تخصیص دپو، جابه جا کردن خودروها در شبکه از جمله تصمیماتی می باشد که یک عامل در یادگیری تقویتی می تواند داشته باشد.

حمل و نقل ریلی:

یادگیری تقویتی نتایج امیدوار کننده ای در بحث زمان بندی حرکت قطارها که می تواند شامل تغییر مسیر، تغییر زمان حرکت و یا حتی لغو حرکت در شرایط خاص باشد نشان داده است. در حوزه کنترل خودکار قطارها (Automatic train operations) نیز افزایش شتاب حرکت یا کاهش آن توسط محققان مورد مطالعه قرار گرفته است. همچنین برنامه ریزی برای تعمیرات و ترتیب وارد شدن و یا خارج شدن از پارکینگ از دیگر مسائلی است که توجه محققان را به خود جلب کرده است.

منابع:

Farazi, N. P., Zou, B., Ahamed, T., & Barua, L. (2021). Deep reinforcement learning in transportation research: A review. Transportation research interdisciplinary perspectives11, 100425.

یادگیری تقویتی چیست و چه کاربردهایی دارد؟

Vous devez être connecté pour noter

پاسخ‌ها

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *