پایداری | متن کامل رایگان | مشکل زمانبندی کارگاه انعطاف پذیر کم کربن بر اساس یادگیری تقویتی عمیق - شهرساز | سایت تخصصی شهرسازی با هوش مصنوعی | شهرساز

بهترین آموزش های کاربردی در شهرسازی

بهترین آموزش های کاربردی در شهرسازی را از Urbanity.ir بخواهید

…

ادامه ...

خرید درب شیشه ای سکوریت با بهترین قیمت از تتراگلس

ادامه ...

Saturday, 29 June , 2024
امروز : شنبه, ۹ تیر , ۱۴۰۳

آخرین اخبار »

شناسه خبر : 17579

ارسال

پرینتخانه » مقالات تاریخ انتشار : 27 می 2024 - 3:30 | 15 بازدید | ارسال توسط : riazat

پایداری | متن کامل رایگان | مشکل زمانبندی کارگاه انعطاف پذیر کم کربن بر اساس یادگیری تقویتی عمیق

۴٫۱٫ فرآیند تصمیم گیری مارکوف (MDP) برای پرداختن به LC-FJSP با استفاده از یادگیری تقویتی عمیق، ما در ابتدا حالت ها، اقدامات، انتقال حالت ها و پاداش ها را تعریف می کنیم و مشکل را به یک فرآیند تصمیم گیری مارکوف (MDP) تبدیل می کنیم. سپس یک چارچوب تصمیم مبتنی بر DRL ایجاد می‌شود که […]

۴٫۱٫ فرآیند تصمیم گیری مارکوف (MDP)

برای پرداختن به LC-FJSP با استفاده از یادگیری تقویتی عمیق، ما در ابتدا حالت ها، اقدامات، انتقال حالت ها و پاداش ها را تعریف می کنیم و مشکل را به یک فرآیند تصمیم گیری مارکوف (MDP) تبدیل می کنیم. سپس یک چارچوب تصمیم مبتنی بر DRL ایجاد می‌شود که انتخاب عملیات و ماشین‌ها را به طور یکپارچه بررسی می‌کند و یک توزیع احتمال را برای تصمیم‌گیری خروجی می‌دهد. یک استراتژی حریصانه به کار گرفته شده است، با تمرکز بر انتخاب جفت عملیات-ماشین با بالاترین امتیاز. در نهایت، روش آموزشی مدل پیشنهادی را توضیح می‌دهیم.

فرآیند زمان بندی در FJSP به عنوان تخصیص یک عملیات آماده به یک ماشین بیکار مناسب تصور می شود. روند کار به صورت زیر است. در هر نقطه تصمیم گیری تی (چه در شروع یا پس از اتمام یک عملیات)، عامل وضعیت فعلی را ارزیابی می کند $س_{تی}$ و یک عمل را انتخاب می کند $آ_{تی}$ ، به طور خاص یک عملیات برنامه ریزی نشده را به یک ماشین موجود اختصاص می دهد و اجرای آن را از زمان شروع می کند $تی (تی)$ . متعاقباً، سیستم در مرحله به حالت بعدی منتقل می شود $تی + ۱$ . این توالی تا زمانی ادامه می یابد که همه عملیات ها برنامه ریزی شوند. چارچوب MDP به صورت زیر تعریف می شود:

حالت: نمایش حالت ویژگی ها و پویایی های اولیه محیط زمان بندی را با در نظر گرفتن هر دو فرآیند و ماشین ها به عنوان حالت ترکیبی نشان می دهد. وضعیت جمعی همه فرآیندها و ماشین ها در هر مرحله تصمیم گیری تی حالت را تشکیل می دهد $س_{تی}$ ، با شروع از نمونه اولیه FJSP به عنوان نشان داده شده است $س_{۰}$ .

عمل: این مقاله انتخاب فرآیند و انتساب ماشین را در یک انتخاب اقدام یکپارچه ادغام می کند و تمام جفت های فرآیند-ماشین امکان پذیر را به عنوان فضای عمل تعریف می کند. با پیشرفت برنامه ریزی، فضای عمل به طور طبیعی با تخصیص عملیات بیشتر کاهش می یابد.

انتقال دولت: در هر مرحله تصمیم گیری تی، از ایالت $س_{تی}$ ، عامل یک عمل را از فضای موجود انتخاب می کند و عمل را انجام می دهد $آ_{تی}$ ، این منجر به تغییر محیطی به حالت بعدی می شود $س_{تی + ۱}$ .

جایزه: هدف از طراحی تابع پاداش، راهنمایی عامل برای انتخاب اقداماتی است که حداکثر زمان تکمیل و انتشار کل کربن همه عملیات را به حداقل می رساند. تابع پاداش $r_{تی}$ در مرحله زمانی تی به عنوان … تعریف شده است $f (س_{تی}) - f (س_{تی + ۱})$ ، جایی که f نشان دهنده ارزش است $آ {سی}_{متر آ ایکس} (س_{تی}) + ب تی سی E (س_{تی})$ در وضعیت فعلی $س_{تی}$ . زمانی که عامل تخفیف $ج = ۱$ ، انباشت پاداش در هر مرحله نتیجه می دهد $\sum_{تی = ۰}^{| O - ۱ |} r_{تی} = f (س_{۰}) - f (س_{تی})$ . در یک مثال مشکل خاص، $f (س_{۰})$ ثابت است، به این معنی است که به حداقل رساندن f و به حداکثر رساندن پاداش تجمعی معادل هستند.

خط مشی: ما یک سیاست تصادفی اتخاذ می کنیم $پی (آ_{تی} | س_{تی})$ ، که توزیع احتمال را بر روی مجموعه اقدامات تعریف می کند $آ_{تی}$ برای هر ایالت $س_{تی}$ . توزیع این خط مشی توسط یک الگوریتم یادگیری تقویتی عمیق ایجاد می شود که پارامترهای خاصی را در طول آموزش بهینه می کند تا پاداش تجمعی را به حداکثر برساند.

به عنوان مثال، یک سناریوی ساده را در نظر بگیرید که در آن دو شغل وجود دارد، ${جی}_{۱}$ و ${جی}_{۲}$ ، هر کدام با یک عملیات، $O_{۱}$ و $O_{۲}$ ، به ترتیب، و سه ماشین، $م_{۱}$ ، $م_{۲}$ ، و $م_{۳}$ . در یک نقطه تصمیم گیری تی، هر دو $O_{۱}$ و $O_{۲}$ آماده پردازش هستند.

در زمان تی، وضعیت فعلی $س_{تی}$ شامل وضعیت کلیه مشاغل و ماشین آلات می باشد. برای مثال، ${جی}_{۱}$ عملیات $O_{۱}$ در انتظار تکلیف است، ${جی}_{۲}$ عملیات $O_{۲}$ در انتظار تعیین تکلیف است و همه ماشین ها $م_{۱}$ ، $م_{۲}$ ، و $م_{۳}$ بیکار هستند

فضای عمل شامل تمام تکالیف ماشینی ممکن است. در این سناریو، اقدامات ممکن عبارتند از:

۱٫: اختصاص دهید $O_{۱}$ به $م_{۱}$ ;
۲٫: اختصاص دهید $O_{۱}$ به $م_{۲}$ ;
۳٫: اختصاص دهید $O_{۱}$ به $م_{۳}$ ;
۴٫: اختصاص دهید $O_{۲}$ به $م_{۱}$ ;
۵٫: اختصاص دهید $O_{۲}$ به $م_{۲}$ ;
۶٫: اختصاص دهید $O_{۲}$ به $م_{۳}$ .

فرض کنید عامل اقدامی را که باید اختصاص داده شود انتخاب می کند $O_{۱}$ به $م_{۱}$ سیستم به حالت بعدی منتقل می شود $س_{تی + ۱}$ جایی که $O_{۱}$ در حال پردازش است $م_{۱}$ . به عنوان مثال، وضعیت جدید می تواند به صورت زیر باشد: $O_{۱}$ در حال اجرا است $م_{۱}$ با زمان تکمیل مورد انتظار ۵ واحد، $O_{۲}$ هنوز در انتظار تعیین تکلیف است، $م_{۲}$ و $م_{۳}$ بیکار بماند

پاداش این عمل بر اساس کاهش متریک ترکیبی حداکثر زمان تکمیل محاسبه می شود ( ${سی}_{متر آ ایکس}$ ) و کل انتشار کربن ( $تی سی E$ ). فرض کنید در حالت است $س_{تی}$ که ${سی}_{متر آ ایکس}$ ۲۰ است و $تی سی E$ ۳۰ است. پس از انتقال به حالت $س_{تی + ۱}$ ، ${سی}_{متر آ ایکس}$ به ۱۹ کاهش می یابد و $تی سی E$ به ۲۸ کاهش می یابد. تابع پاداش $r_{تی}$ به عنوان … تعریف شده است $f (س_{تی}) - f (س_{تی + ۱})$ ، جایی که f نشان دهنده مجموع وزنی از ${سی}_{متر آ ایکس}$ و $تی سی E$ . با فرض مساوی وزن $f (س_{تی}) = ۲۰ + ۳۰ = ۵۰$ و $f (س_{تی + ۱}) = ۱۹ + ۲۸ = ۴۷$ ; از این رو، $r_{تی} = ۵۰ - ۴۷ = ۳$ .

با در نظر گرفتن هر دو انتخاب فرآیند و انتساب ماشین در اقدامات، عامل به طور موثر یاد می‌گیرد که حجم کار را متعادل کند و معیارهای عملکرد کلی را در LC-FJSP بهینه کند.

۴٫۲٫ شبکه توجه کم کربن (LCGAN)

برای رسیدگی به چالش زمان‌بندی کارگاه‌های انعطاف‌پذیر کم کربن (LC-FJSP)، ویژگی‌هایی مانند زمان پردازش در قوس‌های عملیات به ماشین (OM) حیاتی هستند. بر اساس این زمان ها می توانیم میزان انتشار کربن را محاسبه کنیم

E_{۱}

در حین پردازش در ماشین های مختلف؛ به همین ترتیب، از زمان های بیکاری دستگاه، می توانیم انتشار کربن را استنباط کنیم

E_{۲}

زمانی که ماشین ها فعال نیستند این مطالعه از ویژگی‌ها و مزایای منحصر به فرد ساختار گراف ناهمگن با معرفی یک معماری شبکه LCGAN متناسب با طراحی خاص برای LC-FJSP بهره می‌برد. با افزایش دو ماژول توجه، همانطور که در [۳۱]، این چارچوب به طرز ماهرانه ای نمایش ویژگی های گره های فرآیند و عملیات را به تصویر می کشد. ویژگی‌های مصرف انرژی به قوس‌های OM در ماژول توجه ویژگی‌های دستگاه اضافه می‌شوند تا به ادغام و فیلتر کردن ویژگی‌های فرآیند کمک کنند. برای پرداختن به رابطه بین زمان و انتشار کربن در محاسبات بعدی، از بهینه‌سازی بیزی برای تنظیم وزن‌ها برای حداکثر زمان تکمیل و انتشار کربن، با هدف شناسایی راه‌حل بهینه استفاده می‌کنیم. ابعاد ویژگی ورودی برای عملیات و ماشین می باشد

د_{o}

د_{متر}

، به ترتیب. شکل ۴ معماری LCGAN را نشان می دهد.

۴٫۲٫۱٫ ماژول توجه ویژگی عملیات

هدف ماژول توجه ویژگی عملیات اتصال عملیات در یک قطعه کار با یافتن مهمترین عملیات از طریق ویژگی های ذاتی آنهاست. برای هر ویژگی عملیات ورودی

{ساعت}_{O_{من j}} \in {آر}^{د_{O}^{“}}

از

O_{من j} \in O_{تو}

، این ماژول روابط بین را برقرار می کند

O_{من j}

، سلف آن

O_{من ، j - ۱}

، و جانشین

O_{من ، j + ۱}

با محاسبه ضرایب توجه آنها به صورت زیر:

$ه_{من ، j ، پ} = LeakyReLU ({\vec{آ}}^{⊤} [(دبلیو {ساعت}_{O_{من j}}) ∥ (دبلیو {ساعت}_{O_{من پ}})])$

(۱۳)

جایی که ${\vec{آ}}^{⊤} \in {آر}^{۲ د_{O}^{“}}$ و $دبلیو \in {آر}^{د_{O}^{“} \times د_{O}}$ برای همه تبدیلات خطی هستند $| پ - j | \leq ۱$ .

ما تابع فعال‌سازی LeakyReLU را نسبت به ReLU استاندارد به دلایل مختلفی انتخاب کردیم. در مرحله اول، LeakyReLU به کاهش مشکل “ReLU در حال مرگ” کمک می کند، و اطمینان حاصل می کند که نورون ها فعال می مانند و گرادیان ها در طول آموزش جریان دارند، که برای ماژول توجه ویژگی عملکرد ما بسیار مهم است. ثانیا، آزمایش‌های اولیه ما وجود ویژگی‌های پر سر و صدا و نقاط پرت را در مجموعه داده نشان داد. شیب منفی کوچک LeakyReLU اجازه می دهد تا زمانی که واحدها غیرفعال هستند، شیب های غیرصفری ایجاد شود و به مدل کمک می کند تا نویز و نقاط پرت را قوی تر مدیریت کند. در نهایت، توانایی LeakyReLU برای ارائه گرادیان برای ورودی های منفی به انتشار گرادیان بهتر کمک می کند، به ویژه برای شبکه های عمیق مفید است.

این محاسبات شبیه به محاسبات GAT هستند اما دامنه آنها محدود شده است. از آنجایی که پیشینیان (یا جانشینان) برخی از عملیات ممکن است وجود نداشته باشند یا ممکن است در مرحله ای حذف شوند، پوشش پویا به ضرایب توجه این پیشینیان و جانشینان اعمال می شود. تابع softmax همه را عادی می کند

ه_{من ، j ، پ}

برای به دست آوردن ضرایب توجه نرمال شده

آ_{من ، j ، پ}

. در نهایت، با ترکیب خطی وزنی از ویژگی های ورودی تبدیل شده است

دبلیو {ساعت}_{O_{من ، j - ۱}}

دبلیو {ساعت}_{O_{من ، j}}

، و

دبلیو {ساعت}_{O_{من ، j + ۱}}

و به دنبال آن یک تابع فعال سازی غیرخطی

پ

، بردار ویژگی خروجی

{ساعت}_{O_{من j}}^{“} \in {آر}^{د_{O}^{“}}

به دست آمده است:

${ساعت}_{O_{من j}}^{“} = پ (\sum_{پ = j - ۱}^{j + ۱} آ_{من ، j ، پ} دبلیو {ساعت}_{O_{من پ}}) .$

(۱۴)

با اتصال متوالی چندین ماژول توجه ویژگی عملکرد، پیام $O_{من j}$ می تواند به همه عملیات در داخل منتشر شود ${جی}_{من}$ .

۴٫۲٫۲٫ ماژول توجه ویژگی ماشین

هر عملیاتی که باید پردازش شود، در نهایت می‌تواند تنها در یک ماشین تکمیل شود. از این رو، یک رابطه رقابتی بین ماشین‌های مختلف وجود دارد که شامل عملیات مشابهی است که باید پردازش شوند. این رابطه رقابتی ممکن است به صورت پویا با پیشرفت فرآیند تولید تکامل یابد. تعریف می کنیم

{سی}_{ک q}

به عنوان مجموعه ای از عملیات رقابتی بین ماشین ها

م_{ک}

م_{q}

، و

E_{پ_{من j ک}}

E_{پ_{من j q}} ،

به ترتیب نشان دهنده مصرف انرژی در عملیات است

O_{من j}

روی ماشین

م_{ک}

و ماشین

م_{q}

. علاوه بر این، ما استفاده می کنیم

ج_{ک q} = \sum_{O_{من j} \in {سی}_{ک q}} (E_{پ_{من j ک}} + E_{پ_{من j q}}) {ساعت}_{O_{من j}}

برای اندازه گیری شدت رقابت بین

م_{ک}

م_{q}

، جایی که رقابت شدیدتر نشان می دهد که عملیات نامزد اهمیت بیشتری دارد. ماژول توجه ویژگی ماشین استفاده می کند

ج_{ک q}

برای محاسبه ضریب توجه

v_{ک q}

. برای هر

م_{ک} \in م_{تو}

با قابلیت ورودی

{ساعت}_{م_{ک}} \in {آر}^{د_{متر}}

، ضرایب توجه

v_{ک q}

برای همه

م_{ک}

مسابقات به شرح زیر محاسبه می شود:

$v_{ک q} = LeakyReLU ({\vec{ب}}^{⊤} [(V^{۱} h_{M_{k}}) | | (V^{۱} h_{M_{q}}) | | (V^{۲} c_{k q})])$

(۱۵)

جایی که $V^{۱} \in {آر}^{د_{متر}^{“} \times د_{متر}}$ و $V^{۲} \in {آر}^{د_{متر}^{“} \times د_{o}}$ ماتریس های وزنی هستند و ${\vec{ب}}^{⊤} \in {آر}^{۳ د_{متر}^{“}}$ یک تبدیل خطی است.

${سی}_{ک ک}$ نشان دهنده مجموعه ای از عملیات برنامه ریزی نشده است که $م_{ک}$ می تواند پردازش کند. $ج_{ک ک}$ را می توان معیاری برای $م_{ک}$ قابلیت پردازش، و ما به طور مشابه از فرمول بالا برای محاسبه استفاده می کنیم $v_{ک ک}$ . سپس، ضرایب توجه نرمال شده با استفاده از نرم افزار مکس به دست می آیند و ویژگی های ورودی تبدیل شده با ELU ترکیب و فعال می شوند تا ویژگی خروجی ماشین به دست آید. ${ساعت}_{م_{ک}}^{“} \in {آر}^{د_{متر}^{“}}$ .

۴٫۲٫۳٫ ماژول توجه چند سر

ما از سرهای توجه متعدد برای پردازش ماژول های فوق الذکر استفاده می کنیم، با هدف یادگیری روابط متنوع بین موجودیت ها. اجازه دهید اچ تعداد سرهای توجه را در لایه توجه نشان دهید. درخواست می کنیم $۲ اچ$ ماژول های مکانیسم توجه که هر کدام شامل پارامترهای متفاوتی هستند. در مرحله اول، محاسبات موازی برای استخراج ضرایب توجه و ترکیبات انجام می شود. در مرحله دوم، خروجی های آنها از طریق یک عملگر تجمیع یکپارچه می شوند. ما concat را به عنوان عملگر تجمیع پذیرفته ایم و یک عملگر متوسط در آخرین لایه استفاده می شود. در نهایت، یک تابع فعال سازی $پ$ برای به دست آوردن خروجی لایه اعمال می شود.

۴٫۲٫۴٫ ادغام نمودار

هنگامی که از شبکه های عصبی گراف (GNN) برای پردازش داده های ساختار یافته گراف استفاده می کنیم، نمودارهای ورودی ممکن است دارای تعداد متفاوتی از گره ها و اتصالات لبه های مختلف باشند. این تنوع می‌تواند مدل را نسبت به تغییرات نمودارهای ورودی بسیار حساس کند و تعمیم داده‌های جدید نمودار را دشوار کند. عملیات ادغام نمودار می‌تواند با جمع‌آوری گره‌ها یا زیرگراف‌ها در نمودار برای به دست آوردن نمایشی در سطح بالاتر، به حل این مشکل کمک کند. این نمایش سطح بالاتر معادل خلاصه یا انتزاعی از کل نمودار است که حاوی اطلاعات مهم و ویژگی های کلیدی نمودار است. ویژگی های اصلی عملیات

O_{من j}

و ماشین

م_{ک}

به عنوان مشخص می شوند

{ساعت}^{(۰)} O_{من j}

{ساعت}^{(۰)} م_{ک}

، به ترتیب. پس از پردازش توسط L لایه های یک GNN، ویژگی ها با وزن توجه جمع شده اند،

{ساعت}^{“ (L)} O_{من j}

{ساعت}^{“ (L)} م_{ک}

، برای وظایف تصمیم گیری بعدی استفاده می شود. پیروی از روش در مرجع [۱۹]، ابتدا ویژگی‌های عملیات و ماشین‌ها را به‌ترتیب میانگین‌گیری می‌کنیم و سپس نتایج آنها را به هم متصل می‌کنیم تا ویژگی جهانی نمونه FJSP را شکل دهیم، همانطور که در زیر نشان داده شده است:

${ساعت}_{جی}^{“ (L)} = [(\frac{۱}{| O_{تو} |} \sum_{O_{من j} \in O_{تو}} {ساعت}_{O_{من j}}^{“ (L)}) ∥ (\frac{۱}{| م_{تو} |} \sum_{م_{ک} \in م_{تو}} {ساعت}_{م_{ک}}^{“ (L)})] .$

(۱۶)

۴٫۴٫ بهینه سازی بیزی

ارجاع [۳۲]: ما از روش های بهینه سازی بیزی برای تعیین وزن تابع پاداش استفاده می کنیم. این روش با انتخاب نقاط نمونه گیری مناسب در فضای جستجو و تنظیم موقعیت نقاط نمونه بر اساس نتایج مشاهده، به تدریج به راه حل بهینه نزدیک می شود. هدف ما بهینه سازی عملکرد جعبه سیاه است

f (سی ، E) = آ سی + ب E

، جایی که

آ

ب

ضرایبی هستند که باید بهینه شوند. ما از نتایج شبکه تصمیم گیری برای به دست آوردن برخی از نقاط نمونه استفاده می کنیم

({سی}_{من} ، E_{من})

و مقادیر تابع مربوط به آنها

f_{من} = f ({سی}_{من} ، E_{من})

. با توجه به فرمول بهینه‌سازی بیزی، یک مدل فرآیند گاوسی برای توصیف ایجاد می‌کنیم

f (سی ، E)

. برای انتخاب نقطه نمونه برداری بهینه، باید یک نقطه را پیدا کنیم

({سی}_{تی + ۱ ، E_{تی + ۱}})

تحت مدل فرآیند گاوسی فعلی که تابع هدف را به حداقل می رساند:

$({سی}_{تی + ۱} ، E_{تی + ۱}) = {آرگمین}_{(سی ، E) \in ایکس} E [f (C, E) ∣ X, y] .$

(۱۹)

برای به روز رسانی مدل فرآیند گاوسی، باید مقدار تابع را رعایت کنیم $f_{تی + ۱} = f ({سی}_{تی + ۱} ، E_{تی + ۱})$ در نقطه $({سی}_{تی + ۱} ، E_{تی + ۱})$ ، و سپس اضافه کنید $({سی}_{تی + ۱} ، E_{تی + ۱})$ ، $f_{تی + ۱}$ به نقاط نمونه و مقادیر تابع. در ادامه، با استفاده از قضیه بیزی و روش‌های رگرسیون فرآیند گاوس، بردار میانگین و ماتریس کوواریانس مدل فرآیند گاوس به‌روزرسانی می‌شوند.

مراحل بالا را تا رسیدن به همگرایی یا به دست آوردن تعداد از پیش تعیین شده تکرار تکرار کنید. بردار میانگین نهایی

متر (ایکس)

می توان برای تخمین مقادیر استفاده کرد

آ

ب

. به طور خاص، این به صورت زیر نمایش داده می شود:

$آ = \frac{{متر}_{سی}}{متر} ، ب = \frac{{متر}_{E}}{متر} .$

(۲۰)

جایی که ${متر}_{سی}$ و ${متر}_{E}$ میانگین مقادیر C و E را به ترتیب در فضای ورودی نشان می دهد و $متر$ نشان دهنده مقدار میانگین مقادیر تابع در تمام نقاط فضای ورودی است.

منبع:
۱- shahrsaz.ir , پایداری | متن کامل رایگان | مشکل زمانبندی کارگاه انعطاف پذیر کم کربن بر اساس یادگیری تقویتی عمیق
,۲۰۲۴-۰۵-۲۷ ۰۳:۳۰:۰۰
۲- https://www.mdpi.com/2071-1050/16/11/4544