بهترین آموزش های کاربردی در شهرسازی
بهترین آموزش های کاربردی در شهرسازی را از Urbanity.ir بخواهید
Monday, 6 May , 2024
امروز : دوشنبه, ۱۷ اردیبهشت , ۱۴۰۳
شناسه خبر : 7298
  پرینتخانه » مقالات تاریخ انتشار : 20 آوریل 2024 - 3:30 | 14 بازدید | ارسال توسط :

پایداری | متن کامل رایگان | رویکرد یادگیری تقویتی مبتنی بر بینایی برای بهینه‌سازی فرآیند آسانسور سطلی برای استفاده از زباله‌های جامد

۱٫ معرفی مقدار زیادی انرژی برای تولید حرارتی در سراسر صنایع تولیدی مورد نیاز است. به طور خاص، صنعت سیمان نیاز به تولید گرمای حرارتی از طریق فرآیند کلسینه دارد. به طور سنتی، زغال سنگ به عنوان سوخت برای تغذیه کلسینر در کارخانه های سیمان استفاده می شود. کلسینر یک استوانه فولادی است که در […]

پایداری |  متن کامل رایگان |  رویکرد یادگیری تقویتی مبتنی بر بینایی برای بهینه‌سازی فرآیند آسانسور سطلی برای استفاده از زباله‌های جامد


۱٫ معرفی

مقدار زیادی انرژی برای تولید حرارتی در سراسر صنایع تولیدی مورد نیاز است. به طور خاص، صنعت سیمان نیاز به تولید گرمای حرارتی از طریق فرآیند کلسینه دارد. به طور سنتی، زغال سنگ به عنوان سوخت برای تغذیه کلسینر در کارخانه های سیمان استفاده می شود. کلسینر یک استوانه فولادی است که در داخل کوره قرار دارد. با یک اتمسفر کنترل شده، پردازش غیرمستقیم سوخت خام با دمای بالا (۵۵۰-۱۱۵۰ درجه سانتیگراد) را با چرخش در داخل یک کوره گرم انجام می دهد. این سوخت معمولاً با استفاده از فناوری آسانسور سطلی در ارتفاع بالا در کوره ریخته می شود. نمونه ای از چنین سیستمی را می توان در شکل ۱. به دلایل ساختاری، فناوری آسانسور سطلی تنها گزینه انتقال عمودی مناسب برای تغذیه کلسینر با سوخت در اکثر کارخانه های سیمان است. با پایداری و حفظ منابع، روند رو به افزایشی به سمت جایگزینی سوخت‌های فسیلی کلاسیک، مانند زغال سنگ یا گاز، توسط منابع سوخت جایگزین (AFRs) در سراسر صنعت فرآیند وجود دارد. [۱]. برخی از این ذرات سوخت که مورد توجه قرار گرفته اند عبارتند از موادی مانند نی چوب، دانه های لاستیک، ضایعات کاغذ، خرده چوب و غیره.
ضایعات جامد یا AFR ها دارای ارزش حرارتی هستند که برای تولید گرمای لازم برای فرآیند کلسینه کردن کافی است. همچنین دمای بالا در کلسینر احتراق کامل این مواد زائد را تسهیل می کند که احتمال انتشار مضر را به حداقل می رساند. احتراق AFR ها منجر به یک محصول جانبی به شکل خاکستر باقی مانده می شود. این خاکستر دارای پتانسیل دگرگونی در فرآیند تولید سیمان است، همانطور که در مورد بحث قرار گرفت [۲]. خاکستر خواص پوزولانی از خود نشان می دهد. ترکیبات سیمانی بادوام زمانی تشکیل می شوند که آهک با مواد پوزولان ترکیب شود. در اینجا، محصول جانبی خاکستر می تواند به عنوان یک ماده خام جایگزین برای تولید سیمان استفاده شود. خاکستر همچنین می‌تواند جایگزین کلینکر، ماده خام دیگر برای تولید سیمان شود و در نتیجه به کاهش قابل توجه انتشار CO2 کمک کند.
استفاده از AFR برای تولید سیمان در مرحله فرآیند احتراق سیمان در [۳]. این یک مطالعه دقیق از نظارت فعال یک مشعل چند سوختی با استفاده از مفاهیم سنتی تجزیه و تحلیل تصویر برای استفاده از AFR به صورت پویا در تولید انرژی ارائه کرد. با این حال، مشکل بهینه‌سازی یک تغذیه مواد AFR برای چنین مشعل، یک سوال باز باقی ماند. زیست توده یا جریان های زباله منابع اولیه برای تهیه این AFR ها هستند. و به این ترتیب، آنها دارای ویژگی های ناهمگن مواد فله ای مانند رطوبت، چگالی و توزیع اندازه ذرات هستند. اگرچه استفاده از چنین موادی از نظر زیست محیطی مطلوب است، آسانسورهای سطلی معمولی، با سوخت‌های جایگزین اغلب کرکی و ناهمگن، برای تغذیه مؤثر این مواد در کوره‌های حرارتی مناسب نیستند. ویژگی های ناهمگن AFR ها منجر به تغییر سهمی های تخلیه این مواد در نمونه ای می شود که تخلیه می شود. از این رو، نیاز به مشاهده این مسیرها و برآورد روشی برای دبی بهینه آنها احساس می شود. بنابراین، هدف این مقاله توسعه یک آسانسور سطلی هوشمند با کارایی بالا است. ایده این است که سرعت آسانسور سطلی را به صورت هوشمند بهینه کنیم. یک الگوریتم یادگیری تقویتی (RL) که توسط تابع پاداش مبتنی بر دید کنترل می شود برای دستیابی به این هدف پیشنهاد شده است. با این حال، آموزش یک الگوریتم RL به مقدار زیادی داده با کیفیت نیاز دارد. به دست آوردن داده‌های با کیفیت بالا در حجم‌های زیاد با یک آسانسور سطلی واقعی مستلزم چندین بار کارکردن دستگاه است، که فرآیندی دشوار است که منجر به مصرف انرژی بالا همراه با فرسودگی احتمالی سیستم می‌شود. یک رویکرد جایگزین جمع آوری داده ها از شبیه سازی است که رفتار سیستم را تکرار می کند و یادگیری را از تجربه مجازی به دنیای واقعی منتقل می کند. به این ترتیب، این تحقیق با بهینه‌سازی شبیه‌سازی آسانسور سطلی بر اساس کوپلینگ نرم‌افزاری دینامیک سیالات محاسباتی (CFD) و روش المان گسسته (DEM) انجام شده است. توانایی محاسبه عددی جابجایی‌ها و چرخش‌های ذرات المان محدود و انجام خودکار تشخیص تماس برای گروهی از انواع مختلف ذرات، روش المان گسسته نامیده می‌شود. [۴]. DEM از قوانین حرکت نیوتن و ادغام عددی برای اهداف محاسباتی پس زمینه استفاده می کند. به این ترتیب، نرم افزار قادر به محاسبه نیروهای وارد بر ذرات و بنابراین، شتاب، سرعت و موقعیت برای هر ذره است. با یک رویکرد گسسته در پشت DEM، این روش برای مدل‌سازی رفتار مواد حجیم مناسب است. بر اساس مدل‌های شبیه‌سازی، سهمی‌های تخلیه و داده‌های اندازه‌گیری آنلاین، کنترل هوشمند فرآیند انتقال توسعه می‌یابد.
به منظور نشان دادن نوسانات AFR های معمولی، شکل ۲ یک نمای کلی از انواع مختلف سوخت که معمولاً به عنوان منبع گرما استفاده می شود، به عنوان مثال، در فرآیند کلینکرینگ سیمان ارائه می دهد. همانطور که از ظاهر بصری آنها بلافاصله قابل مشاهده است، خواص کلی مواد حجیم آنها (به عنوان مثال، رطوبت، توزیع اندازه ذرات، چگالی ظاهری، و غیره) بسیار متفاوت است. علاوه بر این، حتی انواع مشابه سوخت (مثلاً خرده‌های چوب) دارای ویژگی‌های ناهمگن هستند، زیرا آنها عمدتاً توسط کارخانه‌های مختلف آماده‌سازی سوخت تولید می‌شوند و بنابراین از جریان‌های مواد منبع مختلف منشأ می‌گیرند. به طور کلی می توان بیان کرد که همه سوخت های نشان داده شده در هنگام حمل و نقل آنها در یک آسانسور سطلی دارای ویژگی های غیر پشتیبانی هستند. بیشتر سوخت‌ها در مقایسه با مواد فله‌ای همگن مانند ماسه یا سیمان، کاملاً درشت، توده‌ای و فیبری هستند و چگالی ظاهری نسبتاً کمی دارند.
برای افزایش کارایی آسانسور سطلی، تجزیه و تحلیل مسیر تخلیه مواد و کنترل آن مهم است. ایده این است که اطمینان حاصل شود که حداکثر مقدار مواد به جای بازگشت به پایه آسانسور، در کوره هدف دفع می شود. مطالعات کلی در مورد رفتار تخلیه آسانسورهای سطلی برای چندین دهه انجام شده است که منجر به یک مدل نظری کلی از مسیرهای تخلیه آسانسور سطلی شده است (نگاه کنید به [۵]). با این حال، بیشتر کارها فقط مواد فله همگن یا طراحی مکانیکی واقعی خود ماشین را در نظر می گیرند (نگاه کنید به [۶]).
کار خاصی در مورد AFR های ناهمگن توسط رامراث در پایان نامه خود انجام شد (نگاه کنید به [۷]). که در [۷]، یک اثبات مفهوم با توجه به محاسبه سهمی های تخلیه این AFR ها ایجاد شد. این کار بر روی استفاده از ابزارهای کتابخانه OpenCV (Open Source Computer Vision) مانند عملیات مورفولوژیکی، تشخیص لبه های معمولی، و الگوریتم RANSAC (Random Sample Consensus) برای تخمین مسیرهای AFR متمرکز بود. با این حال، مطالعه به دلیل محدودیت‌های پیاده‌سازی رویکرد به تشخیص لبه خارجی مواد تخلیه محدود شد. پس از محاسبه نمایش سهمی تخلیه مبتنی بر نظری با استفاده از مدل افت نظری مولر، این مطالعه به این نتیجه رسید که یک تابع متعادل کننده برای تخمین وابستگی دقیق یک سهمی تخلیه به خواص مواد مختلف ذرات AFR باید ایجاد شود. خواص معمولی که رفتار مواد را تعریف می کنند عبارتند از: مدول یانگ، نسبت پواسون، ضریب اصطکاک، ضریب بازگشت، ضریب اصطکاک غلتشی و چسبندگی. همانطور که قبلاً بحث شد، این فرآیند در یک راه اندازی شبیه سازی تجربی مبتنی بر CFDEM انجام می شود. تحقیقات زیادی برای شبیه سازی رفتار دقیق مواد حجیم در شبیه سازی DEM انجام شده است. یعنی، دو رویکرد رایج، رویکردهای میکروسکوپی و ماکروسکوپی برای کالیبره کردن پارامترهای مواد DEM دنبال می‌شوند. رویکرد میکروسکوپی اطلاعات سطح تماس مستقیم مانند چگالی و ضریب اصطکاک بین ذرات را برای شبیه‌سازی مواد حجیم تجزیه و تحلیل می‌کند. از سوی دیگر، رویکرد ماکروسکوپی رفتار کلی شبیه‌سازی DEM را در مقایسه با مقادیر واقعی کار مشاهده می‌کند. کاربرد گسترده ای از این رویکردها برای تعیین و کالیبره کردن پارامترهای DEM در دسترس است [۸,۹]. یکی از مطالعات اصلی که علاقه ما را برانگیخت، کار پایان نامه همکار ما Elbel بود که در آن او از الگوریتم RL برای تخمین خواص مواد حجیم استفاده می کند. مفهوم پشت کار Elbel استفاده از یک الگوریتم Advantage Actor–Critic (A2C) RL برای تکرار زوایای استاتیک و پویا دو هدف در یک شبیه سازی DEM نزدیک به مقدار واقعی بود. زاویه سکون معیاری برای جریان پذیری مواد حجیم است و بین صفحه افقی و سطح مواد قرار دارد. برای دستیابی به این هدف، ترکیب‌های مختلفی از چهار ویژگی مختلف مواد حجیم به شیوه‌ای سیستماتیک آزمایش شد. این ایده نیز یکی از انگیزه های تحقیق حاضر بود.
بهینه سازی سهمی تخلیه مواد مستلزم درک و ارتباط خواص فیزیکی مختلف مواد مانند چگالی، توزیع اندازه ذرات (PSD) و جریان پذیری است. یکی از این کارهایی که قبل از این مقاله اجرا شد، تخمین PSD آنلاین بر اساس رویکرد تقسیم‌بندی مبتنی بر DL بود که جزئیات آن در [۱۰]. این کار همچنین نقش مهمی در توصیف وضعیت عامل سیستم RL دارد. یک نتیجه قابل توجه این کار استفاده از یک مجموعه داده تصویری تولید شده مصنوعی برای وظیفه تقسیم بندی بود. کانال آلفای تک تک تصاویر ذرات دستکاری شد تا ابرمجموعه تصاویر را تشکیل دهد. از آنجایی که عملکرد پاداش عامل RL مورد استفاده در این تحقیق بر اساس ترکیبی از بینایی کامپیوتر (CV) و مفهوم DL است، یک نسخه اصلاح شده از الگوریتم تولید مجموعه داده مصنوعی شرح داده شده در [۱۰] برای دستیابی به وظیفه تشکیل مجموعه داده استفاده شد. هدف مهم آن مقاله شناسایی ناحیه ای در تصویر بود که ذرات در یک زمان معین در آن حضور داشتند. چنین وظیفه ای به عنوان یک کار تقسیم بندی تصویر نامیده می شود. در طول دهه گذشته، محققان تعداد زیادی از مدل‌های مبتنی بر کانولوشن را برای تقسیم‌بندی تصویر ایجاد کرده‌اند. همه چیز از زمانی شروع شد که وظیفه تقسیم‌بندی تصویر با تقسیم‌بندی موفق تصاویر زیست‌پزشکی برای تشخیص تومور مغزی با استفاده از معماری یادگیری عمیق UNET که در مقاله توضیح داده شد، بسیار کارآمد شد. [۱۱]. معماری UNET بر اساس عملگرهای کانولوشنی است که ویژگی های محلی مهم تصویر را استخراج می کنند. با این حال، آنها هنوز در مدل‌سازی یک زمینه جهانی محدود هستند و اینجاست که معماری UNET مبتنی بر ترانسفورماتور پیشرفته‌تر کار را به دست گرفت. کاربرد قابل توجه این ترانسفورماتورهای بینایی را می توان در مقاله مشاهده کرد [۱۲]. این مقاله مقایسه کاملی از ترانسفورماتورهای بینایی با انواع مدل های تقسیم بندی مختلف برای یک کار تقسیم بندی تصویر آتش سوزی جنگل ارائه می دهد و عملکرد بهبود یافته آنها را در مقایسه با معماری سنتی UNET مشخص می کند. نوع مشابهی از ترانسفورماتور بینایی نیز در این کار استفاده شده است.
آموزش یا یادگیری یک الگوریتم بر اساس تعاملات آن با یک محیط پویا، شاخه ML است که به آن یادگیری تقویتی می گویند. الگوریتم یادگیری تقویتی شامل یک عامل یا مغز است که به طور مداوم وضعیت محیط را مشاهده می کند و با آن در تعامل است تا با انجام یک عمل آن را به حالت مورد نیاز یا بهینه تبدیل کند. می توان گفت که این یک فرآیند آزمون و خطای یادگیری در طول زمان است. معیار خوب یا بد بودن اقدامی که یک عامل انجام می دهد، پاداش است. هدف به حداکثر رساندن پاداش است. یکی از جنبه های کلیدی RL، نیاز به یافتن مبادله بین اکتشاف و بهره برداری از محیط است. با هدف به حداکثر رساندن پاداش، عامل می تواند در حداقل های محلی گیر کند که احتمال دریافت یک پاداش خوب زیاد است. با این حال، ممکن است منطقه دیگری در فضای ایالت وجود داشته باشد که در آن می توان پاداش بسیار بهتری به دست آورد، و عامل باید به کاوش در مورد آن ادامه دهد. از این رو، عامل باید تصمیم بگیرد که آیا ریسک اکتشاف را در تلاش برای یافتن پاداش بهتر بپذیرد یا از تجربه فعلی محیط استفاده کند. [۱۳]. این سناریوی مشکل اکتشاف در مقابل بهره برداری از محیط، همانطور که ساتون، یکی از اعضای بنیانگذار حوزه RL بیان کرد، هنوز در مرحله تحقیق است و بیشتر بر اساس دانش دامنه کاربرد RL حل می شود. [۱۳]. یکی از الگوریتم های پیشرفته RL که سناریوی اکتشاف در مقابل بهره برداری را به حداقل می رساند، الگوریتم Asynchronous Advantage Actor–Critic (A3C) است. این عامل را قادر می‌سازد تا حالت‌های منحصربه‌فرد را کشف کند و در عین حال روی حالت شناخته شده کار کند. گونه ای از چنین الگوریتم A3C در این کار استفاده شده است، و انتخاب در نظر گرفتن چنین الگوریتمی در بخش فرعی بعدی بیشتر مورد بحث قرار می گیرد.
به طور خلاصه، این مقاله مروری کوتاه بر چارچوب پیشنهادی ارائه می‌کند بخش ۲. همچنین شامل بحث در مورد دو بخش مهم روش، یعنی CV و یک رویکرد مبتنی بر DL برای تشخیص سهمی‌های تخلیه و بهینه‌سازی توان عملیاتی آسانسور سطلی با استفاده از RL است. سپس با ارزیابی رویکرد به سناریوهای مختلف دنبال می شود بخش ۳. الگوریتم تشخیص سهمی تخلیه مواد و در نتیجه، تابع پاداش RL ارزیابی خواهد شد. و این با آزمایش الگوریتم RL در یک تنظیم شبیه سازی تست دنبال می شود. مقاله با نتیجه گیری و بحث در مورد دامنه آینده نهایی می شود.

۳٫ ارزیابی نتایج و تست

در ارزیابی الگوریتم تقسیم‌بندی تخلیه مواد، از تصاویر آسانسور سطلی واقعی که گلوله‌های چوب را انتقال می‌دهند، استفاده شد. عملکرد هر دو مدل UNET و TransUNET DL بر روی این تصاویر گلوله چوب ارزیابی شد. از سه معیار ارزیابی، یعنی نمره تاس/امتیاز F1، امتیاز IoU/شاخص جاکارد و دقت تقسیم‌بندی برای اندازه‌گیری عملکرد استفاده شد. در اینجا، ضریب امتیاز تاس را می توان به عنوان مقدار ناحیه همپوشانی بین دو تصویر تقسیم بر تعداد کل پیکسل ها در هر دو تصویر تعریف کرد. [۲۰]. به زبان ساده، میزان شباهت بین دو تصویر را نشان می دهد. IoU را می توان به عنوان مقدار ناحیه همپوشانی بین پیش بینی تقسیم بندی و حقیقت زمین تقسیم بر ناحیه اتحاد بین دو تصویر تعریف کرد. IoU 1 دقیقاً تصاویر مشابه و بهترین امتیاز را نشان می دهد. نحوه تعریف IoU منجر به جریمه کردن موارد منفرد طبقه بندی بد بیشتر از امتیاز تاس می شود. بنابراین، IoU همیشه از نظر کمی کمتر از نمره تاس است. متریک Segmentation Precision (SA) مورد استفاده در [۱۱] برای ارزیابی عملکرد نیز به کار گرفته شد.

در طول ارزیابی الگوریتم RL، مجموعه‌ای تصادفی از پارامترهای مواد مورد استفاده در فضای حالت به همراه نقطه شروع تصادفی سرعت آسانسور در نظر گرفته شد. سپس الگوریتم RL در حالت ارزیابی اجرا شد. در این حالت فقط آن دسته از اقدامات با بیشترین احتمال در فضای عمل انجام شد. این سیستم برای بررسی اینکه آیا آسانسور سطلی به سرعت بهینه برای مجموعه معینی از پارامترهای مواد رسیده است، تجزیه و تحلیل شد. سرعت بهینه در این سناریو نقطه‌ای بود که در آن ۹۵ درصد از مواد منتقل شده در یک سطل در یک زمان معین در خروجی تخلیه می‌شد. با چارچوبی که در بخش روش‌شناسی توسعه یافته توضیح داده شد، این بخش ابتدا الگوریتم تقسیم‌بندی تخلیه مبتنی بر DL را مورد ارزیابی قرار می‌دهد و سپس رویکرد بهینه‌سازی آسانسور واقعی سطل را آزمایش و ارزیابی می‌کند.

۳٫۱٫ ارزیابی الگوریتم DL برای تقسیم بندی مواد تخلیه

این بخش ارزیابی دو مدل DL که قبلاً مورد بحث قرار گرفت را ارائه می دهد. ارزیابی‌های حاصل ابتدا روی تصاویر مصنوعی انجام می‌شود که مدل‌ها هرگز روی آن‌ها آموزش ندیده‌اند. سپس با مقایسه ارزیابی با استفاده از تصاویر آسانسور سطلی واقعی در بخش فرعی بعدی دنبال می‌شود.

۳٫۱٫۱٫ ارزیابی UNET

با پارامترهای آموزشی نشان داده شده در میز ۱کاهش در ارزش تابع ضرر در طول دوره ها مشاهده شد. توجه به این نکته مهم است که الگوی کاهشی برای تلفات مجموعه داده‌های آموزشی و آزمایشی مشابه بود. این نشان می‌دهد که پارامترهای مدل بیش از حد به مجموعه داده‌های آموزشی برازش داده نشده‌اند، بلکه مدل یک نمایش کلی از ویژگی‌های قابل‌توجه در تصاویر را آموخته است. این ویژگی ها اطلاعات مکانی مانند تغییر در بافت ها و رنگ ها هستند که ماده را از سطح پس زمینه متمایز می کند. الگوی کاهشی عملکرد از دست دادن تمرین در طول دوره‌ها را می‌توان در آن تجسم کرد شکل ۱۴.
برای اطمینان از تئوری ضرر، مشخص شد که الگوریتم مدل UNET قادر به دستیابی به امتیاز تاس ۰٫۹۷۲۵ برای مجموعه داده آزمایش است. طرح ارزیابی نمره تاس در دوره های آموزشی را می توان در این قسمت مشاهده کرد شکل ۱۵. روند افزایشی در امتیاز تاس مشاهده شد که نشان دهنده بهبود عملکرد با پیشرفت آموزش است. یک تابع توقف اولیه بر اساس مقدار امتیاز تاس آزمایشی در برنامه اجرا شد. این تابع دارای شمارنده ای است که تا آستانه از پیش تعریف شده (در مطالعه، مقدار ۱۰) برای افزایش مقدار امتیاز تاس منتظر می ماند. پس از عبور از این آستانه، مدل آموزش خود را متوقف می کند. درک بصری بهتری در مورد پیش‌بینی مدل UNET می‌تواند با مشاهده برخی از تصاویر نمونه تصادفی انتخاب شده از مجموعه داده آزمایشی مصنوعی به دست آید.

۳٫۱٫۲٫ ارزیابی TransUNET

مدل TransUNET نیز با پارامترهای نشان داده شده در آموزش دیده شد میز ۱. مدل DL حاصل توانست مجموعه داده آزمایشی را با مقدار امتیاز تاس کمی بهتر ۰٫۹۷۳۶ تقسیم کند. از دست دادن آموزشی مربوطه نیز کاهش کاهش در طول دوره نمایش داده شد. نموداری از همان رفتار را می توان در آن مشاهده کرد شکل ۱۶. با این حال، برای دستیابی به بهترین امتیاز تاس، زمان آموزش بیشتری نسبت به UNET طول کشید. یکی از دلایل اصلی این امر استفاده از نرخ یادگیری نسبتاً کمتر (۱ × ۱۰) است.). با مقدار بالاتر نرخ یادگیری، مشکل انفجار گرادیان مشاهده شد. همچنین با وجود تعداد بیشتری از پارامترهای قابل آموزش در مدل، مشکل شیب انفجاری بزرگ‌نمایی شد. برای جلوگیری از این سناریو، یک مکانیسم برش گرادیان اجرا شد که مقادیر به‌روزرسانی گرادیان را به یک آستانه خاص محدود می‌کند. این فرآیند برش یا بستن گرادیان از به‌روزرسانی بزرگ پارامترهای مدل در حین انتشار پس‌انداز جلوگیری می‌کند و در نتیجه از انحطاط الگوریتم جلوگیری می‌کند.
طرح ارزیابی امتیاز تاس در دوره های آموزشی در مورد مدل TransUNET را می توان در شکل ۱۷. مشابه مدل UNET، روند افزایشی در امتیاز تاس مشاهده شد که نشان دهنده بهبود عملکرد با پیشرفت آموزش است. همچنین، یک تابع توقف اولیه در UNET با مقدار آستانه ۱۰ در اینجا گنجانده شد. در این دوره، امتیاز تاس آزمایشی یک دوره فعال با دوره قبلی برای بهبود بررسی شد. پس از عبور از این آستانه، مدل آموزش خود را متوقف کرد.
درک بصری بهتری در مورد پیش‌بینی مدل TransUNET را می‌توان با مشاهده برخی از تصاویر نمونه که به‌طور تصادفی از مجموعه داده‌های آزمایش مصنوعی انتخاب شده‌اند، به دست آورد. دو مورد از پیش‌بینی‌های نمونه‌ای از این نمونه‌های منحصربه‌فرد در اینجا ترسیم شده‌اند شکل ۱۸. همچنین، مقایسه مختصری از معیارهای عملکرد دو مدل DL در مجموعه داده آزمایشی را می‌توان در آن یافت جدول ۳.

۳٫۱٫۳٫ ارزیابی الگوریتم با استفاده از تصاویر دنیای واقعی

ضروری است که رویکرد پیشنهادی برای تقسیم‌بندی تصویر در دنیای واقعی کار کند. ارزیابی روی تعدادی از تصاویر آسانسور سطلی گرفته شده انجام شد. دو پیش‌بینی تصویری از این دست را می‌توان در آن تجسم کرد شکل ۱۹.

مشاهده می شود که رویکردهای پیشنهادی می توانند مسیر را تا حد معینی تقسیم کنند. با این حال، برخی تقسیم بندی های نادرست نیز در تصویر پیش بینی شده وجود دارد. دلیل آن می تواند کیفیت پایین تصاویر گرفته شده باشد. دوربین مورد استفاده برای این کار یک دوربین صنعتی با وضوح تصویر ۰٫۴ مگاپیکسل بود. تنظیم دقیق پیش‌بینی مدل با آموزش تصویر پس‌زمینه با کیفیت بهتر می‌تواند به غلبه بر این تقسیم‌بندی‌های نادرست در تصاویر پیش‌بینی‌شده کمک کند.

اگرچه عملکرد TransUNET در مقایسه با UNET کمی بهتر بود، اما برای دستیابی به این عملکرد به منابع محاسباتی بیشتری نیاز بود. این به دلیل چهار برابر پارامترهای قابل آموزش بیشتر موجود در TransUNET در مقایسه با UNET است، همانطور که در میز ۱. از این رو، هنگام انتخاب مدل مناسب برای تقسیم‌بندی مسیر، باید بر اساس عملکرد مورد نیاز و توان محاسباتی در دسترس باشد.

۳٫۲٫ ارزیابی فرآیند بهینه سازی RL

با تصاویر پوشانده شده که در این نمونه به راحتی برای محاسبه پاداش در دسترس هستند، فرآیند آموزش و آزمایش عامل RL آغاز شد. پارامترهای مختلف و هایپرپارامترهای مورد استفاده در این فرآیند در شرح داده شده است جدول ۲. ارزیابی فرآیند بهینه سازی RL را می توان به دو مرحله تقسیم کرد. مرحله اول شامل آموزش عامل RL است تا بتواند پارامترهای شبکه خود را با حالت های مختلف مشاهده شده در سیستم مرتبط کند. در این مرحله آموزشی، یک تابع مزیت، شرح داده شده در بخش ۲٫۲٫۵.، برای یادگیری این تابع همبستگی، از طریق عامل منتشر شد. شرح عملکرد دقیق در مورد مرحله یادگیری عامل در بخش فرعی اول توضیح داده شده است. این امر با آزمایش رفتار آموخته شده در مرحله دوم یا مرحله آزمایشی انجام می شود. این به ما کمک کرد تا عملکرد رویکرد پیشنهادی را در بهینه‌سازی فرآیند آسانسور سطلی ارزیابی کنیم.

۳٫۲٫۱٫ فاز آموزشی RL

با هزینه محاسباتی بالاتر در استفاده از شبیه سازی DEM، الگوریتم آموزش RL به مدت ۲۰ روز ادامه یافت. آموزش به گونه ای انجام شد که اطمینان حاصل شود که ۹۵٪ از مواد داخل یک سطل در ورودی برای تخلیه بهینه به خروجی منتقل می شود. در این دوره، در مجموع ۲۲۰ قسمت، هر قسمت شامل تعداد متفاوتی از مراحل منحصر به فرد بین ۲ تا ۲۵، انجام شد. برخی از نتایج امیدوارکننده پس از این مدت آموزش به دست آمد.

شکل ۲۰ پاداش کسب شده را در طول مراحل آموزشی نشان می دهد. ابسیسا تعداد کل مراحل تمرینی انجام شده را نشان می دهد، در حالی که مختصات محدوده پاداش ممکن را توصیف می کند. همانطور که در نمودار مشاهده می شود، حداقل تا ۳۳۰۰ مرحله، بیشتر پاداش به دست آمده توسط عامل RL در سمت منفی نمودار است. این نشان می دهد که عامل RL هنوز در حال یادگیری رفتار سیستم بوده است. با این حال، با نزدیک شدن به ۳۵۰۰ مرحله، افزایشی در وقوع حداکثر پاداش ۲+ وجود داشت. این نشان می دهد که اکثر اقدامات عامل در این بازه منجر به رسیدن سیستم به حالت بهینه مورد نیاز شده است.
با مشاهده نمودار تابع از دست دادن می توان نشانه عملکرد بهتری از رفتار الگوریتم به دست آورد. رفتار عملکرد کلی از دست دادن در طول اپیزودها در تصویر نمایش داده می شود شکل ۲۱.
از دست دادن کلی آموزش ترکیبی از سیاست و از دست دادن ارزش است. بنابراین، رفتار زیان کلی تحت تأثیر ارزش‌های سیاست و از دست دادن ارزش قرار می‌گیرد و تجسم آن‌ها در شکل ۲۲. در این نمودارها، توزیع آبی رنگ مقادیر ضرر را نشان می دهد و میانگین بیش از ۱۰ قسمت محاسبه شده و به رنگ نارنجی نشان داده شده است. از این نمودارها می توان متوجه شد که مقادیر تلفات در فاز اولیه، یعنی تا ۱۸۰ قسمت، رفتار بسیار نوسانی را نشان می دهند. با پیشرفت تمرین، این نوسانات کاهش می یابد و مقدار میانگین حرکتی ثابت به سمت مقدار صفر تلفات را نشان می دهد. این بدان معناست که خط مشی RL به سمت نقشه برداری از اقدامات مناسب از یک وضعیت خاص تنظیم می شد. این امر به دلیل تابع مزیت امکان پذیر است، که منتقد با استفاده از آن می توانست بهترین پاداش مورد انتظار را پیش بینی کند. زمانی که تابع ضرر به مقدار صفر نزدیک شد، فرآیند آموزش متوقف شد و پارامترهای آموخته شده ذخیره شدند.

۳٫۲٫۲٫ مرحله آزمایش RL – ارزیابی سیستم

مرحله آزمایش از عامل آموزش دیده برای کنترل شبیه سازی آسانسور سطلی استفاده کرد. در هر نمونه، سیستم توصیف شده توسط فضای حالت توسط عامل RL از پیش آموزش دیده تجزیه و تحلیل شد. این تجزیه و تحلیل منجر به تصمیمی شد که باعث تغییر در میزان سرعت آسانسور سطلی شد. سپس کیفیت خوب یا بد بودن این تصمیم در قسمت باطنی توسط تابع پاداش مبتنی بر DL اندازه گیری شد. بر اساس عامل RL آموزش دیده، چند سناریو آزمایشی برای بررسی اینکه آیا حالت آغاز شده تصادفی شبیه سازی DEM آسانسور سطلی قادر به رسیدن به سرعت بهینه است، انجام شد. دو سناریوی آزمایشی از این دست، یکی برای شبیه‌سازی‌های چوب و کاغذ، بیشتر توضیح داده خواهد شد.

در مورد یک سناریوی شبیه سازی چوب آزمایشی، تجسم تغییرات پارامترهای مختلف در طول مراحل را می توان در شکل ۲۳. حالت اولیه سیستم در این سناریو شامل سرعت آسانسور ۱٫۸ متر بر ثانیه، نرخ تغذیه ثابت مواد ۰٫۵ متر بر ثانیه و PSD در نمونه مواد ورودی شامل ۲۱% از ۳ سانتی متر، ۱۷% از ۱٫۵ سانتی متر و ۶۲ درصد از کره های شعاع ۰٫۵ سانتی متری. شکل نشان می دهد که سه پارامتر از راه اندازی بر روی پیشرفت مرحله ردیابی شده است. این پارامترها جرم/سطل مواد در ورودی و خروجی و تغییر سرعت در طی مراحل بود. تجسم بهتری از این سناریو تست را می توان در مشاهده کرد شکل ۲۴. در اینجا، تأثیر سرعت داده شده بر تخلیه مواد قابل مشاهده است. در طول فرآیند بهینه سازی مبتنی بر RL، چند عکس فوری در فواصل گسسته گرفته شد و ارائه شد. مشاهده می شود که در سرعت آسانسور ۱٫۵۵ متر بر ثانیه، بیشتر مواد داخل سهمی تخلیه متعلق به ناحیه ناخواسته (منطقه قرمز) پنجره پاداش (سبز) است که در آن بحث شده است. بخش ۲٫۲٫۴. این منجر به ارزش پاداش منفی بالاتری شد. اما همانطور که عامل به سمت کاهش سرعت آسانسور سطل در جعبه چوبی پیش رفت، مواد بیشتری از این ناحیه قرمز ناخواسته خارج شد و به سمت خروجی رفت که منجر به پاداش بهتری شد. عامل RL سپس فرآیند بهینه‌سازی را متوقف کرد، زمانی که تقریباً ۹۵ درصد از جرم مواد در یک سطل اندازه‌گیری شده در ورودی در قسمت خروجی تخلیه شد، که در این سناریوی خاص با سرعت ۱٫۰۵ متر بر ثانیه آسانسور سطل بود.
سناریوی دیگری از شبیه‌سازی DEM تنظیم کاغذ، آزمایش شد. حالت اولیه سیستم در این سناریو شامل سرعت آسانسور ۱٫۰ متر بر ثانیه، نرخ تغذیه ثابت مواد ۰٫۵ متر بر ثانیه و PSD در نمونه مواد ورودی شامل ۴۳ درصد از ۳ سانتی‌متر، ۵ درصد از ۱٫۵ سانتی متر و ۵۲ درصد از کره های شعاع ۰٫۵ سانتی متری. طرح این تنظیم را می توان در مشاهده کرد شکل ۲۵.
تجسم بهتری از این سناریو تست را می توان در آن مشاهده کرد شکل ۲۶. در آنجا تاثیر سرعت داده شده بر دبی مواد قابل مشاهده است. در طول فرآیند بهینه سازی مبتنی بر RL، چند عکس فوری در فواصل گسسته گرفته شد و ارائه شد. مشاهده می شود که در سرعت آسانسور ۱٫۱ متر بر ثانیه، بیشتر مواد داخل سهمی تخلیه متعلق به ناحیه ناخواسته (منطقه قرمز) پنجره پاداش (سبز) است که در آن بحث شده است. بخش ۲٫۲٫۴. این منجر به ارزش پاداش منفی بالاتری شد. اما همانطور که به سمت افزایش سرعت آسانسور سطل پیش رفتیم (روندی که عامل RL در طول آموزش یاد گرفت، به ویژه برای ذرات کاغذی)، مواد بیشتر و بیشتری از این منطقه قرمز ناخواسته و به سمت بخش خروجی رانده شد، که منجر به به پاداش بهتر می توان متوجه شد که عامل توانست سرعت آسانسور را به سمت مقدار بهینه حرکت دهد، جایی که ۹۵٪ از مواد داخل یک سطل در ورودی در خروجی منتقل می شود (نگاه کنید به جدول ۴). سرعت در این مورد ۱٫۵ متر بر ثانیه بود. هنگامی که عامل به این مرحله رسید، قسمت شبیه سازی DEM کاوش بیشتر را متوقف کرد. یک مرور مختصر از پارامترهای مختلف درگیر در هر دو مورد را می توان در آن یافت جدول ۴.

۴٫ نتیجه گیری

هدف از این مطالعه فراهم کردن شرایطی برای استفاده از منابع سوخت جایگزین مانند نی چوب، دانه‌های لاستیک و ضایعات کاغذ برای فرآیند احتراق در کارخانه‌های تولید سیمان است. به این ترتیب، هدف توسعه یک سیستم آسانسور سطلی هوشمند است که قادر به تنظیم سرعت آن برای ارائه یک توان عملیاتی بهینه برای انواع مختلف مواد AFR است. ترکیبی از تنظیمات الگوریتم DL و RL بر اساس یک شبیه‌سازی DEM به عنوان یک محیط RL برای دستیابی به این هدف پیاده‌سازی شد.

این مطالعه بر پیاده‌سازی یک رویکرد مبتنی بر RL در یک راه‌اندازی سیستم شبیه‌سازی شده DEM به‌عنوان پس‌زمینه تمرکز دارد، به گونه‌ای که فرآیند به راحتی به بهینه‌سازی سیستم آسانسور سطلی در دنیای واقعی قابل انتقال باشد. به این ترتیب، هر محدودیتی را که ممکن است یک برنامه نویس در یک سیستم آسانسور سطلی واقعی در هنگام در نظر گرفتن پارامترهای مختلف الگوریتم کلی اجرا شده با آن مواجه شود، در نظر می گیرد. این محدودیت ها شامل ناحیه دید در دسترس (سطح پلکسی) برای ردیابی حرکت تخلیه ذرات و مشکلات در اندازه گیری جرم مواد در هر سطل در ورودی و خروجی است.

یک ارزیابی مقایسه‌ای بین تکنیک‌های تقسیم‌بندی UNET و TransUNET DL انجام شد، و عملکرد کمی بهتر در مورد دومی مشاهده شد، البته با نیازهای محاسباتی بالاتر. از این رو، انتخاب روش DL به مصالحه بین دقت مورد نیاز و توان محاسباتی موجود بستگی دارد. با تکنیک تقسیم‌بندی مسیر مبتنی بر DL که می‌تواند تصاویر را با میانگین نمره تاس ۰٫۹۷ بخش‌بندی کند، رویکرد محاسبه پاداش مربوطه قابل اعتماد است.

فرآیند بهینه‌سازی مبتنی بر RL با مشاهده چهار پارامتر مهم که وضعیت سیستم را در یک نمونه مشخص تعریف می‌کنند، انجام شد. این پارامترها اندازه سرعت جریان آسانسور سطلی، نوع مواد در سیستم، نرخ تغذیه مواد و PSD مواد ورودی است. از بین این پارامترها، نرخ تغذیه مواد ثابت نگه داشته شد و باید در کارهای آینده بیشتر دستکاری شود تا فرآیند بهینه‌سازی قوی‌تر شود. بر اساس مقادیر این چهار پارامتر، سیستم RL یک حلقه کنترل بازخورد را برای نظارت بر آنها و حفظ تخلیه مواد در خروجی در سطح بهینه تشکیل داد. مقایسه بین جرم مواد در یک سطل پر شده در ورودی و تخلیه در خروجی به عنوان معیاری برای نشان دادن اینکه آیا فرآیند سیستم به روشی برنامه‌ریزی شده انجام شده است استفاده شد. این اندازه گیری جرم مواد هیچ تاثیری بر خود الگوریتم RL نداشت.

این رویکرد پیشنهادی با استفاده از الگوریتم A3C RL اجرا شد. این الگوریتم قدرتمند اجازه می دهد تا آموزش در چندین پردازنده به صورت موازی انجام شود، که در آن هر پردازنده محیط منحصر به فرد خود را مبتنی بر DEM اجرا می کرد. بنابراین، استفاده کامل از توان محاسباتی موجود به دست آمد.

نتایج به‌دست‌آمده در مرحله آموزش نشان می‌دهد که این رویکرد برای نظارت و بهینه‌سازی سیستم آسانسور سطلی با استفاده از یادگیری تقویتی کاربردی و قابل استفاده است. با توانی که ۹۵ درصد از مواد ورودی را به داخل یک سطل در قسمت خروجی منتقل می‌کند، نشان می‌دهد که این رویکرد برای هوشمند کردن سیستم آسانسور سطلی امیدوارکننده است.

۵٫ محدوده آینده

فرآیند بهینه سازی سیستم آسانسور سطلی را می توان با در نظر گرفتن نرخ مواد ورودی بیشتر تقویت کرد. در اینجا، می توان از یک رویکرد بهینه سازی چند هدفه برای نظارت و کنترل هر دو پارامتر نرخ تغذیه و سرعت سطل استفاده کرد. مقررات خاصی قبلاً در آیین نامه ایجاد شده است تا این موضوع در آینده مورد توجه قرار گیرد.

با رویکرد پیشنهاد شده توسط آقای Elbel، امکان تولید پارامترهای DEM که رفتار ذرات AFR را در شبیه‌سازی تکرار می‌کنند، وجود دارد. به این ترتیب، این ایده می تواند برای به دست آوردن رفتار شبیه سازی شده ذرات مختلف AFR و بهینه سازی بیشتر استفاده از آنها در سیستم آسانسور سطلی با استفاده از ترکیب رویکردهای DL و RL مورد بحث در این کار استفاده شود.

یکی از موانع آموزش با رویکرد RL برای تعداد قابل قبولی از قسمت‌ها، استفاده از تنها هسته‌های CPU در ماشین مجازی برای اجرای شبیه‌سازی DEM بود. امکان اجرای این شبیه سازی مبتنی بر DEM بر روی یک رابط کاربری گرافیکی (GPU) باید بررسی شود. با چنین شرطی، می توان از هسته های VRAM GPU به همراه هسته های CPU برای افزایش کارایی محاسباتی شبیه سازی DEM استفاده کامل کرد.

شبیه‌سازی DEM بر اساس روش لاگرانژی است که شامل حل مسیرها یا حرکات هر ذره در طول زمان در شبیه‌سازی است. این به معنای درجه بالاتری از محاسبات در پس‌زمینه است. با برنامه ای برای توسعه یک نمونه اولیه مینیاتوری از یک سیستم آسانسور سطلی، استفاده از چنین نمونه اولیه برای آموزش عامل RL می تواند مورد بررسی قرار گیرد. آموزش درگیر در چنین راه اندازی یک استنتاج بلادرنگ خواهد بود و زمان آموزش را در مقایسه با زمان مورد نیاز در یک راه اندازی DEM به شدت کاهش می دهد. اگر نمونه اولیه شبیه به سیستم واقعی آسانسور سطلی عمل کند، اطلاعاتی که توسط عامل RL با استفاده از چنین تنظیماتی به دست می‌آید می‌تواند به راحتی به سیستم واقعی منتقل و مقیاس شود. در اینجا، تنها با چند قسمت آموزشی اضافی، سیستم آسانسور سطلی از نظر عملکردی قادر خواهد بود تا به صورت هوشمند وظیفه خود را انجام دهد. بنابراین، هزینه آموزش را می توان تا حد زیادی کاهش داد.

منبع:
۱- shahrsaz.ir , پایداری | متن کامل رایگان | رویکرد یادگیری تقویتی مبتنی بر بینایی برای بهینه‌سازی فرآیند آسانسور سطلی برای استفاده از زباله‌های جامد
,۲۰۲۴-۰۴-۲۰ ۰۳:۳۰:۰۰
۲- https://www.mdpi.com/2071-1050/16/8/3452

به اشتراک بگذارید
تعداد دیدگاه : 0
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.