۱٫ معرفی
با اهمیت روزافزون حفاظت از محیط زیست، حفظ انرژی و مسائل مربوط به کاهش کربن [
۱,
۲]، تضمین حمل و نقل پایدار [
۳,
۴] به یک هدف مهم و چالش برانگیز تبدیل شده است. این موضوع توجه اجتماعی بیشتری را به خود جلب می کند، زیرا محیط زیست، اجتماعی، حاکمیت (ESG) [
5,
6] به ارزیابی داده ها و شاخص های شرکت ها اهمیت بیشتری داده می شود. در میان عناصر مورد بحث، اهمیت «محیط زیست» با برنامه ۲۰۳۰ سازمان ملل متحد برای توسعه پایدار، با ۱۷ هدف توسعه پایدار (SDGs) همسو است. [
۷,
۸,
۹,
۱۰,
۱۱]، که بر تقویت «شهرها و جوامع پایدار» تمرکز دارند. یکی از آرزوهای کلیدی در این هدف کلی، ایجاد یک سیستم حمل و نقل قابل دسترس، مقرون به صرفه و ایمن است که بتواند نیازهای همه افراد را تا سال ۲۰۳۰ برآورده کند، در حالی که به طور همزمان اقدامات ایمنی جاده را افزایش دهد. تاکید ویژه بر رسیدگی به نیازهای جوامع به حاشیه رانده شده، از جمله کودکان، زنان، افرادی که با چالش های حرکتی روبرو هستند و سالمندان اختصاص دارد. این امر از طریق گسترش خدمات حمل و نقل عمومی که به طور مدبرانه برای پاسخگویی به خواسته های خاص آنها طراحی شده است، محقق خواهد شد.
با توجه به این چالش ها، هدف تحقیق پرداختن به حمل و نقل پایدار است [
۱۲] اهداف با استفاده از وسایل نقلیه هوایی بدون سرنشین (UAV) [
13,
14,
15,
16,
17,
18,
19] در ارتباط با فناوری تشخیص اشیا [
۲۰,
۲۱,
۲۲,
۲۳,
۲۴,
۲۵,
۲۶,
۲۷] برای دستیابی به نظارت بر ترافیک در زمان واقعی با استفاده از قدرت مانور بالای پهپادها و دقت تشخیص اشیا، هدف نظارت موثر بر شرایط ترافیک و ارائه اطلاعات ارزشمند ترافیکی برای بهینهسازی جریان ترافیک، بهبود ایمنی جادهها و افزایش کارایی و دسترسی حملونقل عمومی است. از طریق این مطالعه، هدف این است که به طور قابل توجهی در تحقق حمل و نقل شهری پایدار کمک کند و در عین حال پیشرفت ها و نوآوری ها را در سیستم های حمل و نقل آینده تقویت کند. پهپادها استفاده گسترده خود را در زمینه های مختلف از جمله شهرهای دیجیتال نشان داده اند [
۲۸]، کشاورزی هوشمند [
۱۳,
۲۹]، امنیت عمومی [
۳۰]، جنگلداری [
۳۱]، و بازرسی بلایا [
۳۲]، تطبیق پذیری و پتانسیل فناوری پهپاد در پرداختن به چالش های حیاتی را برجسته می کند. علاوه بر این، استفاده از پهپادها به حوزههای حیاتی مانند تشخیص آسیب جادهها گسترش مییابد که نقشی اساسی در تضمین ایمنی حملونقل و کمک به ایجاد یک سیستم حملونقل پایدار دارد. [
۳۳]. به طور همزمان، پیشرفت سریع هوش مصنوعی، به ویژه در تشخیص اشیا، بر اهمیت استفاده از این تکنیک ها در کاربردهای عملی تاکید کرده است. با پیشرفت فناوری هواپیماهای بدون سرنشین، پهپادها به طور فزاینده ای در محیط های چالش برانگیز مستقر می شوند، جایی که دخالت مستقیم انسان ممکن است محدود یا خطرناک باشد. در نتیجه، نیاز روزافزونی برای تفسیر موثر دادههای بصری جمعآوریشده توسط پلتفرمهای پهپاد وجود دارد، و روشهای تشخیص شی مبتنی بر یادگیری عمیق بهعنوان یک رویکرد امیدوارکننده برای رسیدگی به این تقاضا و برآورده کردن الزامات در حال تحول عملیاتهای مبتنی بر پهپاد ظاهر شدهاند.
با این حال، تشخیص اشیاء در عملیات پهپاد چالشهای مهمی از جمله پردازش بلادرنگ، تشخیص دقیق اجسام کوچک، پروازهای در ارتفاع بالا، خوشههای متراکم از اجسام کوچک و نویز پیچیده پسزمینه را به همراه دارد. غلبه بر این موانع مستلزم متدولوژی های پیشرفته ای است که می توانند نیازهای محاسباتی را در محدودیت های زمانی دقیق مدیریت کنند. افزایش دقت تشخیص اجسام کوچک و پرداختن به چالش های مقیاس در تصاویر هوایی از اهداف ضروری برای بهینه سازی کارایی و اثربخشی عملیات پهپاد است. در زمانهای اخیر، گامهای مهمی در حوزه یادگیری عمیق با تمرکز ویژه بر پیشرفتها در شبکههای عصبی کانولوشنال (CNN) به دست آمده است. پیشرفت های قابل توجه در این زمینه در رفع موانع منحصر به فرد مرتبط با تشخیص اشیاء در تصاویر به دست آمده از پهپادها موثر بوده است. الگوریتم های مربوط به این حوزه را می توان به دو دسته اصلی تقسیم کرد: مدل های تشخیص تک مرحله ای و دو مرحله ای. این رویکردها روشهای اصلی مورد استفاده برای تشخیص اشیا در کاربردهای پهپاد را نشان میدهند و تکنیکهای متنوع مورد استفاده برای غلبه بر چالشهای تشخیص در این زمینه را برجسته میکنند. تشخیص دو مرحله ای شامل استخراج جعبه های کاندید از تصویر و پالایش نتایج تشخیص بر اساس این مناطق است. اگرچه این روش به دقت تشخیص بالایی دست می یابد، اما از سرعت پردازش کندتر رنج می برد. برخی از الگوریتم هایی که در این دسته قرار می گیرند سریعتر R-CNN هستند [
۳۴]، R-CNN [
35]، سریع R-CNN [
36]، شبکه هرمی ویژگی (FPN) [
37]و ماسک RCNN [
38]. الگوریتمهای تشخیص تک مرحلهای مستقیماً نتایج تشخیص را روی کل تصویر محاسبه میکنند و پردازش سریعتری را ارائه میدهند، اما به طور بالقوه برخی از دقت تشخیص را قربانی میکنند. الگوریتم پیشگام در این دسته این است که شما فقط یک بار نگاه می کنید (YOLO) [
39]، که عملکرد همه جانبه را در تشخیص تصاویر پهپاد نشان می دهد. با این حال، با وجود اجرای آن، دقت پیشبینی در مقایسه با روشهای تشخیص دو مرحلهای پایینتر است. الگوریتم های برجسته دیگری که در این دسته قرار می گیرند عبارتند از YOLO، Retinanet [
40]و CenterNet [
41].
هدف از این مطالعه افزایش YOLOv7 است [
۴۲] مدلسازی و بهبود عملکرد تشخیص آن در کاربردهای پهپاد برای ترویج حملونقل پایدار، همانطور که در نشان داده شده است
شکل ۱. انتظار می رود که این تحقیق به توسعه سیستم های حمل و نقل شهری آینده و حفاظت از محیط زیست از طریق ادغام فناوری هواپیماهای بدون سرنشین و تشخیص اشیا کمک کند.
شکل ۲ افزایش برجسته ایمنی حاصل از ادغام وسایل نقلیه هوایی بدون سرنشین (پهپادها) در حوزه های ایمنی عمومی و نظارت را نشان می دهد. این ادغام به درستی با اهداف مشخص شده در SDG 11، که به طور خاص بر مفهوم “شهرهای ایمن” تمرکز دارد، هماهنگ است. با اصلاح الگوریتم های به کار گرفته شده برای شناسایی پهپاد، پتانسیل ایجاد یک محیط شهری امن تر برای ساکنان و بازدیدکنندگان به طور قابل توجهی افزایش می یابد. علاوه بر این، بهینه سازی مدیریت ترافیک و کارایی، اجزای جدایی ناپذیر استراتژی های حمل و نقل پایدار، به خوبی با اهداف کاهش تراکم ترافیک و بهبود سیستم های حمل و نقل مطابقت دارد. اجرای استراتژیک شناسایی پهپاد نقشی اساسی در سازماندهی جریان ترافیک ایفا می کند، بنابراین پشتیبانی قابل توجهی در تحقق اهداف کلی SDG 11، به ویژه آنهایی که مربوط به گسترش حمل و نقل عمومی است، ارائه می دهد. علاوه بر این، اثر موجی استفاده کارآمد از پهپاد از طریق تأثیر مستقیم آن بر کاهش ردپای کربن، به خوبی با جنبه «پایداری زیستمحیطی» که عمیقاً در اصول ESG تعبیه شده است، منعکس میشود.
۳٫ مواد و روشها
راه اندازی آزمایشی برای این مطالعه بر روی یک سیستم پیکربندی شده انجام شد. پیکربندی سخت افزاری این سیستم شامل پردازنده Intel(R) Xeon(R) Silver 4210 @ 2.20 GHz به عنوان CPU و NVIDIA RTX A2000 12GB به عنوان GPU است. سیستم عامل مورد استفاده Ubuntu 22.04.2 LTS با پایتون نسخه ۳٫۹٫۱۶ و Pytorch نسخه ۲٫۰٫۱ بود. آزمایش ها در محیط conda 23.3.1 آناکوندا انجام شد.
در چارچوب این تحقیق، توجه قابل توجهی به اصول ESG، با تمرکز ویژه بر یازدهمین هدف توسعه پایدار سازمان ملل متحد، که هدف آن ایجاد «شهرها و جوامع پایدار» است، معطوف شده است. برای افزایش قابلیتها و دقت پهپادها در شناسایی هدف زمینی، این تحقیق به طور خاص مجموعه داده Visdrone2019 را انتخاب کرد. [
۴۴,
۴۵] به عنوان پایه آموزشی مجموعه داده Visdrone2019 شامل ۶۴۷۱ تصویر آموزشی، ۵۴۸ تصویر اعتبار سنجی و ۱۶۱۰ تصویر آزمایشی است که در مجموع ۸۶۲۹ تصویر در هر سه مجموعه است. در مقایسه با سایر مجموعه دادههای رایج، مجموعه داده Visdrone2019 ویژگیهای منحصر به فردی را در چندین جنبه کلیدی نشان میدهد که آن را به یک مجموعه داده آموزشی ایدهآل تبدیل میکند. یک تفاوت قابل توجه این است که هر تصویر در مجموعه داده Visdrone2019 حاوی تعداد زیادی جعبه حاشیه مشروح برای اهداف است و این جعبه های محدود کننده اغلب با هم همپوشانی دارند. این ویژگی چالشهای پیش روی پهپادهای واقعی را در طول مأموریتهای پروازی شبیهسازی میکند، جایی که شناسایی دقیق و تمایز اهداف زمینی با توزیع متراکم ضروری است. چنین سناریوهای پیچیده و چند هدفی مجموعه داده Visdrone2019 را بسیار چالش برانگیز می کند و به آموزش مدل های تشخیص هدف زمینی با استحکام و دقت بالا کمک می کند.
با توجه به معیارهای ارزیابی، معیارهای انتخاب شده عبارتند از دقت، یادآوری، و میانگین دقت متوسط (mAP). دقت، دقت پیشبینیهای مثبت انجام شده توسط مدل تشخیص شی را اندازهگیری میکند. نسبت نمونه های به درستی شناسایی شده را به کل نمونه های مثبت پیش بینی شده محاسبه می کند. در زمینه تشخیص اشیاء پهپاد، دقت بسیار مهم است زیرا نشان می دهد که مدل در شناسایی دقیق اشیا چقدر قابل اعتماد است. دقت بالا تضمین می کند که مدل موارد مثبت کاذب را به حداقل می رساند [
۴۶]، کاهش خطر طبقه بندی اشتباه اشیاء نامرتبط به عنوان هدف. این امر به ویژه در برنامه های پهپاد مهم است، جایی که مثبت کاذب می تواند منجر به اقدامات غیر ضروری یا تخصیص منابع شود. دقت با تقسیم تعداد تشخیص های مثبت واقعی بر تعداد کل تشخیص های مثبت (مثبت واقعی + مثبت کاذب) محاسبه می شود. امتیاز دقت بالاتر نشاندهنده دقت بهتر در تشخیص مثبتهای واقعی و در عین حال به حداقل رساندن مثبتهای کاذب است، که آن را به یک معیار اساسی در هنگام تجزیه و تحلیل عملکرد مدلهای تشخیص شی تبدیل میکند.
یادآوری، که اغلب به عنوان حساسیت یا نرخ مثبت واقعی از آن یاد میشود، ظرفیت مدل تشخیص شی را برای شناسایی تمام رخدادهای اشیاء هدف مشخص شده در مجموعه داده Visdrone2019 ارزیابی میکند. نسبت نمونه های به درستی شناسایی شده را به کل نمونه های واقعی اشیاء هدف محاسبه می کند. در تشخیص اشیاء پهپاد، فراخوانی بالا ضروری است زیرا نشان دهنده توانایی مدل برای جلوگیری از منفی کاذب است. [
۴۷]. گم شدن اشیاء مربوطه در حین تشخیص می تواند عواقب شدیدی در سناریوهای پهپاد داشته باشد، جایی که شناسایی و ردیابی دقیق اشیا برای تصمیم گیری و ایمنی حیاتی است. یادآوری کسری از تشخیص های مثبت واقعی را با توجه به تعداد کل نمونه های مثبت واقعی (مثبت های واقعی + منفی های کاذب) نشان می دهد. امتیاز فراخوان بالاتر نشان می دهد که مدل می تواند به طور موثر نسبت بیشتری از اشیاء هدف موجود در مجموعه داده را شناسایی کند و خطر نادیده گرفتن اشیاء مهم در طول ماموریت های پهپاد را کاهش دهد. mAP یک معیار اساسی و حیاتی است که برای ارزیابی عملکرد مدلهای تشخیص اشیا، به ویژه در مجموعه دادههای چالش برانگیز مانند VisDrone2019، که شامل ۱۰ دسته شی مجزا است، استفاده میشود. این معیار با محاسبه میانگین دقت برای هر دسته و سپس محاسبه میانگین آنها، یک ارزیابی جامع از اثربخشی مدل را به ما ارائه می دهد. در کاربردهای پهپاد، جایی که پهپادها در محیطهای متنوع و پیچیده حرکت میکنند، دستیابی به امتیاز mAP بسیار مهمتر میشود. امتیاز mAP بالاتر نشان میدهد که مدل تشخیص شی در دستههای مختلف اشیاء بهطور تحسینبرانگیزی عمل میکند و استحکام و تطبیقپذیری آن را نشان میدهد. این قابلیت به ویژه برای پهپادها بسیار ارزشمند است زیرا آنها با طیف وسیعی از اشیاء در سناریوهای دنیای واقعی از عابران پیاده و وسایل نقلیه گرفته تا ساختمان ها و موانع دیگر مواجه می شوند. با بهینهسازی امتیاز mAP، ما اطمینان میدهیم که مدل تشخیص شی میتواند چالشهای ناشی از انواع مختلف اشیا، اندازههای مختلف، انسداد و شرایط محیطی که معمولاً در طول مأموریتهای هواپیمای بدون سرنشین با آن مواجه میشوند را مدیریت کند.
برای مدل تشخیص هدف، YOLOv7 به عنوان رویکرد انتخاب شد. در تشخیص شی YOLOv7، ماژول های کلیدی نقش های خاصی را در افزایش کارایی و دقت الگوریتم ایفا می کنند. Convolution-Batchnorm-SiLU (CBS) [
48] ماژول لایه های کانولوشن را با نرمال سازی دسته ای و عملکرد فعال سازی SiLU ترکیب می کند تا استخراج ویژگی را بهبود بخشد. ماژول Max Pooling (MP) نقشههای پایین را با حفظ جزئیات ضروری، کمک میکند و به حفظ تعادل بین وضوح و کارایی محاسباتی کمک میکند. ماژول Concatenation (Concat) نقشههای ویژگی را از مقیاسهای مختلف ادغام میکند، و شبکه را قادر میسازد تا با ترکیب اطلاعات از مراحل مختلف، اشیاء با اندازههای مختلف را بهطور مؤثری ضبط کند. ماژول upsample وضوح فضایی را افزایش میدهد و ادغام بهتر نقشههای ویژگی را تسهیل میکند. ماژول SPPCSP اطلاعات ویژگی و عملکرد تشخیص را افزایش می دهد. این بر اساس ماژول SPP است که از ترکیب هرمی و ساختار CSP برای گرفتن موثر اطلاعات هدف در مقیاس های مختلف استفاده می کند. RepConv یکی دیگر از ساختارهای کلیدی در YOLOv7 است که برای آموزش کمکی استفاده می شود. این شبیه ResNet است اما دارای یک فیلتر ۱×۱ است و از اتصالات هویتی برای جلوگیری از وقوع آنها هنگام جایگزینی کانولوشن های مجدد پارامتری شده جلوگیری می کند. [
۴۹]. استفاده از RepConv به بهبود عملکرد مدل و اثربخشی آموزش کمک می کند. YOLOv7 نسخه تکامل یافته YOLOv5 است. [
۵۰] نسخه ۵٫۰، که در آن نویسندگان روش های گسترده و مقیاس بندی را برای بهینه سازی پارامترهای مدل و استفاده محاسباتی معرفی کردند. این بهبود با هدف بهینه سازی روش “bag-of-freebies” در YOLOv4 است [
۵۱,
۵۲]، که هزینه های آموزشی را برای بهبود دقت بدون افزایش هزینه های استنتاج افزایش می دهد. برای بهبود کارایی مدل، نویسندگان از روشهای پارامترسازی پیشرفته استفاده کردند، و ماژولهای اصلی را با جایگزینهای بهینهتر در YOLOv7 جایگزین کردند و استراتژیهای تخصیص برچسب پویا را برای تخصیص مؤثرتر برچسبها به لایههای خروجی مختلف اعمال کردند. استفاده از این استراتژی ها به طور قابل توجهی عملکرد یادگیری مدل را افزایش می دهد و YOLOv7 را به یک الگوریتم تشخیص هدف قدرتمندتر و کارآمدتر تبدیل می کند. YOLOv7 متعلق به رویکرد تشخیص هدف تک مرحله ای است.
شکل ۳ ساختار YOLOv7 را ارائه می دهد. مدل ELAN توسعه یافته (E-ELAN) را پیشنهاد می کند. [
۴۲] روشی که از تکنیکهایی مانند بسط کاردینالیته، تغییر کاردینالیته و ادغام کاردینالیته برای افزایش ظرفیت یادگیری شبکه و در عین حال حفظ حالت اصلی مسیر گرادیان برای اطمینان از عملکرد استفاده میکند. YOLOv7 از چهار ماژول ELAN1 برای استخراج ویژگی های اولیه استفاده می کند. بخش گردن از ساختار هرمی ویژگی YOLOv7 استفاده می کند که شامل یک ماژول SPPCSPC و چهار ماژول ELAN2 برای استخراج ویژگی است و سه ماژول ELAN2 مستقیماً به قسمت سر خروجی می دهند. [
۵۳]. شبکه YOLOv7 عمدتاً ویژگیهای تصویر را از طریق ساختارهای MP و E-ELAN ستون فقرات استخراج میکند و معماری آن به تصویر کشیده میشود.
شکل ۳. نویسندگان YOLOv7 ادعا میکنند که از طریق مدیریت کوتاهترین و طولانیترین مسیرهای گرادیان، شبکههای عمیقتر میتوانند به طور قابلتوجهی عملکرد یادگیری و همگرایی خود را بهبود بخشند و منجر به گسترش E-ELAN شود. این بینش در معماری YOLOv7 بسیار مهم است، زیرا بهینهسازی مسیر گرادیان به مدل اجازه میدهد تا ویژگیهای تصویر را بهتر یاد بگیرد، دقت هدف و عملکرد تشخیص را بهبود بخشد. این کنترل مسیر گرادیان به یکی از ویژگی های کلیدی YOLOv7 تبدیل می شود و برای عملکرد فوق العاده آن در وظایف تشخیص هدف ضروری است. این مطالعه E-ELAN را بیشتر بهینه کرد و آن را عمیقتر کرد.
در این مطالعه، بهبودهایی در YOLOv7 انجام شده است و یک مدل جدید پیشنهاد شده است، همانطور که در نشان داده شده است.
شکل ۴. E-ELAN1 و E-ELAN2 اصلی در معماری YOLOv7 با ELAN پیشنهادی CBAM Ghost Convolution-extended (CGE-ELAN) جایگزین شدهاند.
این مدل دارای ماژول توجه بلوک کانولوشن (CBAM) است. [
۵۴,
۵۵,
۵۶]، همانطور که در نشان داده شده است
شکل ۵، که یک مکانیسم توجه سبک است که شامل ماژول های توجه فضایی و کانال توجه است [
۵۵]، یادگیری توجه را در دو بعد کانالی و فضایی تسهیل می کند.
هدف اصلی مکانیسم توجه کانال [
۵۷] تشخیص و رسیدگی به ویژگی های حیاتی برای وظایف خاص است. این ویژگی های مهم را از طریق عملیات وزنی افزایش می دهد و در نتیجه توانایی مدل را برای پردازش تصاویر ورودی افزایش می دهد. این مکانیسم مدل را قادر میسازد تا به طور مؤثرتری بیاموزد، با تأکید بر ویژگیهای مرتبط با کار در حالی که موارد نامربوط را سرکوب میکند و فرآیند کلی استخراج ویژگی را بهینه میکند.
عملکرد کلیدی مکانیسم فوکوس فضایی ایجاد نقشه های توجه با ثبت تعاملات بین ویژگی های فضایی مختلف است. برخلاف توجه کانال، توجه فضایی بر تشخیص اینکه کدام مکان ها حاوی اطلاعات ارزشمند هستند تمرکز می کند و اطلاعات تکمیلی را برای توجه کانال فراهم می کند. فرآیند محاسبه توجه فضایی شامل انجام عملیات ادغام اولیه در امتداد محور کانال نقشه ویژگی است که شامل عملیات ادغام متوسط و حداکثر ادغام می شود. متعاقبا، این نتایج برای تشکیل یک توصیفگر ویژگی مؤثر ترکیب میشوند. این عملیات ادغام کانال عاقلانه در برجسته کردن مناطق با محتوای آموزنده موثر ثابت شده است. متعاقباً، توصیفگر ویژگی الحاقی تحت عملیات کانولوشنی برای تولید نقشه توجه فضایی قرار می گیرد. این پیشرفتها به مدل پیشنهادی قدرت میدهد تا در انجام وظایف تصویر قویتر و کارآمدتر باشد.
پس از استخراج ویژگی با CBAM، مجموعه ای از ماژول های کانولوشن ارواح [
۵۸,
۵۹] معرفی شد. ماژول کانولوشن ارواح شامل دو مرحله است که با هدف به دست آوردن همان تعداد نقشههای کانولوشن معمولی انجام میشود. اولاً، تعداد کمی از عملیات کانولوشن انجام می شود، به عنوان مثال، تعداد پیچیدگی های معمولی به نصف کاهش می یابد. به دنبال آن، مجموعهای از عملیات مقرونبهصرفه، شامل دنبالهای از تبدیلهای خطی، برای تولید نقشههای چندگانه استفاده میشوند که بهخوبی اطلاعات زیربنایی رمزگذاریشده در ویژگیها را آشکار میکنند. این طراحی به ماژول شبح اجازه می دهد تا هزینه های محاسباتی را کاهش دهد در حالی که به طور موثر ویژگی های ذاتی را استخراج می کند، همان تعداد ویژگی ها را به عنوان کانولوشن های معمولی حفظ می کند، و مدل را قادر می سازد تا دارای قابلیت های نمایش ویژگی های غنی با پارامترها و سربار محاسباتی کمتر باشد.
در مقایسه با ماژول CBS معمولی، ماژول کانولوشن ارواح با حذف لایه عادی سازی دسته ای و عملکرد فعال سازی SiLU به طور قابل توجهی متفاوت است. این تمایز ماژول پیچش ارواح را از نظر معماری و فرآیند محاسباتی متمایز می کند. این طراحی از رویکرد استخراج ویژگی کانولوشن سنتی اجتناب میکند و از بار سبکتری برای استخراج ویژگیهای تصویر استفاده میکند، همانطور که در نشان داده شده است.
شکل ۶.
اثربخشی مدلهای یادگیری عمیق به شدت به انتخاب یک تابع ضرر مناسب بستگی دارد، زیرا به عنوان یک معیار مهم برای تعیین کمیت تفاوت بین مقادیر پیشبینیشده مدل و حقیقت واقعی واقعی عمل میکند. با توجه به الگوریتمهای تشخیص شی، اهمیت تابع از دست دادن تقویت میشود، زیرا مستقیماً بر فرآیند آموزش پارامترهای مدل تأثیر میگذارد، بنابراین بر ظرفیت مدل برای شناسایی دقیق و مکانیابی اشیاء در تصاویر تأثیر میگذارد. بنابراین، بررسی دقیق و بهینه سازی تابع تلفات برای دستیابی به عملکرد بهینه و استحکام در وظایف تشخیص اشیا ضروری است.
در YOLOv7، توابع از دست دادن تشخیص اشیاء سنتی، مانند IoU کامل (CIoU) [
60]، معرفی شدند. این توابع از دست دادن نسبت ابعاد جعبههای مرزی پیشبینیشده را در نظر میگیرند، اما تطابق زاویه برداری را در طول فرآیند رگرسیون، به عنوان مثال، عدم تطابق بالقوه در جهتگیری بین جعبههای حقیقت پیشبینیشده و زمینی را در نظر نمیگیرند. این عدم تطابق ممکن است باعث جابجایی جعبه های پیش بینی شده در حین تمرین شود که منجر به کاهش سرعت و کارایی تمرین شود.
برای رفع این نگرانی، بهبودهای قابل توجهی در تابع از دست دادن جعبه مرزی اصلی، که به عنوان CIoU در YOLOv7 شناخته می شود، انجام شده است. به عنوان بخشی از تلاشها، تابع ضرر CIoU با SCYLLA-IoU (SIoU) پیشرفتهتر و تصفیهشدهتر جایگزین شده است. [
۶۱,
۶۲]. این اصلاحات با هدف اصلاح بیشتر قابلیت مدل برای شناسایی دقیق مکان اشیاء، بهینه سازی رگرسیون جعبه مرزی، و افزایش عملکرد کلی تشخیص شی انجام می شود. با استفاده از نقاط قوت تابع تلفات SIoU، پیشبینی میشود که نتایج و استحکام بالاتری در چارچوب تشخیص اشیاء حاصل شود که در پیشبرد قابلیتهای YOLOv7 مفید خواهد بود. تابع ضرر SIoU شامل چهار جزء هزینه متمایز است: هزینه فاصله، هزینه زاویه، هزینه شکل و هزینه IoU. با گنجاندن ملاحظات زاویه برداری در طول رگرسیون، اصطلاح جریمه دوباره تعریف شده است تا تنظیمات جعبه مرزی دقیق تری را امکان پذیر کند. تابع از دست دادن SIoU یک رویکرد تصفیه شده و جامع را نشان می دهد، که ابزار پیچیده تر و موثرتری برای مدیریت رگرسیون جعبه مرزی ارائه می دهد، که به نوبه خود، دقت مدل را در محلی سازی شی بهبود می بخشد و عملکرد کلی تشخیص شی را در چارچوب به طور قابل توجهی افزایش می دهد. از طریق معرفی جهتپذیری در تابع ضرر، میتوان عملکرد الگوریتم تشخیص را از نظر دقت و استحکام در طول آموزش و استنتاج افزایش داد. انطباق با SIoU ثابت کرده است که در دستیابی به پیشبینیهای دقیقتر موقعیتها و جهتگیریهای جعبه هدف، مؤثر است و منجر به بهبود کلی در الگوریتم تشخیص اشیا میشود. فرمول SIoU به شرح زیر است.
۴٫ نتایج
این مطالعه در درجه اول بر روی وظایف تشخیص پهپاد متمرکز است، جایی که مجموعه داده VisDrone2019 به عنوان معیار برای انجام یک تجزیه و تحلیل جامع و مقایسه روشهای مختلف تشخیص اشیا، از جمله YOLOv3، YOLOv5، YOLOv7 اصلی و روش پیشنهادی استفاده میشود. هدف اصلی این آزمایش جامع افزایش دقت و کارایی تشخیص اشیا برای برآورده کردن نیازهای کاربردی خاص پهپادها در وظایف حیاتی مانند ماموریتهای نظارت، جستجو و نجات است.
ارائه شده در
میز ۱ یافتههای تجربی هستند که مزایای قابلتوجهی روش پیشنهادی را هنگام ارزیابی در برابر معیارهای ارزیابی چندگانه نشان میدهند. در مقایسه با روشهای دیگر، روش پیشنهادی به دقت چشمگیر ۰٫۵۹۲، فراخوانی ۰٫۴۸۱، و میانگین دقت فوقالعاده در آستانه IoU 0.5 (mAP50) مقدار ۰٫۴۹۰ دست مییابد که از عملکرد YOLOv3، YOLOv5 و حتی اصلی فراتر میرود. YOLOv7. در مقایسه با YOLOv7 اصلی، یک بهبود حاشیه ای و در عین حال مشخص در mAP50 وجود دارد که بر پیشرفت تدریجی و افزایش دقت تشخیص اشیاء به دست آمده توسط روش پیشنهادی تاکید می کند. این نتایج بر پیشرفتهایی که روش پیشنهادی در زمینه تشخیص اشیا به ارمغان میآورد، تأکید میکند، بهویژه وقتی صحبت از اجرای پهپادها میشود.
در این مطالعه، پیشرفت ها و بهینه سازی ها توسط معماری YOLOv7 انجام شده است. با ادغام ماژول کانولوشن ارواح برای افزایش عمق E-ELAN و ترکیب ماژول CBAM برای دستیابی به تمرکز سبک وزن، توانایی مدل برای شناسایی و تشخیص موثر اشیاء در صحنه های پیچیده با موفقیت تقویت شده است. استفاده از این ماژول های پیشرفته ثابت کرده است که در دستیابی به دقت بالاتر، به ویژه در تشخیص اجسام کوچک و همپوشانی در سناریوهای هوایی، همانطور که در نشان داده شده است، مفید است.
شکل ۷. چنین قابلیتی برای پهپادها از اهمیت بالایی برخوردار است و آنها را قادر می سازد تا اهداف را در طول ماموریت های نظارتی در ارتفاع بالا شناسایی کنند، جایی که دقت و دقت از اهمیت حیاتی برخوردار است. عملکرد تشخیص شی بهبود یافته، که با روش پیشنهادی نشان داده شده است، فرصتهای جدیدی را برای استفاده از پهپادها در طیف گستردهای از سناریوها، از جمله نظارت و شناسایی، و همچنین مأموریتهای جستجو و نجات باز میکند. در چنین شرایطی، توانایی تشخیص دقیق اشیا در محیط های پیچیده بسیار مهم است. این یافتهها سهم تحقیق را در پیشبرد قابلیتها و کاربرد روشهای تشخیص اشیا در سناریوهای مبتنی بر پهپاد برجسته میکند.
با این حال، همچنین باید اذعان داشت که در طول عکاسی هوایی، برخی از اشیاء مشابه هنوز هم می توانند به راحتی اشتباه گرفته شوند، مانند موتور سیکلت و دوچرخه، همانطور که در
شکل ۸ماتریس سردرگمی با درک این موضوع به عنوان یک چالش رایج در تشخیص هدف، تلاشها در تحقیقات آینده برای بهبود آن ادامه خواهد یافت.
علاوه بر این، ادغام ماژولهای CBAM و ماژولهای GhostConv برای ارتقای عملکرد مدل، در یک معامله قرار میگیرد. در حالی که این بهبودها مزایایی را به همراه دارند، بر فریم در ثانیه (FPS) نیز تأثیر میگذارند که منجر به کاهش عملکرد کلی میشود. مکانیسم توجه در ماژول CBAM و عملیات پیچیدگی در ماژول GhostConv پیچیدگی بیشتری را برای مدل ایجاد میکند که منجر به افزایش تقاضاهای محاسباتی در طول زمان اجرا میشود. توانایی تشخیص سریع اجسام در حالی که پهپادها در هوا هستند پیامدهای مهمی برای موفقیت ماموریت، آگاهی از موقعیت و فرآیندهای تصمیم گیری دارد. دستیابی به این تعادل بین دستاوردهای عملکرد و کارایی محاسباتی یک هدف اساسی برای کار مداوم در این زمینه است.
۵٫ نتیجه گیری ها
رویکرد پیشنهادی قابلیت بهبود وظایف شناسایی پهپاد را نشان میدهد. استفاده از مجموعه داده VisDrone2019 با افزایش موفقیت آمیز دقت تشخیص از طریق ادغام ماژول های توجه CBAM و ماژول های پیچش ارواح در ماژول E-ELAN، به چشم انداز گسترده تر فناوری پهپاد کمک می کند. روش پیشنهادی به طور گسترده مورد آزمایش و تجزیه و تحلیل قرار گرفته است و مزایای آن را در سه معیار ارزیابی کلیدی تأیید می کند: دقت، یادآوری و mAP50. این افزایش در دقت و کارایی تشخیص اهمیت عملی در کاربردهای مختلف پهپاد دارد.
آزمایش انجام شده بهبود موثر در دقت تشخیص اجسام کوچک به دست آمده توسط روش پیشنهادی را نشان میدهد. از طریق تجزیه و تحلیل عمیق، بر مشکلات تشخیص اشتباهی که YOLO هنگام برخورد با چنین اشیایی با آن مواجه است، غلبه می کند. مقایسه با نسخه های اصلی YOLOv3، YOLOv5، و YOLOv7 تأیید می کند که روش پیشنهادی از عملکرد این روش های موجود پیشی می گیرد. قابل ذکر است که mAP50 نسبت به YOLOv7 اصلی افزایش نشان می دهد.
در آینده، تلاش ها برای افزایش دقت و سرعت روش پیشنهادی در تشخیص اشیاء زمینی، کمک بیشتر به محیط ESG و هدف ۱۱ SDG، “شهرها و جوامع پایدار” و تسهیل کمک بیشتر پهپادها در پایداری محیطی ادامه خواهد یافت. این دستاورد تحقیقاتی به پیشرفت فناوری پهپاد در حوزههای کاربردی مختلف کمک میکند و پشتیبانی قوی برای کاربردهای پهپادهای آینده در برنامهریزی شهری، نظارت بر منابع و سایر زمینهها فراهم میکند.