پایداری | متن کامل رایگان | تشخیص رابطه بصری تک شات برای شناسایی دقیق خطرات تماس محور در ساخت و ساز دیجیتالی پایدار - شهرساز | سایت تخصصی شهرسازی با هوش مصنوعی | شهرساز

بهترین آموزش های کاربردی در شهرسازی

بهترین آموزش های کاربردی در شهرسازی را از Urbanity.ir بخواهید

خرید درب شیشه ای سکوریت با بهترین قیمت از تتراگلس

ادامه ...

اهمیت توسعه صادرات مصالح ساختمانی در اقتصاد ملی

ادامه ...

Tuesday, 18 June , 2024
امروز : سه شنبه, ۲۹ خرداد , ۱۴۰۳

آخرین اخبار »

شناسه خبر : 22172

ارسال

پرینتخانه » مقالات تاریخ انتشار : 14 ژوئن 2024 - 3:30 | 10 بازدید | ارسال توسط : riazat

پایداری | متن کامل رایگان | تشخیص رابطه بصری تک شات برای شناسایی دقیق خطرات تماس محور در ساخت و ساز دیجیتالی پایدار

۱٫ معرفی صنعت ساخت و ساز به طور فزاینده ای توجه خود را به اتوماسیون رباتیک و دیجیتالی کردن (یا دوقلوسازی دیجیتال) معطوف می کند که با وعده بهبود بهره وری سرمایه و راه حلی برای کمبود فزاینده نیروی کار جلب شده است. تغییرات اخیر در بازار شواهد قوی برای این تغییر ارائه می دهد. […]

۱٫ معرفی

صنعت ساخت و ساز به طور فزاینده ای توجه خود را به اتوماسیون رباتیک و دیجیتالی کردن (یا دوقلوسازی دیجیتال) معطوف می کند که با وعده بهبود بهره وری سرمایه و راه حلی برای کمبود فزاینده نیروی کار جلب شده است. تغییرات اخیر در بازار شواهد قوی برای این تغییر ارائه می دهد. سازندگان بزرگ تجهیزات شروع به مقاوم سازی بسته های تجهیزات معمولی با کیت های مستقل (مانند Exosystem) کرده اند.^TMساخت روباتیک, سانفرانسیسکو, کالیفرنیا, ایالات متحده آمریکا [۱]). استارت‌آپ‌هایی که اخیرا وارد بازار شده‌اند، راه‌حل‌های رباتیک جدیدی را برای طیف وسیعی از مشاغل ساختمانی (مثلاً Spot) ارائه می‌کنند.^TMBoston Dynamics, Waltham, MA, USA [2]). مک‌کینزی و شرکت گزارش می‌دهند که سرمایه‌گذاری ریسک‌پذیر در فضای رباتیک ساخت‌وساز در سال ۲۰۱۹ از ۵ میلیارد دلار فراتر رفته است که نسبت به سال ۲۰۰۹ ۶۰ برابر شده است. [۳]. با نگاه به آینده، انتظار می رود که بازار رباتیک ساختمانی به نرخ رشد مرکب سالانه (CAGR) بیش از ۲۳ درصد از سال ۲۰۲۰ تا ۲۰۲۷ دست یابد. [۴]. اینها شاخص های روشنی از شتاب رو به رشد در پشت پذیرش نوآوری رباتیک در ساخت و ساز هستند.

در حالی که پذیرش ربات‌های ساختمانی دیگر در آینده‌ای دور نیست، یک مسئله ایمنی حیاتی در هنگام استقرار روبات‌ها در کنار کارگران مزرعه وجود دارد. بر اساس سرشماری صدمات شغلی مرگبار که توسط اداره آمار کار ایالات متحده انجام شده است، ۳۶۴۵ مورد مرگ و میر ناشی از تماس در بخش ساخت و ساز بین سال های ۲۰۰۹ تا ۲۰۱۸ گزارش شده است که رکوردی بی نظیر با هیچ صنعت دیگری است (BLS 2009-2018). [5]. همانطور که با گزارش های متعدد تصادف (یا نزدیک به فقدان) مشهود است، خطرات ناشی از تماس (به عنوان مثال، برخورد و گرفتار/بین) به راحتی، به طور غیرمنتظره و اغلب در محیط های ساختمانی به وجود می آیند. این یک پدیده مزمن در سایت های ساخت و ساز است که در آن چیدمان سایت بدون ساختار است و حرکات موجودیت ها نامنظم است. واضح است که ترکیب ربات های متحرک با کارگران پیاده در یک فضای کاری مشترک، خطر برخورد اجباری را افزایش می دهد.

برای شناسایی معقول و در نتیجه مداخله موثر در خطرات احتمالی ناشی از تماس، نویسندگان توجه را به نیاز به تشخیص موثر رابطه همراه با تشخیص نزدیکی جلب می‌کنند. واکنش صنعت به موضوع برخوردهای ناخواسته بر نظارت بر نزدیکی متمرکز شده است [۶]. با این حال، شناسایی یک خطر صرفاً بر اساس مجاورت، کمتر از حد مطلوب است. در مواقعی، کارگران میدانی و روبات‌ها قرار است در نزدیکی با یکدیگر همکاری کنند. در این سناریوها، نزدیکی نمی تواند تنها عامل تعیین کننده خطر باشد، اگرچه می تواند پیش شرط باشد. برای شناسایی دقیق یک خطر بالقوه، لازم است که رابطه نهادهای مرتبط را نیز در نظر بگیریم تا مشخص شود که آیا آنها با هم کار می کنند یا نه، و بنابراین مجاز به نزدیکی هستند.شکل ۱).

در این زمینه، ما پتانسیل تشخیص رابطه بصری تک شات مبتنی بر شبکه عصبی عمیق (DNN) را با توانایی استنباط روابط بین اشیاء ساخت‌وساز مستقیماً از یک تصویر سایت ارائه می‌کنیم.شکل ۱). یک DNN، هنگامی که به معماری منطبق مجهز شود، می تواند هر دو ویژگی محلی و جهانی را در یک نقشه ویژگی ترکیبی واحد ادغام کند، که به طور بالقوه امکان تشخیص مستقیم رابطه را مستقیماً از یک تصویر واحد، بسیار شبیه به یک سیستم بینایی انسان، فراهم می کند. [۷]. علاوه بر این، هنگامی که یک DNN با مقدار کافی داده آموزش داده می‌شود، می‌تواند ویژگی‌های جهانی را استخراج کند که امکان تشخیص روابط مقیاس‌پذیر را در محیط‌های مختلف ساخت‌وساز فراهم می‌کند. [۷]. آخرین اما نه کم‌اهمیت، روش مبتنی بر DNN به حداقل سخت‌افزار نیاز دارد که امکان‌سنجی آن را در برنامه‌های کاربردی دنیای واقعی افزایش می‌دهد.

علیرغم پتانسیل تشخیص ارتباط بصری مبتنی بر DNN، این منطقه از جامعه تحقیقاتی متمرکز بر ساخت و ساز توجه کمی به خود جلب کرده است. در این مطالعه، ما سه مدل DNN را برای تشخیص رابطه بصری آموزش داده و ارزیابی می‌کنیم، که هر یک از آنها سطح دشواری کار متفاوتی دارند، و بررسی پتانسیل آنها برای تشخیص دقیق رابطه بصری تک‌شات در سطوح دشواری به تدریج افزایش می‌یابد.

این مقاله به شرح زیر تنظیم شده است: بخش ۲ تمرکز و دامنه این مطالعه را فراهم می کند. بخش ۳ نیاز به تشخیص رابطه در شناسایی خطرات تماس محور در ساخت و ساز روباتیک را توضیح می دهد. بخش ۴ اهداف ما را روشن می کند و روش های ما را با جزئیات شرح می دهد. بخش ۵ و بخش ۶ نتایج تنظیم دقیق و آزمایش را ارائه دهید و در مورد پتانسیل تشخیص رابطه بصری تک شات و سهم فنی ما بحث کنید. سرانجام، بخش ۷ نتیجه گیری ما را ارائه می دهد.

۲٫ توضیح و دامنه این مطالعه

۲٫۱٫ استفاده از هوش مصنوعی بصری مبتنی بر DNN برای شناسایی خطر در محل

مطالعات متعددی به شناسایی خطرات ساختمانی پرداخته اند. بر اساس ادبیات قبلی، روش‌های شناسایی خطر فعلی را می‌توان تا حد زیادی به (i) پیش‌بینی‌کننده (یا پیش‌گیرانه) و (ii) گذشته‌نگر (یا واکنشی) طبقه‌بندی کرد. [۸]. روش های پیش بینی شامل تجزیه و تحلیل ایمنی شغل، ارزیابی وظیفه-تقاضا، و جلسات ایمنی برنامه ریزی کار است، در حالی که تجزیه و تحلیل گزارش تصادف، درس های آموخته شده و چک لیست های ایمنی در روش های گذشته نگر قرار می گیرند. [۸].

این روش ها در مرحله برنامه ریزی/برنامه ریزی (پیش ساخت) یا جلسات آموزشی ایمنی روزانه معتبر هستند که برای حمایت از شناسایی خطرات کارگران ضروری و اساسی در نظر گرفته می شوند. با این حال، همانطور که در مطالعات قبلی به خوبی مستند شده است [۹,۱۰]، این روش ها اگرچه ضروری هستند، اما کافی نیستند. «اگرچه این روش‌ها مفید هستند، اما معمولاً خطرات مرتبط با کار مجاور و تغییرات در محدوده، روش‌ها یا شرایط را شامل نمی‌شوند». [۹]. در پرتو این، ما تمرکز خود را از رویکردهای دستی به فناوری پیشرفته تغییر می دهیم. به عنوان یک اقدام اضافی برای شناسایی خطرات ساخت‌وساز، ما پتانسیل هوش مصنوعی بصری (AI) که توسط یک شبکه عصبی عمیق دو در یک (DNN)، که شامل تشخیص شی و رابطه است را بررسی می‌کنیم.

در طول ساخت و ساز، منابع متعدد حواس پرتی، از جمله سطوح قابل توجه سر و صدا، ارتعاش، طرح بدون ساختار، و عدم قطعیت های دینامیکی، می توانند به راحتی درک کارگران از ایمنی را تضعیف کنند. [۹,۱۱]. مطالعات قبلی تاکید کرده اند که فرض اینکه سطوح ادراک کارگران ثابت است و کارگران قادر به شناسایی خطرات در میان همه عدم قطعیت ها هستند بسیار خطرناک است. در حالی که چندین مطالعه قبلی بر بهبود مستقیم سطح ادراک کارگران و قابلیت‌های شناسایی خطر تمرکز دارند، این مطالعه تلاش می‌کند از فناوری برای پر کردن شکاف استفاده کند.

۲٫۲٫ تمرکز اصلی: خطرات تماس محور مربوط به تجهیزات سنگین/روبات ها

مطالعه ای که در دانشگاه کلرادو، بولدر انجام شد [۸]، حافظه شناختی مبتنی بر انرژی و یک مدل بلوغ جلسه ایمنی را ارائه کرد که ارتباط بین منابع انرژی و مخاطرات ساخت و ساز را معرفی می کند. با استفاده از این تئوری، یک خطر را می توان به عنوان وضعیتی در نظر گرفت که از ترکیب پیچیده ای از منابع انرژی شامل گرانش، حرکت، مکانیکی، الکتریکی، فشار، دما، شیمیایی، بیولوژیکی، تشعشع و صوت تشکیل شده است. ما این رویکرد را تأیید می‌کنیم، زیرا معتقدیم طبقه‌بندی یک خطر به دسته‌های تعمیم‌یافته اغلب نامعتبر است. رویکردهای مبتنی بر هوش مصنوعی بصری ممکن است برای شناسایی خطرات ناشی از انرژی های نامرئی مانند مکانیکی، الکتریکی، فشار، دما، شیمیایی، بیولوژیکی، تشعشع و صدا معتبر نباشند. با این حال، با اندازه‌گیری مجاورت و عملکردهای تشخیص رابطه، هوش مصنوعی بصری می‌تواند در شناسایی خطرات پویا ناشی از حرکت اجسام متحرک، مانند تجهیزات سنگین و روبات‌ها، که تمرکز انحصاری این مطالعه است، موثر باشد.

اداره ایمنی و بهداشت شغلی (OSHA) در ایالات متحده “فوکوس چهار خطر” را در ساخت و ساز اعلام کرد: (۱) سقوط، (۲) ضربه، (iii) گرفتار شدن/بین، و (IV) برق گرفتگی [۱۲]. با توجه به این طبقه بندی، تمرکز ما بر روی دسته های ضربه خورده و گرفتار/بین، یعنی خطرات تماس محور قرار می گیرد.

۲٫۳٫ تجهیزات سنگین ساخت و ساز/روبات به عنوان منبع هدف اصلی خطر

ما یک روند عمده را مشاهده کردیم که در آن، برای تجهیزات سنگین ساختمانی، تلاش‌های تحقیق و توسعه شرکت‌های اصلی OEM بر مقاوم‌سازی ماشین‌های موجود در روبات‌های نیمه مستقل یا کاملاً مستقل با افزودن یک کیت سخت‌افزاری تجسم‌شده با هوش مصنوعی متمرکز شده است، در حالی که ساختار مکانیکی اصلی خود را حفظ می‌کند. و ظاهر در نتیجه، ما می‌توانیم انتظار داشته باشیم که روبات‌های ساخت‌وساز آینده، به‌ویژه تجهیزات خاک‌بردار مانند بیل‌های مکانیکی، لودرهای چرخدار یا جرثقیل‌ها، ساختار و ظاهر یکسانی را حفظ کنند، در حالی که با هوش مصنوعی برای اتوماسیون کار بهبود می‌یابند. اگرچه این تحقیق با تجهیزات سنگین موجود انجام شده است، اما با توجه به حقایق بالا، نتایج مطمئناً برای تجهیزات ساختمانی نیمه مستقل یا کاملاً مستقل نیز قابل استفاده خواهد بود.

در ابتدای این مطالعه، ما اذعان کردیم که توسعه یک مدل جامع که بتواند انواع تجهیزات سنگین را پوشش دهد، امکان پذیر نیست، زیرا به تعداد زیادی تصاویر و برچسب های آموزشی متنوع نیاز دارد. از آنجایی که هدف این مطالعه توسعه یک مدل قابل استفاده میدانی برای مصارف صنعتی نبود، بلکه بررسی پتانسیل مدل‌های بینایی کامپیوتری تک شات بود، ما تمرکز خود را به بیل‌های مکانیکی و کارهای خاکبرداری محدود کردیم، که مهمترین منابع در نظر گرفته می‌شوند. و وظایف در بسیاری از پروژه های ساختمانی بزرگ. انجام این تحقیق ما را در تعیین مسیرهای صحیح تحقیقاتی آینده برای این حوزه راهنمایی خواهد کرد و مطمئن باشید یافته ها همچنان در سایر انواع تجهیزات قابل اجرا خواهند بود، زیرا اصول اولیه مدل ها از نظر آموزش و استنباط صحنه های بصری ثابت خواهند ماند.

۳٫ نیاز به تشخیص رابطه برای شناسایی دقیق خطرات تماس محور

صدمات و تلفات ناشی از تماس اجباری بین کارگران و اشیاء متحرک یک مشکل بومی در سایت‌های ساختمانی بدون ساختار و در حال تغییر بوده است (BLS 2009-2018) [5]. خطر تماس اجباری در محیط‌های ساخت و ساز روباتیک افزایش می‌یابد، جایی که روبات‌های متحرک با درجات مختلف استقلال در کنار کارگران پیاده فعال خواهند بود. در این بخش، به ماهیت خطرناک ساخت‌وساز نگاه می‌کنیم، تمرکز تحقیقاتی اصلی در این زمینه (یعنی نظارت نزدیکی) را مرور می‌کنیم و نیاز به تشخیص رابطه همراه با نزدیکی برای شناسایی دقیق خطرات تماس محور را روشن می‌کنیم. در نهایت، ما رویکردهای قبلی برای تشخیص رابطه را مرور می‌کنیم و شکاف دانش خاصی را که تحقیق ما به آن می‌پردازد، شناسایی می‌کنیم.

۳٫۱٫ خطر حوادث تماس محور در ساخت و سازهای رباتیک

ساخت و ساز در یک محیط شلوغ و بدون ساختار انجام می شود. فضای کار مملو از انواع مختلفی از منابع موتوری (بیل مکانیکی، لودرهای جلویی، بولدوزرها، باربرها و غیره) و همچنین کارگران میدانی است. مسیرها و حرکات آنها به دلیل ساختار ناپذیر و تغییر چیدمان سایت، معمولاً نامنظم است. در چنین محیطی، کارگران میدانی اغلب خود را در مجاورت منابع موتوری با خطر برخورد اجباری می‌بینند. تعداد تلفات ناشی از تماس در ساخت و ساز به طور مستقیم از فراگیر بودن چنین خطراتی صحبت می کند. در طول دهه گذشته (۲۰۰۹ تا ۲۰۱۸)، ۳۶۴۵ کارگر ساختمانی ایالات متحده بر اثر برخورد (یا گرفتار شدن بین) تجهیزات یا وسیله نقلیه جان خود را از دست داده اند (BLS 2009-2018) [5]. قابل ذکر است، این رقم تقریباً ۴۱٪ از کل تلفات ساختمانی را در این دوره (N = 8786) تشکیل می دهد (BLS 2009-2018) [5].

نکته اصلی از موارد فوق این است که کارگران مزرعه هنگام کار در یک محیط ساخت و ساز روباتیک با خطر بیشتری از حوادث ناشی از تماس مواجه خواهند شد، زیرا انواع روبات های متحرک در کنار آنها کار می کنند. [۱۳]. ربات‌های زمین‌بر، مانند بیل‌های مکانیکی، لودرهای جلویی، و باربرها، مسیرها و مرزهایی دارند که گاهی با کارگران مزرعه همپوشانی دارند. ربات‌های مشارکتی بیشتر، مانند ربات‌هایی که برای آجرکاری، میلگردبندی، پیچ‌کاری و حفاری طراحی شده‌اند، درست در کنار کارگران قرار خواهند گرفت. نزدیکی این ربات ها احتمال تصادف را افزایش می دهد. اگرچه این ربات ها به عملکردهای ایمنی (به عنوان مثال، توقف اضطراری) مجهز هستند، اما آگاهی موقعیتی و هوش آنها محدود است [۱۴,۱۵]. در محیط‌های ساخت‌وساز بدون ساختار و در حال تغییر، احتمال اینکه یک ربات صحنه‌ای را اشتباه بخواند و تصمیمات اشتباهی در برنامه‌ریزی مسیر و حرکت بگیرد، بالا باقی می‌ماند که خطر تصادفات مرگبار را به همراه دارد. این خطر برای ایمنی انسان به طور قابل توجهی امکان سنجی فعلی رباتیک ساختمانی را محدود می کند [۱۳]. برای تحقق بخشیدن به ساخت و سازهای رباتیک موثر و ایمن و در نتیجه پایدار، پرداختن به چنین نگرانی های ایمنی مهم و ضروری است.

۳٫۲٫ پیشگیری از تصادفات بر نظارت بر مجاورت متمرکز شده است

نظارت بر نزدیکی منابع موتوری به کارگران پیاده، تکنیک اولیه برای جلوگیری از حوادث تماس محور در ساخت و ساز بوده است. [۱۱,۱۴,۱۵]. نظارت بر مجاورت، تشخیص خطرات احتمالی مربوط به کارگر را در شعاع عمل یک شی متحرک (تجهیزات یا ربات) یا در مسیر برنامه ریزی شده آن امکان پذیر می کند. [۱۴,۱۵]. این به نوبه خود می تواند امکان صدور یک هشدار فوری به نهادهای مرتبط را فراهم کند و اقدامات فرار به موقع را ممکن کند. [۱۴,۱۵]. به این ترتیب، تشخیص نزدیکی و مداخله پیشگیرانه می تواند به طور موثر از یک برخورد احتمالی جلوگیری کند و از وقوع نزدیک یا بدتر از آن جلوگیری کند.

راه حل های مبتنی بر نزدیکی به طور مداوم در هر دو زمینه تجاری و دانشگاهی دنبال شده است. توسعه دهندگان فناوری از حسگرهای مجاورتی مانند شناسایی فرکانس رادیویی (RFID)، سیستم موقعیت یاب جهانی (GPS) و تشخیص و محدوده رادیویی (RADAR) برای توسعه انواع سیستم های نظارت مجاورت و هشدار استفاده کرده اند. محصولات تجاری نماینده شامل سیستم هشدار مجاورت (PAS) توسط PBE Group Ltd.، North Tazewell، VA، ایالات متحده آمریکا است. [۱۶]EGOpro Safe Move توسط AME Ltd., Via Lucca, Florence, Italy [17]و سیستم هشدار نزدیکی هوشمند (IPAS) توسط KIGIS Ltd.، سئول، جمهوری کره [۱۸].

محققان ساخت و ساز همچنین پتانسیل بینایی کامپیوتری را به عنوان یک فناوری مکمل برای سنجش مجاورت بررسی کرده اند. کارهای قبلی، مانند آنهایی که از [۱۹,۲۰]، چارچوب‌های نظارت بر مجاورت مبتنی بر دید را ارائه کرد که از ویژگی‌های مهندسی شده دستی مانند هیستوگرام گرادیان (HoG) استفاده می‌کرد. اخیراً، رویکردهای مبتنی بر بینایی با پیشرفت DNN های متنوع و تکنیک های یادگیری انتقال موثر، گام های بزرگی برداشته اند. [۱۴] از یک شبکه عصبی پیچیده عمیق (CNN) به نام You Only Look Once-V3 (YOLO-V3) استفاده کرد. [۲۱]و یک روش نظارت بر مجاورت مبتنی بر یادگیری را ایجاد کرد که سریع‌تر، دقیق‌تر و مقیاس‌پذیرتر از روش مهندسی دستی است. مطالعه بعدی توسط [۱۱] این رویکرد را با قابلیت پیش بینی بیشتر افزایش داد. این مطالعه یک DNN پیش‌بینی مسیر را براساس یک شبکه متخاصم مولد مشروط (GAN) به نام Social-GAN (S-GAN) اضافه کرد. [۲۲]، نشان دادن میانگین خطای نزدیکی کمتر از یک متر هنگام پیش‌بینی نزدیکی ۵٫۲۸ ثانیه در آینده.

۳٫۳٫ نیاز به تشخیص رابطه

در حالی که نزدیکی عاملی برای تصادفات تماس محور است، تنها تکیه بر نزدیکی هنگام شناسایی یک خطر در عمل ناکافی است. در ساخت و ساز، نزدیکی بین یک کارگر و یک شی متحرک می تواند به طور ناخواسته ایجاد شود، اما همچنین می تواند به طور طبیعی در هنگام همکاری (عمداً در تعامل) اتفاق بیفتد. به عنوان مثال، دو مورد ساده را در نظر بگیرید: (۱) یک آجرکار ناخواسته وارد شعاع عمل یک بیل مکانیکی مستقل شده است. و (ii) یک آجرکار در حال تکمیل اتصالات ملات بلافاصله در کنار یک ربات بنایی نیمه مستقل که آجرها را روی هم انباشته می کند. مورد اول مطمئناً خطری است که در آن مداخله فوری لازم است. در مقابل، دومی اینطور نیست، زیرا این نهادها برای همکاری در فاصله نزدیک و نزدیکی در نظر گرفته شده است. همانطور که این مثال ها نشان می دهند، مجاورت به تنهایی برای تعریف دقیق خطرات در یک محیط ساخت و ساز کافی نیست. علاوه بر این، لازم است که رابطه بین کارگر و شی، از جمله و به ویژه اینکه آیا آنها با هم کار می کنند یا خیر، در نظر گرفته شود. بدون تشخیص رابطه، یک سیستم تشخیص خطر که صرفاً بر شناسایی خطر مبتنی بر مجاورت متکی است، منجر به مزاحمت‌های مکرر و توقف عملیات می‌شود و بر بهره‌وری تأثیر منفی می‌گذارد. این رویکرد نه منطقی است و نه پایدار. به این ترتیب، اهمیت تشخیص رابطه در محیط های ساخت و ساز رباتیک که در آن کارگران و روبات ها به طور فزاینده ای در کنار یکدیگر کار می کنند، افزایش خواهد یافت.

۳٫۴٫ رویکردهای قبلی برای تشخیص رابطه بین اشیاء ساختمانی

علیرغم اهمیت تشخیص رابطه، در دانشگاه ساخت و ساز توجه کمی به آن شده است، و تنها اقلیت کوچکی از مطالعات سعی در پرداختن به آن دارند. مرجع. [۲۳] با تجزیه و تحلیل نشانه‌های موقعیتی و توجهی، روی تشخیص رابطه بین کارگر و تجهیزات کار کرد – خواه کارگر با تجهیزات همکاری می‌کند یا خیر. این مطالعه از مکان موجودات (یعنی مختصات مرکزی جعبه‌های مرزی آنها) برای توصیف وضعیت موقعیت و وضعیت سر آنها (یعنی انحراف، چرخش و زوایای چرخش)، جهت‌گیری بدن و وضعیت بدن (مثلاً ایستادن) استفاده کرد. یا خم شدن) برای تعیین وضعیت توجه. سپس ویژگی‌های هر موجودیت با یکدیگر مقایسه شد تا توصیف‌کننده‌ای مشخص شود که نشانه‌های موقعیتی و توجه مشترک بین کارگر و تجهیزات را نشان می‌دهد (مثلاً فاصله نسبی، جهت، جهت انحراف سر، و جهت‌گیری بدن). این مهندسی ویژگی زمانی که با یک طبقه‌بندی‌کننده باینری مبتنی بر حافظه کوتاه‌مدت (LSTM) همراه شود، نتایج امیدوارکننده‌ای را نشان داده است. دقت و فراخوانی بالاتر از ۹۰ درصد در آزمایشی که از دو فیلم ساخت و ساز استفاده شده بود، به دست آمد. طبق دانش ما، این مطالعه اولین و تنها تلاش برای طبقه بندی مستقیم رابطه بین اشیاء ساخت و ساز بر اساس اطلاعاتی است که می تواند به صورت بصری ضبط شود. مرجع. [۲۳] همچنین می‌توان با پیشگامی در مهندسی صریح توصیفگر ویژگی برای بهینه‌سازی تشخیص رابطه اعتبار کرد.

با این وجود، نباید نادیده گرفت که رویکرد مهندسی دستی به احتمال زیاد با چالش‌های مقیاس‌پذیری در کاربردهای میدانی واقعی مواجه می‌شود. [۲۴,۲۵,۲۶]. به طور خاص، این رویکرد برای دستیابی به دقت ثابت در شرایط مختلف سایت تلاش می کند و قادر به انعکاس همه سناریوهای ممکن نیست. همانطور که توسط مطالعات قبلی اشاره شد، مهندسی دست برای استخراج و توصیف ویژگی اغلب با واریانس صحنه به چالش کشیده می شود. با توجه به درجه بسیار بالای واریانس صحنه که در محیط‌های ساخت‌وساز وحشی یافت می‌شود، این یک مسئله مهم است. مشخص شد که ویژگی های مهندسی شده با دست به راحتی در دیدگاه های مختلف گمراه می شوند. علاوه بر این، توصیفگرهای مهندسی شده با دست قادر به انتزاع تمام زمینه‌های صحنه به طور بالقوه برای تشخیص رابطه نیستند. اگرچه این رویکرد تحت شرایط خاص مؤثر بود، اما نمی‌توان آن را مقیاس‌بندی کرد و برای شرایط مختلف وحشی پایدار نبود. این نیاز به رویکردی را برجسته می‌کند که امکان استخراج ویژگی و توصیف‌هایی را فراهم می‌کند که می‌تواند به طور جهانی در محیط‌های مختلف ساخت‌وساز اعمال شود.

علاوه بر این، ما نباید این فرض را بدیهی بدانیم که تمام اطلاعات مورد نیاز برای تشخیص رابطه در دسترس خواهد بود. تشخیص رابطه یک استنتاج معنایی است که نیاز به درک جامع یک صحنه دارد. به نوبه خود، رویکرد موجود برای تشخیص روابط بصری مستلزم جمع‌آوری اطلاعات متعدد برای هر موجود (به عنوان مثال، کارگر یا تجهیزات)، مانند مکان، وضعیت، وضعیت، جهت حرکت و سرعت است. مطالعه توسط [۲۳] چنین اطلاعاتی داده شده است. با این حال، در تنظیمات دنیای واقعی ممکن است این اطلاعات داده نشود. جمع آوری اطلاعات متعدد از یک پروژه ساخت و ساز در حال انجام بسیار چالش برانگیز است. سنجش چندوجهی با چندین قطعه متناظر از تجزیه و تحلیل داده‌ها مورد نیاز است، که پیچیدگی، نقاط شکست بالقوه متعدد و هزینه‌های قابل‌توجه را معرفی می‌کند، که نشان می‌دهد این رویکرد ممکن است برای تولید راه‌حل‌های عملی و پایدار برای صنعت مشکل داشته باشد. این مقاله یک رویکرد جدید، کاربردی آسان و پایدار برای این چالش اساسی ارائه می‌کند. تحقیق ما به این سوال می پردازد که چگونه معناشناسی از یک صحنه را می توان به روشی شهودی تر، شبیه به سیستم بینایی انسان، استنتاج کرد، نه اینکه به طور صریح از قطعات تکه تکه اطلاعات استخراج شده از حسگرهای جداگانه استنباط شود.

۴٫ تشخیص ارتباط بصری تک شات مبتنی بر شبکه عصبی عمیق

با پیگیری هدف تشخیص روابط مقیاس‌پذیرتر و شهودی‌تر، این مطالعه پتانسیل تشخیص رابطه بصری تک شات مبتنی بر DNN را با توانایی استنباط مستقیم روابط بین جفت اشیاء ساختمانی از یک تصویر سایت مورد بررسی قرار داد. یک DNN با لایه‌های شبکه عصبی کانولوشنال عمیق (CNN) می‌تواند ویژگی‌های آموخته‌شده درشت به ریز تصویر ورودی را انتزاع کند. این ویژگی‌های آموخته‌شده، زمانی که با مجموعه‌ای از داده‌های متعادل آموزش داده شوند، می‌توانند به تشخیص روابط مقیاس‌پذیرتر در محیط‌های مختلف ساختمانی تحت شرایط تصویربرداری متنوع منجر شوند. [۷]. علاوه بر این، یک DNN با معماری CNN انعطاف‌پذیر می‌تواند هر دو ویژگی محلی و جهانی را در یک نقشه ویژگی ترکیبی در یک مرحله استنتاج کند، که به طور بالقوه اجازه می‌دهد تا تشخیص رابطه بصری مستقیماً از یک تصویر ورودی، مانند یک سیستم بینایی انسان، به دست آید. بدون تکیه بر سایر روش های سنجش و تجزیه و تحلیل داده ها [۷]. به این ترتیب، بررسی پتانسیل یک مدل مبتنی بر DNN برای ارائه یک راه حل موثر برای تشخیص روابط مقیاس پذیر و بصری ارزشمند است.

برای این منظور، ما از معماری منحصر به فرد DNN، Pixel2Graph استفاده کردیم [۷]، متخصص در انتزاع ویژگی های چند مقیاسی و تشخیص رابطه تک شات. ما با یک مدل پایه از پیش آموزش داده شده با مجموعه داده معیار، ژنوم بصری، شروع کردیم [۲۷]. از این پایه، ما چندین مدل ساخت و ساز را توسعه دادیم و آنها را با داده های ساخت و ساز تنظیم دقیق کردیم. مقدار داده های مورد استفاده برای تنظیم دقیق به دقت با پیچیدگی معماری مطابقت داشت. در نهایت، ما مدل‌های خود را با استفاده از مجموعه داده‌ای از تصاویر ساخت‌وساز که قبلاً توسط مدل‌ها دیده نشده بود، آزمایش کردیم و پتانسیل عملکرد آن‌ها را در تشخیص رابطه بصری تک شات بررسی کردیم. توجه داشته باشید که اعتبار سنجی برای تنظیم فراپارامترهای مربوط به معماری، مقدار اولیه وزن و الگوریتم بهینه‌سازی در مطالعه قبلی تکمیل شد. [۷] و بنابراین در اینجا مستثنی شد.

در این مطالعه، ما سه مدل با افزایش سطوح دشواری کار را توسعه دادیم، در نتیجه پتانسیل تشخیص رابطه تک شات مبتنی بر DNN را به صورت مرحله‌ای بررسی کردیم.

مدل شماره ۱ (سطح دشواری پایین) – فقط تشخیص رابطه (Only-Rel, شکل ۲الف): جعبه‌های محدودکننده شی (bboxes) و کلاس‌ها برای همه اشیا به همراه یک تصویر ورودی ارائه می‌شوند. مدل فقط روابط آنها را استنباط می کند.

مدل شماره ۲ (سطح سختی متوسط) – طبقه بندی اشیا + تشخیص رابطه (Cla-Rel، شکل ۲b): bbox های شی برای همه اشیا ارائه شده است. مدل طبقات آنها را طبقه بندی می کند و روابط آنها را استنباط می کند.

مدل شماره ۳ (سطح دشواری بالا) – محلی سازی شی + طبقه بندی اشیاء + تشخیص رابطه (Loc-Cla-Rel، شکل ۲ج): مدل تمام اشیاء مورد علاقه را بومی سازی و طبقه بندی می کند و روابط آنها را به یکباره استنباط می کند.

بقیه این بخش (i) معماری شبکه را شرح می دهد. (ii) مجموعه داده‌های قبل از آموزش، تنظیم دقیق و آزمایش. (iii) فرآیند تنظیم دقیق؛ و (IV) معیار ارزیابی.

۴٫۱٫ Pixel2 Graph

Pixel2 Graph [7] دارای یک معماری منحصر به فرد متشکل از سه ماژول اصلی است: (۱) یک استخراج کننده ویژگی (شکل ۳آ)؛ (ii) یک بومی ساز بردار ویژگی (شکل ۳ب)؛ و (iii) طبقه بندی کننده های شی و رابطه (شکل ۳ج).

استخراج کننده ویژگی (شکل ۳الف): چهار واحد شبکه ساعت شنی که در یک ردیف روی هم چیده شده‌اند، یک تصویر کامل را به عنوان ورودی می‌گیرند و ویژگی‌های معنی‌داری را از ورودی بدون ساختار (یعنی تصویر دو بعدی) به یک تانسور ویژگی سه بعدی با اندازه ثابت استخراج می‌کنند. یک واحد شبکه ساعت شنی از چندین لایه کانولوشن با اندازه های مختلف با اتصالات پرش تشکیل شده است که امکان رمزگذاری و رمزگشایی استخراج ویژگی را فراهم می کند. [۷]. با تکرار فرآیند انتزاع منسجم، استخراج‌کننده ویژگی هم ویژگی‌های کلی (مثلاً ارتباط بین اشیاء پس‌زمینه و پیش‌زمینه) و هم ویژگی‌های محلی (مثلاً ارتباط بین اشیاء پیش‌زمینه) را در یک تانسور ویژگی سه بعدی جمع‌آوری می‌کند که می‌تواند برای تشخیص رابطه مفید باشد. و همچنین برای تشخیص اشیا [۷].
بومی ساز بردار ویژگی (شکل ۳ب): سپس بومی ساز بردار ویژگی، مکان های بالقوه اشیاء و روابط آنها را بر روی مختصات تصویر با تجزیه و تحلیل تانسور ویژگی سه بعدی مشخص می کند. بومی ساز بردار ویژگی، نقشه های حرارتی احتمال اشیاء و روابط آنها را به طور مستقل از طریق پیچیدگی ۱ × ۱ و فعال سازی سیگموئید ایجاد می کند، که در آن هر مقدار حرارت نشان دهنده احتمال وجود یک موجودیت (یعنی شی یا رابطه) در مکان داده شده است. [۷]. بر اساس مکان های مشخص شده، بردارهای ویژگی مربوطه مورد علاقه انتخاب و تجزیه و تحلیل می شوند.
طبقه بندی (شکل ۳ج): بردارهای ویژگی مربوطه به لایه کاملاً متصل و طبقه‌بندی‌کننده Soft-Max وارد می‌شوند که در آن طبقه‌بندی‌های نهایی: (i) کلاس موضوعی (مثلاً کارگر)، (ii) رابطه (مثلاً راهنما) و (iii) کلاس شی (به عنوان مثال، یک بیل مکانیکی) ساخته شده است.

در مقایسه با DNN های شناسایی ارتباط بصری موجود، که عمدتاً توسط شبکه پیشنهادی منطقه (RPN) پشتیبانی می شوند، این معماری دارای چندین ویژگی متمایز است. به طور خاص، استخراج کننده ویژگی، که شامل چندین واحد ساعت شنی است، فرآیند انتزاع ویژگی را قادر می‌سازد تا ویژگی‌های کلی و محلی را به یک تانسور ویژگی واحد تبدیل کند، که برای درک یک صحنه به عنوان یک کل مؤثرتر است. [۷]. علاوه بر این، تعبیه ارتباطی با نقشه‌های حرارتی احتمال برای اشیا و روابط، امکان یک فرآیند تک شات و انتها به انتها را فراهم می‌کند که قادر به استنتاج منسجم‌تر و شهودی‌تر در مورد روابط است. جزئیات بیشتر معماری Pixel2Graph را می توان در مطالعه قبلی یافت [۷].

۴٫۲٫ جمع آوری و حاشیه نویسی داده های ساخت و ساز

در یادگیری عمیق بدیهی است که هرچه تصاویر متنوع‌تر یک مدل آموزش ببیند، دقت و مقیاس‌پذیری مدل بالاتر خواهد بود. [۲۸,۲۹,۳۰]. بنابراین ما حجم زیادی از تصاویر ساخت و ساز را جمع آوری کردیم و آنها را از طریق یک فرآیند بازرسی جامع حاشیه نویسی کردیم. ما ویدئوهایی را از سایت‌های ساخت‌وساز در حال انجام و همچنین از YouTube جمع‌آوری کردیم که طیف وسیعی از عملیات ساخت‌وساز و پیشینه را پوشش می‌دهد. سپس یک تصویر در هر ثانیه از هر ویدیو نمونه برداری کردیم، و از تکراری شدن در مجموعه داده خود جلوگیری کردیم. برای کاهش زمان و تلاش مورد نیاز برای چنین حجم عظیمی از حاشیه نویسی، ما از جمع سپاری مبتنی بر وب با Amazon Mechanical Turk (AMT) استفاده کردیم. ما یک الگوی حاشیه نویسی ابداع کردیم که تصاویر نمونه را به سرور AMT پیوند می دهد. این الگو کارگران AMT را هدایت می‌کند تا کادر مرزی هر شی، برچسب کلاس و روابط را با دیگران حاشیه‌نویسی کنند.شکل ۴). سپس این حاشیه نویسی ها را با بازرسی کامل دنبال کردیم و اعتبار آنها را تأیید کردیم. شکل ۴ نمونه هایی از چندین تصویر حاشیه نویسی شده را نشان می دهد. روی هر تصویر، bboxها و کلاس‌های اشیای ساخت‌وساز مورد علاقه را برچسب‌گذاری کردیم و با حاشیه‌نویسی روابط بین هر جفت شی، آنها را جفت کردیم.

میز ۱ جزئیات مجموعه داده ساخت و ساز آماده شده را خلاصه می کند. در مجموع ۱۵۰ فیلم ساخت و ساز، هر کدام از یک سایت متفاوت، جمع آوری شد، که از آنها ۱۲۴۶۵ تصویر با نرخ ۱ نمونه در ۳۰ فریم، و پس از آن حاشیه نویسی نمونه برداری شد. این مجموعه داده شامل هفت کلاس شیء است: (i) worker; (ii) بیل مکانیکی. (iii) کامیون؛ (IV) لودر چرخ. (v) غلتک؛ (vi) درجه بندی؛ (vii) خراش دهنده. و (viii) ماشین. در میان آن اشیاء، چهار طبقه از رابطه شناسایی و مشروح شد: (۱) هدایت. (II) تنظیم؛ (iii) پر کردن؛ و (IV) کار نکردن با. در مجموع، ۳۰۱۵۳ شی و ۱۷۷۷۲ رابطه در میان آنها حاشیه نویسی شد. پیروی از استانداردهای تعیین شده توسط مطالعات قبلی DNN [21]، ما ۳۰۰۰ مورد در هر کلاس را برای آموزش کافی در نظر گرفتیم.

از اینجا، ما اقداماتی را برای ساده‌تر کردن مشکل داده شده انجام دادیم. برای شناسایی دقیق یک خطر تماس محور، کافی است تشخیص دهیم که آیا دو شی مرتبط با هم کار می کنند یا خیر. لازم نیست درک کنیم که اشیا چه می کنند. بنابراین، مطالعه ما به طور خاص بر شناسایی رابطه همکاری بین دو شی متمرکز شد. این به ما اجازه داد تا با در نظر گرفتن سه کلاس اول (یعنی هدایت، تنظیم و پر کردن) به عنوان کار مشترک، چهار کلاس رابطه را به یک باینری (i) co-working و (ii) non-working دوباره سازماندهی کنیم.شکل ۴). در این مجموعه داده، نسبت یکنواخت بین کار مشترک و عدم همکاری (یعنی ۵۳:۴۷) حفظ شد، در نتیجه از آموزش جانبدارانه جلوگیری شد (میز ۱).

۴٫۳٫ آموزش مدل های ساخت و ساز

ما سه مدل ساخت و ساز با سطوح مختلف دشواری کار را از طریق انتقال یادگیری از یک مدل پایه توسعه یافته در مطالعه اصلی توسعه دادیم [۷]: (i) مدل #۱، OnlyRel، (ii) مدل #۲، Cla-Rel، و (iii) مدل #۳، Loc-Cla-Rel. ما از مدل پایه از پیش آموزش داده شده با یک مجموعه داده جهانی – Visual Genome – شروع کردیم که پرکاربردترین مجموعه داده معیار برای توسعه مدل‌های تشخیص ارتباط بصری است. مجموعه داده های Visual Genome شامل حدود ۱۰۸۰۷۷ تصویر است که ۳٫۸ میلیون شی و ۲٫۳ میلیون رابطه را ثبت می کند. [۲۷]. تمام پارامترهای یک معماری خالی Pixel2Graph با وزن‌های از قبل آموخته‌شده مقداردهی اولیه شدند و از طریق تنظیم دقیق با مجموعه داده ساخت و ساز به‌روزرسانی شدند. تمام کدهای آموزش، تنظیم دقیق، اعتبارسنجی و آزمایش در پایتون ۳ و بسته‌های آن شامل tensorflow-gpu (1.3.0)، numpy، h5py و simplejson نوشته شده است. کد کامل در مخزن اصلی GitHub موجود است [۳۱].

مجموعه داده مشروح توسعه یافته برای این پروژه به دو مجموعه جداگانه از تصاویر تقسیم شد. مجموعه اول شامل ۱۱۰۸۲ تصویر (۸۹%) برای تنظیم دقیق و مجموعه دیگر شامل ۱۳۸۳ تصویر (۱۱%) برای استفاده برای تست ذخیره شد. در حالی که مجموعه داده ساخت و ساز را به این دو دسته تقسیم می کنیم، اطمینان حاصل کردیم که هیچ همپوشانی از نظر پس زمینه یا زمینه سایت وجود ندارد، بنابراین از تخمین بیش از حد احتمالی در آزمایش نهایی جلوگیری می کنیم.

در ابتدای این تحقیق، ما اذعان کردیم که تعداد و تنوع داده‌های جمع‌آوری‌شده ممکن است برای دستیابی به بهترین عملکرد بالقوه از سه مدل کافی نباشد. با توجه به این، برای ارزیابی حداکثر پتانسیل عملکرد مدل‌های آموزش دیده با داده‌های موجود، ما ۸۹ درصد از داده‌ها را برای آموزش اختصاص دادیم، با این فرض که ۱۱ درصد باقی‌مانده (تقریباً ۱۵ ویدیو، هر کدام از یک سایت ساخت‌وساز متفاوت) همچنان کافی هستند. برای آزمایش و تجزیه و تحلیل

۴٫۴٫ متریک ارزیابی

ما Recall@X را اتخاذ کردیم، یک معیار ارزیابی نماینده که به طور گسترده در تحقیقات تشخیص روابط بصری استفاده می شود [۷]. Recall@X گزارش می دهد که کسری از تاپل های حقیقت زمین در مجموعه ای از تخمین های X برتر ظاهر می شود. با توجه به تنوع مجموعه داده ساخت و ساز، این مطالعه از Recall@5 استفاده کرد.

۵٫ نتایج و بحث

نتایج تنظیم دقیق برای هر سه مدل امیدوارکننده بود، همانطور که در خلاصه شده است شکل ۵. به طور کلی، تنظیم دقیق مجموعه داده آموزش ساخت و ساز موفقیت آمیز بود، با Recall@5s بیش از ۹۰٪ برای هر سه مدل اندازه گیری شد. مشخص شد که Recall@5s بر اساس مجموعه داده آزمایشی با کاهش سختی کار افزایش یافت: ۹۰٫۶۳٪، ۷۲٫۰۲٪، و ۶۶٫۲۸٪ Recall@5s از OnlyRel (مدل شماره ۱)، Cla-Rel (مدل شماره ۲) ، و مدل های Loc-Cla-Rel (مدل شماره ۳) به ترتیب.

۵٫۱٫ مدل شماره ۱، OnlyRel: با Bboxes و کلاس های ارائه شده همراه با یک تصویر دو بعدی

مدل OnlyRel سطح دشواری کمی دارد. رابطه هر جفت موجودیت (مثلاً یک کارگر و یک بیل مکانیکی) را استنباط می کند که bbox ها و کلاس های از پیش تعریف شده دارند. در این سطح دشواری، مدل تنظیم شده نتایج بسیار امیدوارکننده‌ای را نشان داد: به ترتیب ۹۰٫۸۹% و ۹۰٫۶۳% Recall@5s را بر اساس مجموعه داده‌های تنظیم دقیق و آزمایش ثبت کرد.شکل ۵). همانطور که توسط تفاوت عملکرد ناچیز بین دو مجموعه داده مشهود است، هیچ اثری از برازش بیش از حد وجود نداشت. عملکرد مدل با استفاده از مجموعه داده آزمایشی که قبلاً دیده نشده بود موفقیت آمیز بود و به همان سطح بالایی از دقت که در مجموعه داده تنظیم دقیق دیده می شد، دست یافت. از این نتیجه، می‌توان ثابت کرد که یک DNN، در صورت مجهز بودن به معماری مناسب (مثلاً Pixel2Graph) و آموزش داده‌های کافی، می‌تواند تشخیص دقیق ارتباط بصری تک شات را ارائه دهد. با توجه به اینکه مدل تنظیم شده روابط را با دقت بالایی از یک تصویر استنباط می کند، این نتیجه قابل توجه است.

۵٫۲٫ مدل شماره ۲، Cla-Rel: با Bboxes داده شده همراه با یک تصویر دو بعدی

در مقایسه با مدل OnlyRel، مدل Cla-Rel از سطح دشواری کار بالاتری برخوردار بود. با توجه به bboxهای موجودیت های هدف، کلاس ها و روابط آنها را در همان زمان استنباط کرد. Recall@5 مدل Cla-Rel بر اساس مجموعه داده های تنظیم دقیق به اندازه مدل OnlyRel با Recall@5 با ۹۰٫۵۴% اندازه گیری شد.شکل ۵). این یافته توانایی آموزش موفقیت آمیز مدل Cla-Rel با استفاده از مجموعه داده های ساخت و ساز را اثبات می کند. از سوی دیگر، مدل Cla-Rel یک Recall@5 برابر با ۷۲٫۰۲% در مجموعه داده آزمایشی ثبت کرد که به طور قابل توجهی کمتر از مدل OnlyRel (90.63%) است. این نتیجه نشان می دهد که دقت تشخیص رابطه می تواند تحت تأثیر نتایج طبقه بندی اشیاء شناسایی شده قرار گیرد. مدل Cla-Rel اطلاعات مربوط به طبقه بندی اشیا و همچنین برای تشخیص رابطه را در یک تانسور ویژگی ترکیبی انتزاع می کند. این رمزگذاری اطلاعات چندگانه در معماری فعلی چالش برانگیزتر از تمرکز بر یک شکل خاص از اطلاعات است (به عنوان مثال، فقط اطلاعات مربوط به رابطه). در نتیجه، دقت طبقه‌بندی اشیا کاهش یافت و منجر به کاهش عملکرد تشخیص رابطه شد.

۵٫۳٫ مدل شماره ۳، Loc-Cla-Rel تنها با یک تصویر ۲ بعدی

مدل Loc-Cla-Rel بالاترین سطح دشواری کار را دارد. بومی سازی bbox، طبقه بندی اشیا و تشخیص رابطه را به طور همزمان در یک شبکه انجام می دهد. مدل Loc-Cla-Rel، به بیان ساده، یک مدل دو در یک است که تشخیص شی (یعنی محلی سازی و طبقه بندی شی) و تشخیص رابطه را به طور همزمان انجام می دهد.

مدل Loc-Cla-Rel به ترتیب ۹۲٫۹۶% و ۶۶٫۲۸% Recall@5 را در تنظیم دقیق و مجموعه داده های آزمایشی به دست آورد.شکل ۵). همانطور که در نشان داده شده است شکل ۶، Recall@5 مدل با مجموعه داده های تنظیم دقیق در طول جلسه تنظیم به بهبود ادامه داد و در حدود ۹۲٫۹۶% همگرا شد. این نتیجه نشان داد که معماری شبکه قادر به یادگیری زمینه موقعیتی یک صحنه ساخت و ساز است و پتانسیل بالایی برای استنتاج رابطه بین اشیاء ساخت و ساز در یک فرآیند تک مرحله ای دارد. با این حال، در مجموعه داده‌های آزمایشی، مدل نتوانست به همان سطح عملکردی که در مجموعه داده‌های تنظیم دقیق دارد، دست یابد و به Recall@5 برابر با ۶۶٫۲۸% دست یابد. شکل ۷ یک مثال طبقه بندی اشتباه و صحیح را در مجموعه داده آزمایشی نشان می دهد. بدیهی است که عملکرد مدل Loc-Cla-Rel به طور قابل توجهی ضعیف تر از سایرین بود که نیاز به توجه بیشتر دارد.

۵٫۴٫ محدودیت‌های مطالعه کنونی و جهت‌های تحقیقات آینده پیشنهادی

در حالی که پتانسیل تشخیص رابطه بصری مبتنی بر بینایی کامپیوتری، تک شات، تایید شد، همچنین مشهود بود که عملکرد سه مدل برای کاربردهای میدان واقعی کافی نیست. ۹۰٫۶۳% Recall@5 مدل شماره ۱ (OnlyRel) هنوز به اندازه کافی برای نظارت بر ایمنی نزدیک نیست، به غیر از مدل شماره ۳ (Loc-Cla-Rel)، با ۶۶٫۲۸% Recall@5. بر اساس این نتیجه آموزشی و با مقایسه الگوهای آموزش و دقت آزمون در دوره های آموزشی، نکات زیر را برای بهبود شناسایی کردیم:

پرداختن به بیش‌برازش با تعداد بیشتری از نمونه‌های آموزشی: اگرچه مدل (Loc-Cla-Rel) عملکردی رو به افزایش با مجموعه داده آزمایشی در طول تنظیم دقیق نشان داد، اما در مراحل اولیه شروع به همگرایی کرد.شکل ۶). واضح بود که یادگیری زمینه موقعیتی همراه با تشخیص اشیا چالش برانگیزتر است. به طور خاص، مشخص شد که آموزش موفقیت آمیز برای تشخیص دو در یک (یعنی تشخیص شی و رابطه) به حجم بیشتری از داده های تنظیم دقیق نسبت به OnlyRel (مدل شماره ۱) یا Cla-Rel (مدل) نیاز دارد. شماره ۲) مدل ها اختلاف قابل توجهی بین Recall@5s، که با استفاده از تنظیم دقیق و مجموعه داده‌های آزمایشی به دست آمد، تأیید شد – یک علامت معمولی بیش از حد برازش (شکل ۶). Recall@5 به دست آمده توسط مدل Cla-Loc-Rel با استفاده از مجموعه داده های تنظیم دقیق حتی بالاتر از مواردی بود که با مدل های OnlyRel و Cla-Rel به دست آمد، که بیشتر روشن می کند که در طول تنظیم دقیق بیش از حد برازش وجود داشته است. با این حال، این نتیجه لزوما نشان دهنده حداکثر پتانسیل عملکرد یک مدل تشخیص رابطه تک شات نیست. ۹۲٫۹۶% Recall@5 از مجموعه داده تنظیم دقیق به وضوح نشان می دهد که این مدل قابلیت آموزش بالایی دارد اما به دلیل تعداد محدود داده های تنظیم دقیق و بیش از حد برازش در نتیجه، نمی تواند به حداکثر پتانسیل عملکرد خود برسد. ما پیش‌بینی می‌کنیم که یک مطالعه بعدی شامل مجموعه داده‌های تنظیم دقیق که هم از نظر کمیت و هم از نظر تنوع افزوده می‌شود، عملکرد مدل Loc-Cla-Rel را بهبود بخشد. اخیراً، سنتز داده‌های محاسباتی و برچسب‌گذاری خودکار با موتورهای شبیه‌سازی گرافیکی متنوع (مانند Blender، Unity، Omniverse) و مدل‌های فیزیک پدیدار شده‌اند. این رویکرد به ما امکان می‌دهد تا مجموعه داده‌های خود را تحت شرایط تصویربرداری مختلف (مثلاً روشنایی، دیدگاه و مقیاس) ایجاد کنیم، که افزوده‌ای ارزشمند برای مطالعات بعدی خواهد بود. هرچه داده های مصنوعی بیشتری برای آموزش آماده کنیم، داده های واقعی بیشتری را می توانیم برای اعتبارسنجی و آزمایش تخصیص دهیم. این رویکرد ما را قادر می‌سازد تا مدل‌ها را برای کاربردهای واقعی ارزیابی کنیم.
پیشرفت معماری DNN: در نهایت، یک نکته دیگر که شایستگی کاوش را دارد، اصلاح معماری است. معماری اصلی Pixel2Graph همه ویژگی های آموخته شده را در یک تانسور ویژگی ترکیبی ادغام می کند. تقسیم این تانسور به دو تانسور مجزا، با یک تانسور آموزش دیده برای تشخیص شی و دیگری برای تشخیص رابطه، و با دو تابع هزینه مجزا، راه دیگری را برای بهبود عملکرد تشخیص دو در یک فراهم می‌کند. اگرچه عملکرد مدل Loc-Cla-Rel هنوز به دقت کافی برای کاربردهای میدانی دست نیافته است، تلاش برای بهبود آن با توجه به مزایای ذاتی مدل تک شات دو در یک ارزش دارد.

۶٫ استفاده بالقوه از تشخیص رابطه بصری و سهم این مطالعه

همراه با نظارت بر مجاورت، تشخیص رابطه برای تشخیص خطر موثر مبتنی بر تماس شامل ربات‌ها یا تجهیزات فعال ضروری است. با این حال، تشخیص رابطه – یک فرآیند استنتاج معنایی – مانند تشخیص اشیا ساده نیست و نیاز به درک کامل صحنه دارد. یکی از راه‌های ممکن برای دستیابی به تشخیص رابطه، کشف ویژگی‌های چندگانه موجودیت‌های مرتبط (مثلاً مکان، مجاورت، حالت، کنش و توجه) و سپس استنتاج رابطه آنها بر اساس این ویژگی‌های جمع‌آوری‌شده از طریق یک منطق از پیش تعریف‌شده است. با این حال، این رویکرد چالش‌های متعددی را از نظر امکان‌سنجی و پایداری واقعی آن، از جمله نیاز به روش‌های سنجش چندگانه و تجزیه و تحلیل داده‌ها، ارائه می‌کند. علاوه بر این، توسعه یک منطق استنتاج مقیاس پذیر چالش برانگیز است زیرا رابطه بین دو موجودیت را می توان به روش های بی شماری تعریف کرد. با توجه به موارد فوق، نتایج به‌دست‌آمده با تشخیص ارتباط بصری تک‌شات مبتنی بر DNN، که می‌تواند تشخیص رابطه را مستقیماً از یک تصویر واحد کامل کند، به عنوان یک معیار پایدار قابل توجه است.

تشخیص رابطه بصری تک شات، یا همراه با DNN تشخیص شی دیگر یا به تنهایی، می تواند راه حل موثری برای شناسایی دقیق خطرات تماس محور ارائه دهد. همانطور که قبلا ذکر شد، معقول است که یک رویداد را به عنوان یک خطر تنها در صورتی شناسایی کنیم که کارگر در مجاورت یک ربات/تجهیز فعال (مثلاً شعاع عمل یک ربات یا تجهیزات) بدون قصد همکاری باشد. اگر کارگر در نزدیکی ربات فعال شده باشد و قصد همکاری داشته باشد، چنین رویدادی را می توان با احتیاط مشخص کرد و اجازه داد همکاری بین کارگر و ربات (یا تجهیزات) ادامه یابد.

طبقه بندی دقیق را می توان از طریق دو رویکرد مختلف به دست آورد: (۱) ابتدا نظارت بر مجاورت را با یک DNN تشخیص شی انجام داد و سپس تشخیص رابطه را با مدل OnlyRel انجام داد. یا (ب) نظارت بر مجاورت و تشخیص رابطه را به طور همزمان با استفاده از مدل Loc-Cla-Rel انجام دهید. رویکرد اول به راحتی قابل اجرا است. همانطور که در مطالعات قبلی ما ثابت شده است [۱۱,۱۴]، نظارت بر مجاورت را می توان با یک DNN تشخیص شیء همراه با تصحیح تصویر برای اندازه گیری فاصله به دست آورد. به نوبه خود، مدل OnlyRel می تواند با گرفتن تصویر دو بعدی و bboxes و کلاس های شناسایی شده به عنوان ورودی، تشخیص رابطه تک شات را انجام دهد. شناسایی خطر (یعنی اینکه یک رویداد خطرناک است یا فقط محتاطانه) می تواند به راحتی بر اساس اطلاعات نزدیکی و رابطه انجام شود. با توجه به دقت بالای مدل OnlyRel (یعنی ۹۰٫۶۳% Recall@5 در مجموعه داده آزمایشی) و این واقعیت که دقت تشخیص شی به طور مداوم از طریق افزایش داده های آموزشی در حال افزایش است، امکان سنجی این رویکرد را می توان بالا در نظر گرفت.

روش دیگر استفاده از مدل Loc-Cla-Rel برای نظارت بر مجاورت و تشخیص رابطه است. با گرفتن یک تصویر دوبعدی به عنوان ورودی، مدل Loc-Cla-Rel می تواند bboxes و کلاس های اشیاء هدف و روابط آنها را به طور همزمان خروجی دهد. این رویکرد می‌تواند فرآیند کلی تشخیص خطر (هم نظارت بر مجاورت و هم تشخیص رابطه) را با استفاده از تصحیح تصویر ساده خودکار کند. اشاره شد که آموزش مدل Loc-Cla-Rel به طور قابل توجهی چالش برانگیزتر از آموزش مدل OnlyRel است، که به تعداد بیشتری از داده های آموزشی نیاز دارد و به طور بالقوه نیاز به اصلاح معماری دارد. با این حال، ما دریافتیم که ارزش دنبال کردن بهبودهای بیشتر با هدف دستیابی به حداکثر پتانسیل عملکرد چنین مدل چند در یک را دارد، زیرا این مدل وعده می دهد که به طور قابل توجهی در هزینه های محاسباتی در پیاده سازی های تنظیم واقعی صرفه جویی کند.

با بهترین دانش ما، این کار اولین تلاش برای دستیابی به تشخیص رابطه بصری تک شات در حوزه ساخت و ساز است. مدل ما می‌تواند مستقیماً با نگاه کردن به یک تصویر، مانند یک سیستم بینایی انسان، روابط بین اشیاء هدف را استنتاج کند. همچنین می‌توان آن را به راحتی با روش‌های نظارت بر مجاورت مبتنی بر دید کامپیوتری بدون سخت‌افزار اضافی ادغام کرد. ادغام نظارت مجاورت و تشخیص رابطه در یک مدل واحد، شناسایی دقیق خطرات ناشی از تماس را ممکن می‌سازد، که به نوبه خود همکاری ایمن و مؤثر و در نتیجه پایدار بین کارگران و روبات‌ها (یا تجهیزات) را ممکن می‌سازد.

آخرین اما نه کم اهمیت، ما استفاده بالقوه از معماری DNN دو در یک را در مطالعات ساخت‌وساز آینده برای پرداختن به دوقلوهای دیجیتال برجسته می‌کنیم. بسیاری از وظایف نظارت بصری سایت (به عنوان مثال، نظارت بر ایمنی، نظارت بر پیشرفت، و کنترل کیفیت)، یا وظایف دوقلوی دیجیتال، ممکن است شامل نیاز به وظایف بینایی متعدد، مانند تشخیص اشیا، تشخیص رابطه، تخمین وضعیت دوبعدی و سه بعدی و تقسیم بندی معنایی باشد. ، به یکباره ما تأکید می کنیم که معماری برای چنین وظایفی، به ویژه در مرحله استخراج ویژگی، چندان متمایز از یکدیگر نیستند. این نشان می دهد که امکان مدیریت چندین کار بینایی در یک معماری ترکیبی وجود دارد. در مقابل، اجرای این وظایف در مراحل جداگانه می تواند خطاهای تجمعی ایجاد کند و از نظر محاسباتی ناکارآمد باشد. بر اساس این مزیت‌های بالقوه و نتایج به‌دست‌آمده در این مطالعه، تحقیقات بیشتر در مورد راه‌حل‌های چند در یک، به‌ویژه برای مطالعات دوقلوسازی دیجیتال ضروری است.

۷٫ نتیجه گیری

اتوماسیون رباتیک و دیجیتالی شدن به مرکز نوآوری در ساخت و ساز تبدیل شده است. پیش بینی می شود در آینده نزدیک انواع ربات های ساختمانی در سایت های ساخت و ساز واقعی مستقر شوند. در حالی که مزایای راه‌حل‌های رباتیک بسیار زیاد خواهد بود، چالش تضمین ایمنی کارگران صحرایی به‌عنوان یک محدودکننده نرخ اولیه برای پذیرش صنعت عمل خواهد کرد. کارگران ساختمانی در فرآیند ساخت و ساز نقش اساسی دارند و حتی در یک محیط ساخت و ساز رباتیک بسیار خودکار نیز به همین شکل باقی خواهند ماند. ربات های سازنده نه تنها نیاز به تعامل و همکاری با کارگران در محل دارند، بلکه باید ایمنی کارگران را به شیوه ای پایدار تضمین کنند. برای این منظور، راه حلی برای شناسایی دقیق خطرات ناشی از تماس در فرآیندی که شامل شناسایی روابط بین موجودیت ها باشد، ضروری است. دستیابی به چنین راه حلی سهم اصلی این مطالعه است. عملکرد سه مدل در مجموعه داده آزمایشی – ۹۰٫۶۳٪ برای مدل #۱ (OnlyRel)، ۷۲٫۰۲٪ برای مدل #۲ (Cla-Rel)، و ۶۶٫۲۸٪ برای مدل #۳ (Loc-Cla-Rel) – چنین نیست. برای کاربرد میدانی کافی است با این حال، با در دسترس قرار گرفتن داده‌های آموزشی بیشتر، و با پیشرفت‌های مستمر در معماری‌های جدید DNN، عملکردهای هزینه و مکانیسم‌های آموزشی، پیش‌بینی می‌شود که مطالعات بعدی برای بهبود بیشتر پتانسیل عملکرد حداکثر در تشخیص رابطه بصری تک شات.

مشارکت های نویسنده

مفهوم سازی، DK، SL، VRK و ML. مدیریت داده، DK; تجزیه و تحلیل رسمی، SL; کسب بودجه، DK و SL. تحقیق، DK و SL. روش، DK، AG، VRK و ML. مدیریت پروژه، SL; منابع، DK; نظارت، SL; اعتبار سنجی، DK و AG. تجسم، DK; نوشتن-پیش نویس اصلی، DK; نوشتن-بررسی و ویرایش، DK، SL، VRK و ML همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده اند و با آن موافقت کرده اند.

منابع مالی

این تحقیق توسط جایزه بنیاد ملی علوم (NSF) (شماره IIS-1734266؛ “درک صحنه و نظارت پیش‌بینی برای همکاری ایمن انسان و ربات در محیط‌های ساختمانی بدون ساختار و پویا”) و شورای تحقیقات علوم طبیعی و مهندسی از حمایت مالی شد. جایزه کانادا (NSERC) (کمک هزینه های تحقیق و توسعه مشترک، ۵۳۰۵۵۰-۲۰۱۸، “بهبود بهره وری مبتنی بر BIM برای صنعت ساخت و ساز کانادا”).

بیانیه هیئت بررسی نهادی

قابل اجرا نیست.

بیانیه رضایت آگاهانه

قابل اجرا نیست.

بیانیه در دسترس بودن داده ها

داده های ارائه شده در این مطالعه به درخواست نویسنده مسئول در دسترس است.

تضاد علاقه

نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

منابع

رباتیک ساخته شده ۲۰۲۳٫ در دسترس آنلاین: https://www.builtrobotics.com/ (دسترسی در ۲۹ مارس ۲۰۲۳).
بوستون دینامیک. ۲۰۲۳٫ در دسترس آنلاین: https://bostondynamics.com/products/spot/ (دسترسی در ۲۹ مارس ۲۰۲۳).
مک کینزی و شرکت. ظهور عصر پلتفرم: فصل بعدی در فناوری ساخت و ساز. ۲۰۲۰٫ در دسترس آنلاین: https://www.mckinsey.com/ (دسترسی در ۲۹ مارس ۲۰۲۳).
AMR (تحقیقات بازار متفقین). آمار بازار رباتیک ساختمانی. ۲۰۲۱٫ در دسترس آنلاین: https://www.alliedmarketresearch.com/ (دسترسی در ۲۹ مارس ۲۰۲۳).
BLS، اداره آمار کار، سرشماری صدمات شغلی مرگبار (CFOI). 2009–۲۰۱۸٫ در دسترس آنلاین: www.bls.gov/iif/oshcfoi1.html (دسترسی در ۲۹ مارس ۲۰۲۳).
Jo، BW; لی، YS; کیم، جی اچ. کیم، DK; Choi، PH سیستم هشدار مجاورت و کنترل بیل مکانیکی برای جلوگیری از تصادفات. پایداری ۲۰۱۷، ۹، ۱۴۸۸٫ [Google Scholar] [CrossRef]
نیول، آ. دنگ، جی. پیکسل به نمودارها با تعبیه انجمنی. Adv. عصبی Inf. روند. سیستم ۲۰۱۷، ۳۰. [Google Scholar] [CrossRef]
آلبرت، آ. هالوول، ام آر. کلاینر، بی. تقویت تشخیص خطر ساخت و ساز و ارتباط با حافظه شناختی مبتنی بر انرژی و مدل بلوغ جلسه ایمنی: مطالعه پایه چندگانه. J. Constr. مهندس مدیریت ۲۰۱۳، ۱۴۰۰۴۰۱۳۰۴۲٫ [Google Scholar] [CrossRef]
آلبرت، آ. هالوول، ام آر. کلینر، بی. چن، آ. گلپرور فرد، م. افزایش تشخیص خطر ساخت و ساز با مجازی سازی افزوده با وفاداری بالا. J. Constr. مهندس مدیریت ۲۰۱۴، ۱۴۰۰۴۰۱۴۰۲۴٫ [Google Scholar] [CrossRef]
دونگ، XS؛ فوجیموتو، ا. رینگن، ک. استافورد، ای. پلاتنر، جی دبلیو. گیتلمن، جی ال. وانگ، ایکس. گزارش کمتر از آسیب در میان مؤسسات کوچک در صنعت ساخت و ساز. صبح. J. Ind. با. ۲۰۱۱، ۵۴، ۳۳۹-۳۴۹٫ [Google Scholar] [CrossRef] [PubMed]
کیم، دی اچ. لی، SH; Kamat، VR پیش‌بینی مجاورت اجسام متحرک برای جلوگیری از حوادث ناشی از تماس در ساخت‌وساز روباتیک. جی. کامپیوتر. مدنی مهندس ۲۰۲۰، ۳۴۰۴۰۲۰۰۲۲٫ [Google Scholar] [CrossRef]
OSHA. اداره ایمنی و بهداشت شغلی، ایالات متحده ۲۰۱۱٫ در دسترس آنلاین: https://www.osha.gov/training/outreach/construction/focus-four (دسترسی در ۲۲ مه ۲۰۲۴).
NIOSH. موسسه ملی ایمنی و بهداشت شغلی، رباتیک و ایمنی محل کار. ۲۰۲۱٫ در دسترس آنلاین: https://www.cdc.gov/niosh/newsroom/feature/robotics-workplace-safety.html (دسترسی در ۲۹ مارس ۲۰۲۲).
کیم، دی اچ. لیو، ام. لی، SH; Kamat، VR نظارت بر مجاورت از راه دور بین منابع ساخت و ساز تلفن همراه با استفاده از پهپادهای نصب شده روی دوربین. با ماشین. ساخت و ساز ۲۰۱۹، ۹۹، ۱۶۸-۱۸۲٫ [Google Scholar] [CrossRef]
تیزر، جی. Allread، BS; فولرتون، CE; Hinze, J. سیستم هشدار ایمنی مجاورت اپراتور تجهیزات و کارگران ساختمانی فعال در زمان واقعی. با ماشین. ساخت و ساز ۲۰۱۰، ۱۹، ۶۳۰–۶۴۰٫ [Google Scholar] [CrossRef]
گروه PBE. 2022. در دسترس آنلاین: https://pbegrp.com/ (دسترسی در ۲۹ مارس ۲۰۲۳).
AME. 2022. در دسترس آنلاین: https://www.ameol.it/en/egopro-safety/ (دسترسی در ۲۹ مارس ۲۰۲۳).
KIGIS. 2022. در دسترس آنلاین: http://kigistec.com/ (دسترسی در ۲۹ مارس ۲۰۲۳).
کیم، اچ جی; کیم، KN; ارزیابی ایمنی شی محور مبتنی بر ویژن Kim، HK با استفاده از استنتاج فازی: نظارت بر تصادفات با اجسام متحرک. جی. کامپیوتر. مدنی مهندس ۲۰۱۶، ۳۰۰۴۰۱۵۰۷۵٫ [Google Scholar] [CrossRef]
کیم، KN; کیم، اچ جی; سیستم اجتناب از خطر ساخت و ساز مبتنی بر تصویر Kim، HK با استفاده از واقعیت افزوده در دستگاه های پوشیدنی. با ماشین. ساخت و ساز ۲۰۱۷، ۸۳، ۳۹۰-۴۰۳٫ [Google Scholar] [CrossRef]
ردمون، جی. فرهادی، A. YOLOv3: یک پیشرفت افزایشی. arXiv 2018، arXiv:1804.02767. [Google Scholar]
گوپتا، ا. جانسون، جی. Fe-Fei، L. ساواریس، اس. الهی، ع. اجتماعی GAN: مسیرهای اجتماعی قابل قبول با شبکه های متخاصم مولد. arXiv 2018، arXiv:1803.10892. [Google Scholar]
کای، جی. ژانگ، ی. Cai, H. روش حافظه کوتاه مدت دو مرحله ای برای شناسایی فعالیت های ساخت و ساز از طریق نشانه های موقعیتی و توجهی. با ماشین. ساخت و ساز ۲۰۱۹، ۱۰۶، ۱۰۲۸۸۶٫ [Google Scholar] [CrossRef]
بریلاکیس، مگاوات؛ پارک، جی. Jog, G. ردیابی خودکار بینایی نهادهای مرتبط با پروژه. Adv. مهندس آگاه کردن. ۲۰۱۱، ۲۵، ۷۱۳-۷۲۴٫ [Google Scholar] [CrossRef]
معمارزاده، م. گلپرور فرد، م. Niebles، JC تشخیص دوبعدی خودکار تجهیزات ساختمانی و کارگران از جریان‌های ویدئویی سایت با استفاده از هیستوگرام گرادیان‌ها و رنگ‌های جهت‌یافته. با ماشین. ساخت و ساز ۲۰۱۳، ۳۲، ۲۴-۳۷٫ [Google Scholar] [CrossRef]
پارک، مگاوات؛ Brilakis، I. تشخیص کارگر ساختمانی در فریم های ویدئویی برای مقداردهی اولیه ردیاب های بینایی. با ماشین. ساخت و ساز ۲۰۱۲، ۲۸، ۱۵-۲۵٫ [Google Scholar] [CrossRef]
ژنوم بصری ۲۰۱۷٫ در دسترس آنلاین: https://homes.cs.washington.edu/~ranjay/visualgenome/index.html (در ۸ ژوئن ۲۰۲۴ قابل دسترسی است).
نیش، Q. لی، اچ. لو، ایکس. دینگ، ال. لو، اچ. رز، TM; An, W. تشخیص استفاده غیر سخت با روش یادگیری عمیق از ویدیوهای نظارت میدانی دور. با ماشین. ساخت و ساز ۲۰۱۸، ۸۵، ۱-۹٫ [Google Scholar] [CrossRef]
رن، اس. او، ک. Girshick, R. Faster R-CNN: به سمت تشخیص شی در زمان واقعی با شبکه های پیشنهادی منطقه. IEEE Trans. الگوی مقعدی ماخ هوشمند ۲۰۱۵، ۳۹، ۱۱۳۷–۱۱۴۹٫ [Google Scholar] [CrossRef]
کولار، ز. چن، اچ. Luo, X. انتقال یادگیری و شبکه های عصبی پیچیده عمیق برای تشخیص نرده محافظ ایمنی در تصاویر دوبعدی. با ماشین. ساخت و ساز ۲۰۱۸، ۸۹، ۵۸-۷۰٫ [Google Scholar] [CrossRef]
Px2 Graph. 2018. در دسترس آنلاین: https://github.com/princeton-vl/px2graph (دسترسی در ۳۰ آوریل ۲۰۲۴).

شکل ۱٫
تشخیص رابطه بصری مبتنی بر DNN.

شکل ۲٫
سطوح مختلف دشواری کار: کم، متوسط و زیاد. رنگ سفید نشان دهنده اطلاعات داده شده و رنگ نارنجی نشان دهنده “تخمین زده شدن” است.

شکل ۳٫
معماری شبکه Pixel2Graph.

شکل ۴٫
مجموعه داده ساخت و ساز: نمونه هایی از تصاویر حاشیه نویسی شده.

شکل ۵٫
Recall@5s از سه مدل مبتنی بر تنظیم دقیق و مجموعه داده‌های آزمایشی.

شکل ۶٫
Recall@5s مدل RelObj برای تشخیص رابطه در هنگام تنظیم دقیق.

شکل ۷٫
نمونه های تست مدل Loc-Cla-Rel: طبقه بندی اشتباه و صحیح.

میز ۱٫
جزئیات مجموعه داده ساخت و ساز مشروح.

دسته بندی ها	شرح
تعداد کل ویدیوها	۱۵۰
نرخ نمونه برداری تصویر	۱/۳۰ (یک تصویر در ثانیه)
تعداد کل تصاویر حاشیه نویسی شده	۱۲,۴۶۵
تعداد کل اشیاء حاشیه نویسی شده	۳۰,۱۵۳
تعداد کل برچسب های حاشیه نویسی شده	۱۷۷۷۲
نسبت بین برچسب های همکار و غیر همکار	۵۳:۴۷

سلب مسئولیت/یادداشت ناشر: اظهارات، نظرات و داده های موجود در همه نشریات صرفاً متعلق به نویسنده (ها) و مشارکت کننده (ها) است و نه MDPI و/یا ویرایشگر(ها). MDPI و/یا ویراستار(های) مسئولیت هرگونه آسیب به افراد یا دارایی ناشی از هر ایده، روش، دستورالعمل یا محصولات اشاره شده در محتوا را رد می کنند.

© ۲۰۲۴ توسط نویسندگان. دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC BY) توزیع شده است (https://creativecommons.org/licenses/by/4.0/).

منبع:
۱- shahrsaz.ir , پایداری | متن کامل رایگان | تشخیص رابطه بصری تک شات برای شناسایی دقیق خطرات تماس محور در ساخت و ساز دیجیتالی پایدار
,۲۰۲۴-۰۶-۱۴ ۰۳:۳۰:۰۰
۲- https://www.mdpi.com/2071-1050/16/12/5058