Tác giả

Zhen Xu

Xiyan Tang

Wenting Li

Yujie Zhao

Donglian Gu

Yuan Tian

Ngày đăng tải 05/08/2025
DOI https://doi.org/10.1016/j.jnlssr.2025.100235
Nguồn bài nghiên cứu Science Direct
Từ khóa

Phát hiện người

Che khuất bởi khói

Hình ảnh tạo bởi AI

Mô hình RT-DETR

Tương tác toàn cục-cục bộ

Hỏa hoạn tòa nhà

1 – GIỚI THIỆU

Việc phát hiện những người bị kẹt trong các tòa nhà trong các vụ hỏa hoạn là một thách thức cực kỳ lớn do khói dày đặc và lan truyền nhanh chóng. Để giải quyết vấn đề này, bài nghiên cứu đề xuất một phương pháp phát hiện người có tính đến sự che khuất của khói, dựa trên các hình ảnh được tạo ra bởi trí tuệ nhân tạo (AI) và mô hình biến đổi phát hiện thời gian thực (RT-DETR) đã được cải tiến. Trong bối cảnh hỏa hoạn, việc phát hiện nhanh chóng và hiệu quả những người gặp nạn có thể giảm bớt tỷ lệ bị thương nặng và mất mát về người. Tuy nhiên, các phương pháp hiện tại như radar và hình ảnh hồng ngoại đang đối mặt với những thách thức đáng kể về mặt triển khai thực tế, chẳng hạn như radar bị nhiễu bởi vật liệu kim loại hoặc hình ảnh hồng ngoại bị sai lệch do nhiệt độ cao của khói. Sự phát triển của thị giác máy tính đã hỗ trợ việc định vị con người chính xác hơn, nhưng việc phát hiện trong điều kiện bị khói che khuất vẫn khó khăn hơn nhiều so với điều kiện sương mù thông thường do tính chất động và không đồng nhất của khói. Bài nghiên cứu tập trung giải quyết hai thách thức chính: sự thiếu hụt trầm trọng của các tập dữ liệu hình ảnh người bị khói che lấp và sự hạn chế của các thuật toán hiện có trong việc nhận diện các đặc điểm con người bị che mờ bởi khói.

2 – MÔ TẢ HỆ THỐNG

Hệ thống được đề xuất xây dựng trên một khung làm việc toàn diện bao gồm bốn thành phần chính là xây dựng tập dữ liệu, mô hình RT-DETR cải tiến, quy trình xác thực và ứng dụng thực tế. Thành phần đầu tiên sử dụng AI tạo hình (generative AI), cụ thể là công cụ Midjourney, kết hợp với phương pháp kết hợp biến số để tạo ra các hình ảnh con người bị khói che lấp một cách chân thực nhất. Quy trình này cho phép hệ thống xem xét một cách toàn diện các yếu tố khác nhau như môi trường hỏa hoạn, nồng độ khói và các tư thế sơ tán khác nhau của con người. Trung tâm của hệ thống là mô hình RT-DETR đã được nâng cấp bằng cách thay thế mạng xương sống (backbone) gốc (thường là ResNet) bằng một mô-đun tương tác toàn cục-cục bộ dựa trên kiến trúc Transformer. Sự cải tiến này nhằm mục đích tăng cường khả năng trích xuất các đặc trưng đặc thù của con người ngay cả trong điều kiện tầm nhìn thấp. Hệ thống vẫn duy trì các thành phần hiệu quả khác của RT-DETR như bộ mã hóa hỗn hợp đa quy mô (efficient hybrid encoder) và mô-đun lựa chọn truy vấn nhận biết chỉ số giao thoa trên diện tích (IoU-aware query selection) để đảm bảo độ chính xác và tốc độ xử lý thời gian thực.

3 – PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp nghiên cứu được triển khai theo một lộ trình kỹ thuật nghiêm ngặt bắt đầu từ việc tạo lập dữ liệu. Nhóm tác giả đã thiết kế một quy trình ba bước để xây dựng tập dữ liệu: xác định các biến số hình ảnh (môi trường, nồng độ khói, tư thế), tích hợp các lời nhắc (prompts) chi tiết và cuối cùng là tạo hình ảnh bằng Midjourney. Tổng cộng có 1500 hình ảnh tạo bởi AI đã được sản xuất từ 36 nhóm biến số khác nhau, sau đó được kết hợp với 185 hình ảnh thực tế từ internet để tạo ra tập dữ liệu tổng hợp gồm 1685 hình ảnh. Về mặt thuật toán, mô-đun tương tác toàn cục-cục bộ dựa trên Transformer được thiết kế với bốn giai đoạn để trích xuất các bản đồ đặc trưng ở các độ phân giải khác nhau. Thành phần tự chú ý toàn cục áp dụng cơ chế gom mẫu (pooling) cực đại và trung bình thích ứng để thu nhận ngữ cảnh rộng lớn của hình ảnh, giúp ích cho việc nhận diện các vật thể bị che khuất. Ngược lại, thành phần tự chú ý cục bộ tập trung vào các mã thông báo (tokens) lân cận trong một cửa sổ cố định thông qua phép hội tụ theo chiều sâu động (dynamic depth-wise convolution) để nắm bắt các đặc điểm chi tiết. Khối tương tác nâng cao cuối cùng cho phép hai luồng thông tin này trao đổi với nhau, giúp mô hình nhạy bén hơn với các đặc trưng con người dưới sự che lấp của khói. Quá trình huấn luyện được thực hiện trên nền tảng PyTorch với phần cứng GPU NVIDIA RTX 3090 để đảm bảo khả năng tính toán.

4 – KẾT QUẢ NGHIÊN CỨU

Kết quả thực nghiệm khẳng định phương pháp đề xuất đạt được hiệu quả vượt trội với độ chính xác trung bình (AP) lên tới 93,8% trong các tình huống bị khói che lấp, cao hơn mô hình RT-DETR gốc 2,4 điểm phần trăm và vượt qua cả mô hình YOLOv11n cải tiến. Việc sử dụng hình ảnh tạo bởi AI đã được chứng minh là yếu tố then chốt giúp cải thiện khả năng tổng quát hóa của mô hình, khi AP của tập dữ liệu tạo bởi AI (84,9%) cao hơn đáng kể so với tập dữ liệu chỉ gồm hình ảnh thực tế (58,9%) do sự đa dạng vượt trội về kịch bản và tư thế. Chỉ số điểm CLIP cũng cho thấy các hình ảnh nhân tạo có sự liên kết ngữ nghĩa rất mạnh mẽ với khái niệm “con người bị khói che khuất” thực tế. Trong các thử nghiệm thực tế với video hỏa hoạn tại Sichuan Dazhou và các cuộc diễn tập cứu hỏa, mô hình đã phát hiện chính xác số lượng người gặp nạn, tương đồng với kết quả gán nhãn thủ công ngay cả ở khoảng cách xa. Mô hình cũng thể hiện tính bất biến đối với tư thế sơ tán, nhận diện tốt những người đang cúi người hoặc che miệng khi di chuyển trong khói dày. Về mặt hiệu năng, hệ thống xử lý cực nhanh với thời gian suy luận (inference) chỉ mất 11,7 mili giây cho mỗi hình ảnh, đáp ứng hoàn hảo yêu cầu thực tế trong công tác cứu nạn cứu hộ.

5 – KẾT LUẬN

Nghiên cứu đã đề xuất một phương pháp hiệu quả để phát hiện người bị che khuất bởi khói, kết hợp giữa sức mạnh tạo hình của AI và kiến trúc mạng nơ-ron tiên tiến. Việc sử dụng AI tạo hình không chỉ giải quyết bài toán thiếu hụt dữ liệu mà còn tăng cường đáng kể độ đa dạng của môi trường và tư thế con người, từ đó nâng cao hiệu suất học tập của mô hình. Mô hình RT-DETR được cải tiến với mô-đun tương tác toàn cục-cục bộ đã chứng minh được khả năng tập trung hiệu quả vào cả thông tin tổng thể và chi tiết, vượt qua các hạn chế về hình ảnh mờ nhạt trong đám cháy. Qua việc phân tích các video thực tế, phương pháp đề xuất đã xác nhận được khả năng nhận diện thời gian thực và độ chính xác cao, cho thấy tiềm năng to lớn trong việc hướng dẫn sơ tán và hỗ trợ nỗ lực cứu hộ hỏa hoạn. Trong tương lai, việc tận dụng các nền tảng tạo hình ảnh mới nổi sẽ cho phép kiểm soát chi tiết hơn các đặc điểm hình ảnh, từ đó tinh luyện độ nhạy của mô hình đối với các đặc trưng tinh vi, hướng tới độ chính xác tuyệt đối trong các tình huống cứu sinh khẩn cấp.