Tác giả: Qinglai Wei, Lingxiao Wang, Yu Liu, Marios M. Polycarpou
Ngày đăng tải: 13/02/2020

Trong bài viết này, phương pháp học tăng cường sâu mới được gọi là lợi thế không đồng bộ actor-critic (A3C – Asynchronous Advantage Actor-Critic) đã được phát triển để giải quyết vấn đề điều khiển tối ưu của hệ thống điều khiển nhóm thang máy (EGCSs). Đóng góp chính của bài viết này là thiết kế luật điều khiển tối ưu cho EGCSs thông qua phương pháp học tăng cường sâu, nhằm đưa hệ thống thang máy đến các tầng đích mong muốn của hành khách một cách nhanh nhất. Mạng nơ-ron tích chập sâu và mạng nơ-ron tuần hoàn đã được thiết kế để điều phối các thang máy cũng như có khả năng tự cập nhật trong quá trình hoạt động. Sau đó, cấu trúc của phương pháp A3C được phát triển và giai đoạn huấn luyện để học luật điều khiển tối ưu được thảo luận. Cuối cùng, kết quả mô phỏng cho thấy phương pháp đã phát triển hiệu quả giảm thời gian chờ trung bình trong một môi trường tòa nhà phức tạp. So sánh với các thuật toán truyền thống cũng xác nhận tính hiệu quả của phương pháp đã phát triển.

Link: Research Gate | IEEE Xplore