Tạo lập tập dữ liệu các loại hình tòa nhà dân cư quy mô quốc gia sử dụng học máy
Generating a nationwide residential building types dataset using machine learning
| Tác giả |
Kristina Dabrock Jens Ulken Noah Pflugradt Jann Michael Weinand Detlef Stolten |
| Ngày đăng tải | 25/02/2025 |
| DOI | https://doi.org/10.1016/j.buildenv.2025.112782 |
| Nguồn bài nghiên cứu | Science Direct |
| Từ khóa |
XGBoost Phân loại TABULA Dữ liệu tòa nhà Trạng thái cải tạo Năm xây dựng Phân lớp quy mô |
1 – GIỚI THIỆU
Sự thiếu hụt dữ liệu tòa nhà có độ phân giải cao hiện đang là rào cản lớn đối với việc phát triển các đề xuất chi tiết và có tính xác định không gian cho các biện pháp giảm phát thải carbon. Các tòa nhà đóng góp đáng kể vào mức tiêu thụ năng lượng và phát thải khí nhà kính ở cả Liên minh Châu Âu và Đức, vì vậy để thiết lập các biện pháp mục tiêu hướng tới mục tiêu trung hòa khí nhà kính, cần có kiến thức chi tiết về thực trạng quỹ nhà ở. Mặc dù các sáng kiến dữ liệu mở ngày càng cung cấp nhiều thông tin về tòa nhà, nhưng các dữ liệu có cấu trúc, đầy đủ và dễ tiếp cận ở cấp độ tòa nhà cá thể, bao gồm cả dữ liệu hình học và các đặc tính nhiệt, vẫn còn rất khan hiếm.
Nghiên cứu này nhằm lấp đầy khoảng trống đó bằng cách phác thảo quy trình tạo ra một tập dữ liệu cấp tòa nhà dựa trên các hình mẫu (archetypes) tiêu chuẩn hóa cho tất cả các tòa nhà dân cư tại Đức. Cách tiếp cận phổ biến để xử lý sự khan hiếm dữ liệu là làm giàu dữ liệu tòa nhà hiện có bằng các đặc tính từ khung phân loại tòa nhà như TABULA. Khung TABULA phân loại tòa nhà dựa trên vị trí, quy mô, năm xây dựng và trạng thái cải tạo, từ đó cung cấp các giá trị ước tính về hệ số truyền nhiệt (U-values), diện tích cấu kiện và nhu cầu nhiệt cụ thể. Đây là lần đầu tiên một phương pháp luận dựa trên học máy được phát triển để phân tích quỹ nhà ở của toàn bộ lãnh thổ nước Đức, cho phép xác định các đặc tính định nghĩa hình mẫu cho từng tòa nhà đơn lẻ, từ đó tạo tiền đề cho các mô hình mô phỏng năng lượng quy mô lớn.
2 – MÔ TẢ HỆ THỐNG
Hệ thống nghiên cứu được thiết lập như một khung làm việc tích hợp đa tầng, kết hợp giữa dữ liệu địa không gian quy mô lớn và thuật toán học máy tiên tiến để giải quyết bài toán thiếu hụt thông tin đặc tính nhiệt của tòa nhà. Thành phần cốt lõi của hệ thống là việc sử dụng dữ liệu từ mô hình tòa nhà 3D ở mức độ chi tiết LoD2, cung cấp thông tin chính xác về diện tích chân đế, chiều cao và đặc biệt là hình dạng mái của từng tòa nhà đơn lẻ trên toàn lãnh thổ nước Đức. Hệ thống này không chỉ dựa vào các thông số vật lý thuần túy mà còn tích hợp các lớp dữ liệu kinh tế xã hội và nhân khẩu học được trích xuất từ cuộc điều tra dân số năm 2011, bao gồm mật độ dân cư và đặc điểm hạ tầng tại địa phương. Sự kết hợp này dựa trên giả thuyết hệ thống rằng các yếu tố kinh tế vùng và đặc điểm đô thị có mối liên hệ mật thiết với thời điểm xây dựng cũng như quy mô của các công trình kiến trúc. Để xử lý khối lượng dữ liệu khổng lồ lên đến hàng triệu đối tượng, hệ thống sử dụng thuật toán XGBoost, một giải pháp học máy dựa trên cây quyết định có khả năng tối ưu hóa hiệu suất tính toán và xử lý tốt các tập dữ liệu có độ nhiễu cao hoặc thiếu hụt thông tin cục bộ. Cấu trúc hệ thống được thiết kế để đầu ra của mô hình dự đoán bao gồm năm xây dựng và phân loại quy mô sẽ trở thành các tham số đầu vào cho việc ánh xạ trực tiếp vào khung phân loại TABULA, từ đó gán các thông số kỹ thuật năng lượng cụ thể cho từng thực thể tòa nhà trong cơ sở dữ liệu.
3 – PHƯƠNG PHÁP NGHIÊN CỨU
Quy trình nghiên cứu bắt đầu bằng giai đoạn chuẩn bị dữ liệu vô cùng nghiêm ngặt thông qua việc gán nhãn cho các tòa nhà dựa trên các ô lưới điều tra dân số có độ phân giải 100 mét. Những tòa nhà nằm trong các ô lưới thuần nhất, nơi chỉ có một loại năm xây dựng hoặc một loại quy mô duy nhất, sẽ được ưu tiên sử dụng làm tập dữ liệu huấn luyện để đảm bảo độ chính xác tuyệt đối cho nhãn mục tiêu. Sau khi có được tập dữ liệu chuẩn, nhóm nghiên cứu tiến hành kỹ thuật trích xuất đặc trưng với hơn 40 biến số khác nhau, chia thành các nhóm chính như hình thái học tòa nhà, đặc điểm khu lân cận và các chỉ số kinh tế xã hội cấp huyện. Các đặc trưng hình thái bao gồm diện tích, chu vi, độ lồi và các thông số về mái, trong khi các đặc trưng lân cận đo lường mật độ xây dựng và khoảng cách giữa các công trình trong bán kính hẹp. Một điểm đặc biệt trong phương pháp này là việc áp dụng trọng số mẫu để xử lý sự mất cân bằng dữ liệu giữa các loại hình tòa nhà, thay vì sử dụng các kỹ thuật lấy mẫu ảo vốn có thể làm sai lệch phân bố tự nhiên của quỹ nhà ở. Quá trình huấn luyện mô hình được thực hiện thông qua việc tối ưu hóa các tham số của thuật toán XGBoost bằng phương pháp kiểm chéo năm lần nhằm tìm ra bộ tham số tốt nhất cho khả năng tổng quát hóa trên toàn quốc. Đối với các thuộc tính không thể dự đoán trực tiếp từ hình thái như trạng thái cải tạo nhiệt, nghiên cứu áp dụng phương pháp gán xác suất dựa trên các báo cáo thống kê chính thức của cơ quan môi trường liên bang, từ đó tạo ra một bức tranh toàn diện về hiện trạng năng lượng của tòa nhà. Cuối cùng, tất cả các thuộc tính dự đoán và gán xác suất được tổng hợp để định danh mỗi tòa nhà vào một trong các ô của ma trận TABULA, cho phép truy xuất các hệ số truyền nhiệt và nhu cầu năng lượng tương ứng.
4 – KẾT QUẢ NGHIÊN CỨU
Kết quả thực nghiệm cho thấy mô hình đạt được hiệu năng vượt trội trong việc phân loại quy mô tòa nhà với độ chính xác tổng thể lên đến 97,4 phần trăm, trong đó các loại hình như nhà đơn lập và khối căn hộ được nhận diện gần như chính xác tuyệt đối nhờ vào sự khác biệt rõ rệt về diện tích chân đế và số lượng tường chung. Đối với bài toán dự đoán năm xây dựng, một thách thức lớn hơn nhiều do sự tương đồng về kiến trúc qua các thời kỳ, mô hình vẫn đạt được độ chính xác 73,9 phần trăm, đây là một con số rất khả quan khi so sánh với các nghiên cứu tương tự trước đây. Phân tích tầm quan trọng của các biến số cho thấy diện tích chân đế và các đặc trưng hình thái là yếu tố quyết định để phân loại quy mô, trong khi các yếu tố kinh tế xã hội và hình dạng mái lại đóng vai trò then chốt trong việc xác định niên đại xây dựng của công trình. Khi tiến hành kiểm chứng trên quy mô toàn bộ quỹ nhà ở tại Đức, tập dữ liệu mới tạo lập đã phản ánh một cách trung thực các xu hướng thống kê chính thức, với sai số về tổng nhu cầu nhiệt dự báo chỉ ở mức 2,4 phần trăm so với số liệu thực tế từ các báo cáo năng lượng quốc gia. Sự sai lệch nhỏ này chủ yếu xuất phát từ việc mô hình có xu hướng dự đoán nghiêng về các nhóm chiếm đa số trong tập huấn luyện, tuy nhiên sai số này được triệt tiêu đáng kể khi tổng hợp dữ liệu ở cấp độ vùng hoặc quốc gia. Điều này khẳng định rằng phương pháp tiếp cận dựa trên học máy không chỉ hiệu quả về mặt định danh cá thể mà còn cực kỳ đáng tin cậy cho các mục đích lập kế hoạch năng lượng chiến lược ở quy mô lớn.
5 – KẾT LUẬN
Nghiên cứu đã đóng góp một bước tiến quan trọng trong việc số hóa và quản lý dữ liệu năng lượng tòa nhà bằng cách tạo ra một tập dữ liệu mở có độ phân giải cao nhất từ trước đến nay cho toàn bộ nhà ở dân cư tại Đức. Việc chứng minh tính hiệu quả của thuật toán XGBoost trong việc kết hợp dữ liệu hình học LoD2 với dữ liệu thống kê kinh tế xã hội đã mở ra một hướng đi mới cho các quốc gia khác đang đối mặt với tình trạng khan hiếm dữ liệu tòa nhà tương tự. Kết quả nghiên cứu khẳng định rằng việc sử dụng các hình mẫu kiến trúc tiêu chuẩn hóa như TABULA kết hợp với sức mạnh của học máy có thể thay thế hiệu quả cho việc khảo sát trực tiếp từng tòa nhà, vốn là một công việc tốn kém và bất khả thi về mặt nguồn lực. Tập dữ liệu này không chỉ là công cụ hỗ trợ đắc lực cho các nhà khoa học năng lượng trong việc mô phỏng các kịch bản giảm phát thải mà còn là nguồn tài nguyên quý giá cho các nhà hoạch định chính sách trong việc xác định các khu vực ưu tiên cải tạo nhiệt để đạt được mục tiêu trung hòa carbon. Trong tương lai, khung nghiên cứu này hoàn toàn có thể được mở rộng bằng cách tích hợp thêm dữ liệu từ ảnh vệ tinh hoặc các cảm biến từ xa để cập nhật trạng thái cải tạo của tòa nhà theo thời gian thực, từ đó nâng cao hơn nữa độ chính xác và tính thời sự của cơ sở dữ liệu. Toàn bộ quy trình và kết quả đạt được đã thiết lập một tiêu chuẩn mới cho việc phân tích quỹ nhà ở quốc gia, tạo tiền đề vững chắc cho các nỗ lực phát triển bền vững trong lĩnh vực xây dựng và môi trường.