Phân loại các thành phố thông minh toàn cầu bằng phương pháp học máy để đánh giá hiệu quả về khả năng sống, công nghệ và tính bền vững dựa trên các chỉ số đô thị chủ chốt
Global smart cities classification using a machine learning approach to evaluating livability, technology, and sustainability performance across key urban indices
| Tác giả | Aya Hasan Alkhereibi
Rawan Abulibdeh Ammar Abulibdeh |
| Ngày đăng tải | 28/03/2025 |
| DOI | https://doi.org/10.1016/j.jclepro.2025.145394 |
| Nguồn bài nghiên cứu | Science Direct |
| Từ khóa |
Thành phố thông minh Học máy Phân loại Khả năng sống Công nghệ Tính bền vững |
1 – GIỚI THIỆU
Các thành phố thông minh ngày càng trở thành phản ứng trọng yếu trước những thách thức của đô thị hóa nhanh chóng, với mục tiêu tích hợp công nghệ để nâng cao cơ sở hạ tầng, dịch vụ và tính bền vững của đô thị. Nghiên cứu này nhằm phân loại 50 thành phố thông minh hàng đầu thế giới dựa trên các chỉ số về khả năng sống và công nghệ, bằng việc sử dụng các mô hình học máy tiên tiến để đánh giá hiệu suất đô thị một cách toàn diện.
Nghiên cứu có ý nghĩa ở chỗ tập trung xác định các mô hình và thực tiễn tốt nhất trong các đô thị hoạt động hiệu quả, cung cấp những gợi ý mang tính thực hành cho nhà hoạch định chính sách và quy hoạch đô thị. Cách tiếp cận này giúp hiểu rõ và tái lập các mô hình quản trị đô thị bền vững, giảm thiểu sai lệch dữ liệu khi chỉ chọn nhóm thành phố có hiệu suất cao.
Dữ liệu được thu thập từ Chỉ số Thành phố Thông minh (Smart Cities Index – SCI) cùng các chỉ số cạnh tranh về kinh tế và bền vững. Chín mô hình học máy có giám sát được huấn luyện để phân loại các thành phố thành ba nhóm hiệu suất: Lớp 1 (hiệu suất cao), Lớp 2 (trung bình), và Lớp 3 (mới nổi). Kết quả cho thấy các mô hình SVM, K-Nearest Neighbors và Decision Tree là các bộ phân loại hiệu quả nhất. Các thành phố có sự tích hợp tốt giữa quản trị, hạ tầng và thực hành bền vững luôn đạt thứ hạng cao, trong khi các đô thị còn hạn chế về những yếu tố này có xu hướng tụt hạng.
Hàm ý chính sách nhấn mạnh rằng để nâng cao hiệu quả phát triển đô thị thông minh, các thành phố cần ưu tiên quản trị toàn diện, cân bằng giữa hạ tầng công nghệ và tính bền vững, và mở rộng khả năng tiếp cận dịch vụ công nhằm hướng đến tăng trưởng công bằng và kiên cường.
2 – MÔ TẢ HỆ THỐNG
Khung hệ thống được sử dụng trong nghiên cứu này dựa trên mô hình thành phố thông minh của Smart Cities Index (SCI 2024), trong đó các yếu tố cấu thành được chia thành năm trụ cột chính: Sức khỏe & An toàn, Hoạt động, Cơ hội, Quản trị và Di chuyển. Mỗi trụ cột đại diện cho một khía cạnh cốt lõi của hiệu quả đô thị, phản ánh khả năng đáp ứng nhu cầu của người dân thông qua công nghệ và quản trị dữ liệu. Năm yếu tố này không tồn tại riêng lẻ mà có mối liên hệ chặt chẽ trong việc định hình chất lượng sống và hiệu suất của một thành phố thông minh.
Trong đó, Sức khỏe & An toàn được xem là nền tảng của sự phát triển bền vững, nhấn mạnh tầm quan trọng của vệ sinh cơ bản, dịch vụ y tế, an toàn công cộng, quản lý chất lượng không khí và khả năng tiếp cận nhà ở hợp lý. Một thành phố được coi là thông minh không chỉ khi áp dụng công nghệ tiên tiến mà còn khi đảm bảo các điều kiện sống tối thiểu cho cộng đồng. Các công cụ kỹ thuật số như ứng dụng báo cáo sự cố đô thị, nền tảng giám sát ô nhiễm và hệ thống hẹn khám y tế trực tuyến giúp cải thiện đáng kể mức độ hài lòng và an toàn của cư dân.
Yếu tố Hoạt động đề cập đến đời sống văn hóa và giải trí của cư dân, thể hiện qua mức độ tham gia các sự kiện văn hóa, nghệ thuật và việc sử dụng không gian xanh công cộng. Các thành phố có cơ sở hạ tầng văn hóa tốt, như bảo tàng, nhà hát hoặc công viên, mang lại sự cân bằng giữa lao động và giải trí, góp phần tăng cường sức khỏe tinh thần và kết nối cộng đồng. Công nghệ ở đây đóng vai trò tạo điều kiện, khi các nền tảng đặt vé, ứng dụng sự kiện và công cụ thông tin trực tuyến giúp người dân tiếp cận các hoạt động xã hội dễ dàng hơn.
Yếu tố Cơ hội được đo lường thông qua khả năng tiếp cận việc làm, chất lượng giáo dục và cơ sở hạ tầng học tập suốt đời. Một thành phố thông minh không thể phát triển nếu không đảm bảo cơ hội học tập bình đẳng và thị trường lao động bao trùm. Các công cụ số hóa như cổng thông tin tuyển dụng trực tuyến, nền tảng đào tạo kỹ năng số, hoặc chương trình khuyến khích khởi nghiệp trực tuyến giúp thúc đẩy sự phát triển kinh tế – xã hội, tạo điều kiện cho người dân thích ứng với nền kinh tế tri thức.
Quản trị là trụ cột thể hiện năng lực điều hành minh bạch và khả năng tham gia của người dân vào tiến trình ra quyết định. Thành phố thông minh được đánh giá cao khi áp dụng các hệ thống công nghệ để tăng tính minh bạch, giảm tham nhũng và nâng cao sự tin cậy của công dân đối với chính quyền. Các nền tảng trực tuyến cho phép người dân truy cập thông tin tài chính, tham gia bỏ phiếu điện tử hoặc gửi phản hồi về dự án đô thị đã giúp hình thành mối quan hệ tương tác hai chiều giữa chính quyền và công dân.
Cuối cùng, Di chuyển phản ánh mức độ hiệu quả của hệ thống giao thông và khả năng ứng dụng công nghệ trong việc giảm ùn tắc, ô nhiễm và chi phí vận hành. Những thành phố có hệ thống giao thông công cộng hiện đại, tích hợp ứng dụng chỉ đường thời gian thực, chia sẻ phương tiện và hệ thống thuê xe đạp công cộng không chỉ cải thiện hiệu suất di chuyển mà còn góp phần giảm phát thải carbon, hướng tới mục tiêu phát triển xanh và bền vững.
Tổng thể, mô hình hệ thống này thể hiện cách tiếp cận đa chiều của nghiên cứu – coi thành phố thông minh là một hệ sinh thái tích hợp, nơi các yếu tố xã hội, kỹ thuật và môi trường cùng tương tác nhằm tối ưu hóa chất lượng sống đô thị.
3 – PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp nghiên cứu được xây dựng trên cơ sở kết hợp phân tích dữ liệu đô thị và mô hình học máy có giám sát và không giám sát nhằm phân loại thành phố thông minh toàn cầu theo mức độ hiệu quả. Dữ liệu được thu thập chủ yếu từ Smart Cities Index (SCI 2024) do Viện Phát triển Quản lý Quốc tế (IMD) công bố và từ Global Urban Competitiveness Report 2019–2020. Mẫu nghiên cứu gồm 50 thành phố hàng đầu thế giới, được lựa chọn dựa trên tính đầy đủ, nhất quán và đáng tin cậy của dữ liệu, qua đó loại trừ sai lệch do thiếu thông tin ở nhóm thành phố xếp hạng thấp hơn.
Quy trình xử lý dữ liệu được thực hiện theo nhiều giai đoạn. Trước hết, dữ liệu bị khuyết được bù bằng thuật toán K-Nearest Neighbors (KNN) imputation, đảm bảo tính toàn vẹn và giảm sai số thống kê. Các biến số định lượng được chuẩn hóa bằng StandardScaler nhằm đưa dữ liệu về cùng thang đo, trong khi các biến định tính được mã hóa thứ bậc (ordinal encoding) để bảo toàn mối quan hệ xếp hạng giữa các giá trị. Sau đó, phân tích thành phần chính (PCA) được áp dụng nhằm giảm chiều dữ liệu, loại bỏ nhiễu và tăng tốc độ huấn luyện của mô hình. Bộ dữ liệu được chia thành 70% dùng cho huấn luyện và 30% cho kiểm thử, với biến mục tiêu là thứ hạng thành phố trong SCI 2024.
Tổng cộng chín mô hình học máy có giám sát (bao gồm KNN, Logistic Regression, SVM, Naïve Bayes, LDA, QDA, Decision Tree, Random Forest và XGBoost) và hai mô hình không giám sát (K-means và Gaussian Mixture Model) được huấn luyện và so sánh. Hiệu suất mô hình được đánh giá qua các chỉ số độ chính xác (Accuracy), độ chính xác trung bình (Precision), khả năng thu hồi (Recall) và F1-score – chỉ số tổng hợp giữa Precision và Recall. Các giá trị SHAP (SHapley Additive exPlanations) được sử dụng để giải thích mức độ đóng góp của từng biến vào kết quả phân loại, giúp mô hình đạt được tính minh bạch và khả năng giải thích cao trong bối cảnh nghiên cứu đô thị.
Phương pháp này không chỉ cung cấp cách phân loại định lượng mà còn là công cụ dự đoán, cho phép nhận diện các yếu tố ảnh hưởng chủ đạo đến hiệu suất của một thành phố, từ đó hình thành khung phân tích có thể tái sử dụng cho các đô thị khác nhau trên toàn cầu.
4 – KẾT QUẢ NGHIÊN CỨU
Kết quả thực nghiệm cho thấy ba mô hình học máy gồm Support Vector Machine (SVM), K-Nearest Neighbors (KNN) và Decision Tree đạt hiệu suất cao nhất trong việc phân loại thành phố thông minh, với SVM đạt F1-score trung bình 0,93 – phản ánh độ chính xác gần tuyệt đối. Các mô hình này vượt trội nhờ khả năng xử lý dữ liệu phi tuyến và nắm bắt các mối tương quan phức tạp giữa các chỉ số đô thị. Ngược lại, các mô hình như QDA, K-means và Gaussian Mixture Model cho kết quả thấp do giả định phân bố tuyến tính hoặc Gaussian không phù hợp với dữ liệu thực tế, vốn có cấu trúc đa chiều và chồng lấn giữa các lớp.
Phân tích kết quả chỉ ra rằng các thành phố được phân vào Lớp 1 – như Zurich, Singapore, Helsinki, và Geneva – là những đô thị dẫn đầu toàn cầu về hiệu quả quản trị, cơ sở hạ tầng và tính bền vững. Các thành phố này có mức độ tích hợp công nghệ cao, minh bạch trong quản trị và có chính sách phúc lợi xã hội toàn diện. Lớp 2 bao gồm Sydney, Toronto và Abu Dhabi, thể hiện sự tiến bộ đáng kể trong phát triển công nghệ và quản trị, nhưng vẫn cần củng cố ở các lĩnh vực như bền vững môi trường và tương tác công dân. Trong khi đó, Lớp 3 gồm các thành phố như Riyadh và Cairo, nơi vẫn tồn tại nhiều hạn chế trong hạ tầng, quản lý rác thải, chất lượng không khí và khả năng tiếp cận công nghệ.
Phân tích SHAP giúp xác định các biến có ảnh hưởng lớn nhất đến kết quả phân loại. Đối với Lớp 1, những yếu tố như cơ hội học tập suốt đời, dịch vụ y tế, vệ sinh đô thị và khả năng chi trả nhà ở có tác động tích cực mạnh mẽ, thể hiện vai trò của phúc lợi xã hội và cơ sở hạ tầng cơ bản trong sự phát triển đô thị bền vững. Ngược lại, Lớp 2 chịu ảnh hưởng lớn từ các biến về an toàn công cộng và dịch vụ việc làm, phản ánh sự chú trọng của các đô thị này vào ổn định xã hội và tăng trưởng kinh tế. Đối với Lớp 3, các yếu tố tiêu cực như ùn tắc giao thông, ô nhiễm không khí và quản lý rác thải yếu lại trở thành đặc điểm nhận dạng chính, cho thấy sự thiếu hụt trong quản trị và công nghệ khiến các thành phố này khó đạt chuẩn thông minh.
Nhìn chung, các kết quả cho thấy hiệu suất của các thành phố thông minh không chỉ phụ thuộc vào công nghệ mà còn chịu ảnh hưởng mạnh của cấu trúc xã hội, năng lực quản trị và chính sách bền vững. Việc phân loại thành công bằng học máy cho phép nhận diện rõ ràng hơn các ưu tiên phát triển cụ thể đối với từng nhóm thành phố.
5 – KẾT LUẬN
Nghiên cứu đã đề xuất một khung phân loại thành phố thông minh toàn cầu dựa trên dữ liệu lớn và mô hình học máy, góp phần mở rộng hiểu biết về mối liên hệ giữa công nghệ, khả năng sống và tính bền vững trong phát triển đô thị hiện đại. Kết quả chứng minh rằng các thành phố có hệ thống quản trị minh bạch, cơ sở hạ tầng tiên tiến và dịch vụ công lấy người dân làm trung tâm luôn đạt thành tích cao hơn trong các bảng xếp hạng thông minh. Ngược lại, các thành phố thiếu đồng bộ về chính sách, hạ tầng và năng lực công nghệ có xu hướng tụt hạng, cho thấy tầm quan trọng của chiến lược quản trị tích hợp và đầu tư dài hạn.
Nghiên cứu cũng khẳng định tính hữu ích của các mô hình học máy như SVM và Decision Tree trong việc xử lý các bộ dữ liệu đô thị phức tạp, giúp các nhà hoạch định chính sách có thể đưa ra quyết định dựa trên bằng chứng định lượng. Đồng thời, việc sử dụng phân tích SHAP đã cung cấp cái nhìn sâu sắc về tầm quan trọng của từng chỉ số – chẳng hạn như học tập suốt đời, vệ sinh môi trường, an toàn xã hội – trong việc xác định mức độ “thông minh” của một thành phố. Những yếu tố này tạo nên nền tảng vững chắc để các đô thị hướng đến phát triển bền vững, công bằng và có khả năng thích ứng với thách thức toàn cầu như biến đổi khí hậu hay bất bình đẳng xã hội.
Từ góc độ chính sách, nghiên cứu nhấn mạnh rằng các đô thị muốn cải thiện thứ hạng cần ưu tiên đầu tư vào hạ tầng xanh, cải thiện dịch vụ công, thúc đẩy công nghệ quản trị và khuyến khích sự tham gia của người dân trong quá trình ra quyết định. Việc triển khai các nền tảng kỹ thuật số cung cấp dữ liệu thời gian thực về giao thông, năng lượng, y tế hoặc môi trường không chỉ giúp tối ưu hóa vận hành đô thị mà còn tăng cường tính minh bạch và trách nhiệm giải trình của chính quyền.
Hạn chế của nghiên cứu là chỉ tập trung vào nhóm 50 thành phố hàng đầu, chưa phản ánh đầy đủ thực trạng của các đô thị đang phát triển, nơi dữ liệu còn thiếu và chênh lệch hạ tầng lớn. Tuy nhiên, phương pháp được đề xuất có khả năng mở rộng, cho phép áp dụng cho các bối cảnh khác nhau nhằm theo dõi tiến trình chuyển đổi thông minh của đô thị trong tương lai. Nghiên cứu đề xuất rằng các công trình tiếp theo nên tích hợp dữ liệu xã hội – môi trường, áp dụng mô hình học sâu (deep learning) hoặc mạng lưới lai để nâng cao độ chính xác phân loại, đồng thời phân tích tác động theo thời gian để hiểu rõ hơn quỹ đạo phát triển của thành phố thông minh trong dài hạn.