Tác giả Marija Ivanovska

Jakob Kreft

Vitomir Štruc

Janez Perš

Ngày đăng tải 31/03/2025
DOI https://doi.org/10.1016/j.sysarc.2025.103586
Nguồn bài nghiên cứu Science Direct
Từ khóa

Quyền riêng tư theo thiết kế
AIoT
Hệ thống thị giác nhúng
Ẩn danh dữ liệu hình ảnh
Hệ thống đô thị thông minh
Thị giác máy tính bảo vệ quyền riêng tư
Edge AI

1 – GIỚI THIỆU

Trong kỷ nguyên công nghệ phát triển mạnh mẽ hiện nay, trí tuệ nhân tạo (AI) đóng vai trò trung tâm trong việc hình thành và duy trì các môi trường đô thị thông minh được kích hoạt bởi AIoT (Artificial Intelligence of Things). Các ứng dụng AI, đặc biệt là thị giác máy và phân tích hình ảnh, đã góp phần cải thiện an toàn công cộng thông qua các hệ thống giám sát có khả năng phát hiện bất thường, dự đoán rủi ro và hỗ trợ phản ứng khẩn cấp nhờ phân tích dự đoán.

Tuy nhiên, sự thành công của công nghệ này phụ thuộc vào việc thu thập dữ liệu quy mô lớn trong không gian công cộng, khiến người dân ngày càng lo ngại về quyền riêng tư. Sự mất lòng tin của cộng đồng đối với hệ thống giám sát hiện đại đã thúc đẩy nhu cầu phát triển các ứng dụng AIoT không chỉ sáng tạo mà còn tuân thủ nguyên tắc bảo vệ dữ liệu cá nhân.

Các chính phủ trên toàn cầu đang đưa ra những quy định nghiêm ngặt về bảo mật dữ liệu như GDPR (Liên minh châu Âu), Đạo luật Quyền riêng tư của Úc (1988), hay CCPA (California Consumer Privacy Act). Việc áp dụng các kỹ thuật bảo vệ quyền riêng tư trong hệ thống AIoT không chỉ là nghĩa vụ đạo đức mà còn là yêu cầu pháp lý.

Các ứng dụng dựa trên hình ảnh như mô hình giao thông, thiết kế không gian công cộng, đánh giá chất lượng không khí hay khả năng đi bộ đô thị đều chứa dữ liệu có khả năng nhận dạng cá nhân (khuôn mặt, biển số xe). Nhiều thuật toán thị giác hiện nay được huấn luyện trên dữ liệu tổng hợp an toàn để tránh lộ thông tin thật. Ngoài ra, việc tích hợp thiết bị biên an toàn (edge devices) và giao thức bảo mật cũng giúp bảo đảm hệ thống AI tuân thủ các chuẩn bảo vệ dữ liệu.

Bài nghiên cứu này đề xuất cách tiếp cận “quyền riêng tư theo thiết kế” (privacy-by-design) cho hệ thống thị giác đô thị thông minh, thông qua cơ chế làm mờ quang học tại thời điểm chụp, giúp bảo mật dữ liệu ngay từ điểm thu thập, đồng thời duy trì hiệu quả vận hành của các mô hình AI hiện đại.

2 – MÔ TẢ HỆ THỐNG

Trong khuôn khổ nghiên cứu này, nhóm tác giả đã phát triển một hệ thống thị giác nhúng được thiết kế đặc biệt nhằm bảo vệ quyền riêng tư của cá nhân ngay tại thời điểm thu nhận dữ liệu. Hệ thống bao gồm hai camera được lắp song song trên nền tảng máy tính nhúng Raspberry Pi 4, một thiết bị có kích thước nhỏ gọn, chi phí thấp nhưng có khả năng xử lý mạnh mẽ và dễ dàng tích hợp vào các ứng dụng AIoT. Hai camera này có cấu hình phần cứng tương đồng, trong đó một camera được hiệu chỉnh để chụp hình ảnh sắc nét, còn camera thứ hai được cố tình làm mờ bằng cách điều chỉnh tiêu cự nhằm tạo ra dữ liệu thị giác đã được ẩn danh ngay từ giai đoạn thu thập.

Việc thiết lập song song hai camera phục vụ mục tiêu song hành: camera sắc nét cung cấp nguồn dữ liệu có độ chi tiết cao để trích xuất thông tin ngữ nghĩa và gán nhãn đối tượng, trong khi camera bị làm mờ thu thập phiên bản tương ứng của cùng khung cảnh nhưng không chứa thông tin nhận dạng cá nhân. Nhờ đó, nhóm nghiên cứu có thể thực hiện quy trình chuyển giao tri thức (knowledge transfer) giữa hai miền dữ liệu – từ ảnh sắc nét sang ảnh mờ – giúp mô hình học được khả năng nhận biết đối tượng trong các điều kiện ảnh bị giảm chất lượng mà vẫn đảm bảo tính ẩn danh.

Để đạt được sự tương thích giữa hai nguồn hình ảnh, hệ thống được hiệu chỉnh bằng kỹ thuật SIFT (Scale-Invariant Feature Transform) nhằm phát hiện và so khớp các điểm đặc trưng giữa hai khung hình được chụp đồng thời. Các cặp điểm tương đồng này sau đó được xử lý bằng thuật toán RANSAC để tính toán ma trận biến đổi hình học, cho phép căn chỉnh chính xác giữa ảnh rõ và ảnh mờ. Kết quả căn chỉnh này giúp việc chuyển nhãn từ hình ảnh gốc sang hình ảnh đã làm mờ trở nên tự động, chính xác và tiết kiệm đáng kể công sức chú giải thủ công.

Sau khi hoàn thiện quá trình huấn luyện, hệ thống chỉ cần vận hành với một camera duy nhất – camera làm mờ – trong giai đoạn triển khai thực tế. Điều này giúp tối ưu hóa chi phí, giảm nguy cơ rò rỉ dữ liệu và vẫn đảm bảo tính nhất quán của mô hình. Thiết kế mô-đun hóa này cho phép mở rộng quy mô triển khai trên diện rộng trong các môi trường đô thị thông minh, nơi nhiều thiết bị cảm biến có thể đồng bộ thu thập dữ liệu hình ảnh được bảo vệ quyền riêng tư ngay tại nguồn.

3 – PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp nghiên cứu được xây dựng trên nguyên tắc “quyền riêng tư theo thiết kế” (privacy-by-design), với mục tiêu tích hợp yếu tố bảo mật dữ liệu ngay trong toàn bộ vòng đời phát triển của hệ thống thị giác AIoT. Nghiên cứu triển khai qua bốn giai đoạn chính: thiết kế hệ thống phần cứng, xây dựng và xử lý dữ liệu, huấn luyện mô hình trí tuệ nhân tạo, và đánh giá triển khai thực nghiệm.

Ở giai đoạn thiết kế, nhóm nghiên cứu phát triển một hệ thống nhúng biên (embedded edge vision system) có khả năng thu thập dữ liệu trực tiếp từ camera được làm mờ, giúp đảm bảo thông tin nhận dạng cá nhân chưa bao giờ được lưu trữ hay truyền đi. Tại giai đoạn xử lý dữ liệu, các hình ảnh thu được từ hai camera được phân tích, gán nhãn và đồng bộ hóa. Để rút ngắn thời gian và công sức chú thích thủ công, nhóm tác giả sử dụng các mô hình thị giác đã được huấn luyện sẵn như DETR nhằm tự động phát hiện và gán nhãn đối tượng (cụ thể là phương tiện giao thông) trong ảnh sắc nét, sau đó kiểm tra và hiệu chỉnh bằng tay để đảm bảo tính chính xác. Những nhãn này được chuyển sang ảnh mờ thông qua phép biến đổi hình học thu được trong giai đoạn hiệu chỉnh camera.

Trong bước huấn luyện, các mô hình thị giác hiện đại như Faster R-CNN, YOLOv3–YOLOv13, DETR, Deformable DETR, DINO, và RT-DETR được lựa chọn để đánh giá năng lực phát hiện đối tượng trong dữ liệu mờ. Quá trình huấn luyện được thực hiện trên cả ba tập dữ liệu trong bộ StreetVault gồm ảnh sắc nét (S), ảnh mờ nhẹ (LB) và ảnh mờ mạnh (IB). Các mô hình được tinh chỉnh (fine-tuning) để học cách phát hiện phương tiện giao thông trong các điều kiện hình ảnh suy giảm chi tiết khác nhau.

Hiệu năng của hệ thống được đánh giá toàn diện qua các chỉ số chuẩn trong lĩnh vực thị giác máy: Recall, mIoU (mean Intersection over Union), mAP50mAP75, phản ánh khả năng phát hiện và định vị chính xác đối tượng. Đồng thời, nhóm tác giả đo lường hiệu suất xử lý theo FPS (Frames per Second) để xác định tính khả thi cho triển khai thời gian thực. Song song đó, các thước đo chất lượng ảnh như Laplacian Variance, SSIM, PSNR, và LPIPS được sử dụng để định lượng mức độ làm mờ và suy giảm thông tin. Cuối cùng, nhóm thực hiện thí nghiệm đánh giá quyền riêng tư bằng công cụ nhận dạng ký tự quang học PARSeq-OCR trên các ảnh biển số xe và kết hợp khảo sát thị giác người để kiểm chứng khả năng che giấu thông tin nhận dạng.

4 – KẾT QUẢ NGHIÊN CỨU

Kết quả thực nghiệm khẳng định rằng cơ chế làm mờ quang học tại điểm thu nhận dữ liệu là một giải pháp mạnh mẽ và hiệu quả cho việc bảo vệ quyền riêng tư hình ảnh. Cả mô hình OCR tự động lẫn người quan sát trong nhóm thử nghiệm đều không thể đọc được bất kỳ ký tự nào trên biển số xe ở các ảnh mờ nhẹ và mờ mạnh, kể cả khi áp dụng các thuật toán khử mờ tiên tiến như DeblurGANv2 hay HI-Diff. Điều này cho thấy các chi tiết nhận dạng đã bị loại bỏ vĩnh viễn ngay từ cảm biến, không thể khôi phục dù bằng các kỹ thuật xử lý ảnh sâu.

Về hiệu năng nhận dạng đối tượng, các mô hình AI được tinh chỉnh trên bộ dữ liệu StreetVault cho thấy cải thiện đáng kể so với khi chỉ huấn luyện trên dữ liệu chuẩn COCO. Cụ thể, mô hình YOLOv6 đạt Recall 0,929 khi huấn luyện trên ảnh sắc nét, trong khi YOLOv13 đạt 0,97 khi tinh chỉnh trên ảnh mờ nhẹ, và RT-DETR cùng YOLOv11 đạt khoảng 0,91 trên ảnh mờ mạnh. Những kết quả này chứng minh rằng khi được huấn luyện đúng cách, các mô hình AI có thể hoạt động hiệu quả ngay cả khi đầu vào đã được ẩn danh.

Bên cạnh đó, thí nghiệm công bằng giữa các nhóm mức độ mờ cho thấy hệ thống duy trì hiệu suất ổn định. Khoảng cách giữa nhóm hình ảnh rõ và mờ được thu hẹp đáng kể sau quá trình tinh chỉnh, với Recall gap giảm từ 0,338 xuống còn 0,202. Điều này chứng tỏ tính bền vững của phương pháp khi triển khai trong các điều kiện thực tế khác nhau. Hơn nữa, việc đánh giá tốc độ xử lý cho thấy các mô hình nhẹ có thể đạt từ 10 đến 30 khung hình mỗi giây trên thiết bị nhúng, đáp ứng yêu cầu thời gian thực cho các nhiệm vụ như đếm lưu lượng, giám sát giao thông hay phân tích an toàn giao lộ.

Nhóm nghiên cứu cũng ghi nhận rằng việc huấn luyện mô hình trực tiếp trên dữ liệu bị làm mờ giúp loại bỏ sai lệch miền dữ liệu (domain shift) thường gặp khi dùng dữ liệu tổng hợp. Hệ thống không chỉ bảo đảm an toàn dữ liệu mà còn duy trì năng lực phân tích chính xác các thông tin phi nhận dạng phục vụ quy hoạch và vận hành đô thị thông minh.

5 – KẾT LUẬN

Nghiên cứu đã đề xuất và chứng minh hiệu quả của một giải pháp thị giác AIoT hướng đến quyền riêng tư theo thiết kế, trong đó quyền riêng tư được tích hợp ngay từ cấp phần cứng – thông qua kỹ thuật làm mờ quang học tại điểm thu nhận hình ảnh. Cách tiếp cận này giúp ngăn chặn hoàn toàn việc thu thập dữ liệu nhạy cảm, đồng thời cho phép hệ thống vẫn vận hành trơn tru cho các nhiệm vụ phân tích tình huống, giám sát và dự báo trong môi trường đô thị thông minh.

Khác với các phương pháp ẩn danh hậu xử lý vốn đòi hỏi năng lực tính toán cao và vẫn tồn tại rủi ro rò rỉ dữ liệu gốc, kỹ thuật làm mờ cảm biến mang lại ưu thế về tốc độ, chi phí và khả năng mở rộng. Nhờ cơ chế chuyển giao tri thức từ miền ảnh sắc nét sang miền ảnh mờ, các mô hình AI vẫn đạt độ chính xác cao trong khi duy trì mức độ bảo vệ thông tin cá nhân tuyệt đối. Điều này đặc biệt quan trọng trong bối cảnh AIoT đang mở rộng nhanh chóng, đòi hỏi sự cân bằng giữa lợi ích công nghệ và quyền riêng tư cá nhân.

Ngoài ra, hệ thống được thiết kế để vận hành linh hoạt trên nhiều nền tảng tính toán – từ xử lý tại thiết bị biên, trong mạng cục bộ đến xử lý trên đám mây – mà vẫn duy trì mô hình đe dọa bảo mật thống nhất. Kết quả nghiên cứu mở ra hướng ứng dụng tiềm năng cho các hệ thống phân tích an toàn giao thông, giám sát hạ tầng và đánh giá rủi ro đô thị dựa trên dữ liệu hình ảnh ẩn danh. Trong tương lai, việc mở rộng bộ dữ liệu StreetVault cho nhiều bối cảnh khác nhau (ngày – đêm, điều kiện thời tiết, người đi bộ và xe đạp) sẽ tiếp tục củng cố và hoàn thiện khung giải pháp “quyền riêng tư theo thiết kế” trong các ứng dụng AI đô thị.