STRATEGY FOR PROTECTING PERSONAL DATA IN MACHINE LEARNING SYSTEMS

Марія Позднякова

doi:10.28925/2663-4023.2025.31.1016

Автор(и)

Марія Позднякова Keywords Studios Limited https://orcid.org/0009-0004-5850-7581

DOI:

https://doi.org/10.28925/2663-4023.2025.31.1016

Ключові слова:

інференс на мобільних пристроях, оптимізація нейронних архітектур, квантизація, прунінг (проріджування моделей), компроміс між енергоспоживанням і затримкою, метааналіз, процесори ARM.

Анотація

Масивні обсяги персональних даних живлять сучасні конвеєри машинного навчання, але саме це «паливо» водночас створює ризики для приватності. У цьому дослідженні зібрано й переосмислено розрізнені емпіричні дані щодо методів збереження конфіденційності – диференційної приватності, федеративної оптимізації, захищеної агрегації, приватного трансферного навчання та повністю гомоморфного шифрування – і перетворено їх на практичну стратегію, якою фахівці можуть користуватися без здогадок. Замість того щоб збирати нові набори даних, ми переглядаємо дванадцять рецензованих експериментів 2021–2025 років, повторно аналізуємо їхні метрики та зіставляємо результати з регуляторними порогами, встановленими GDPR і проєктом Акта ЄС про штучний інтелект.

Метааналіз показує, що за збереження «бюджету приватності» на рівні двох або нижче втрати macro-F1 залишаються меншими ніж три відсоткові пункти для задач комп’ютерного зору, мовлення та клінічних застосунків. Водночас енергетичні витрати зростають у медіанному вираженні приблизно у 2,1 раза. Показово, що розпізнавання голосових команд за DP-SGD стало стабільнішим, імовірно завдяки зменшенню перенавчання. На основі цих спостережень ми пропонуємо багаторівневу матрицю прийняття рішень: дані з високою чутливістю потребують DP-SGD з адаптивним обрізанням норм градієнтів; географічно фрагментовані вибірки виграють від федеративного навчання в поєднанні з пороговою агрегацією; розгортання в недовірених хмарних середовищах вимагає легковагової гомоморфної інференції; якщо ж жодна з наведених опцій не підходить, приватне трансферне навчання на анонімізованих вбудовуваннях залишається надійним резервним варіантом.

Для перевірки матриці було змодельовано три синтетичні, але наближені до реальності сценарії – сортування пацієнтів у відділеннях інтенсивної терапії, автоматизацію «розумного дому» та прогнозування лояльності в роздрібній торгівлі, – які демонструють, як змінюються компроміси за різних обмежень щодо затримки, пропускної здатності та юридичних ризиків. Запропонована концепція, названа «еластичністю приватності», дає змогу кількісно оцінювати, наскільки можна змінювати якість моделі, не порушуючи прав окремих осіб, і формує практичні орієнтири для інженерів і фахівців із комплаєнсу.

Поєднуючи емпіричні дані з етичними та правовими вимогами, стаття виходить за межі звичайного огляду. Вона пропонує цілісну теоретичну рамку та зручний у використанні інструмент. Стверджується, що захист приватності вже не є «накладною» опцією: сьогодні це розгалужене дерево рішень, яким можна цілеспрямовано користуватися, оцінювати й – за належної обережності – частково автоматизувати.

Завантаження

Дані завантаження ще не доступні.

Посилання

Taibi, I., & Ramon, J. (2024). Honest fraction differential privacy. Proceedings of the 2024 ACM Workshop on Information Hiding and Multimedia Security (pp. 247–251). ACM. https://doi.org/10.1145/3658664.3659655

Shamsabadi, A. S., Tan, G., Cebere, T. I., Bellet, A., Haddadi, H., Papernot, N., Wang, X., & Weller, A. (2024). Confidential-DPproof: Confidential proof of differentially private training. In 12th International Conference on Learning Representations (ICLR 2024). https://openreview.net/forum?id=PQY2v6VtGe

Xu, R., Li, B., Li, C., Joshi, J. B. D., Ma, S., & Li, J. (2025). TAPFed: Threshold secure aggregation for privacy-preserving federated learning. IEEE Transactions on Dependable and Secure Computing (advance online publication). https://doi.org/10.1109/TDSC.2024.3350206

Byun, S., Sarker, A., Chang, S.-Y., & Byers, B. (2024). Secure aggregation for privacy-preserving federated learning in vehicular networks. ACM Journal on Autonomous Transportation Systems, 1(3), Article 24. https://doi.org/10.1145/3657644

Behnia, R., Chow, S. S. M., Riasi, A., Padmanabhan, B., Ebrahimi, R., & Hoang, T. (2024). e-SeaFL: Efficient secure aggregation for privacy-preserving federated machine learning. In 40th Annual Computer Security Applications Conference (ACSAC ’24) (pp. 135–150). https://arxiv.org/abs/2304.03841

Boscher, C., Benarba, N., Elhattab, F., & Bouchenak, S. (2024). Personalized privacy-preserving federated learning. Proceedings of the 25th ACM/IFIP International Middleware Conference (Middleware ’24) (pp. 348–361). https://doi.org/10.1145/3652892.3700785

Namatevs, I., Sudars, K., Nikulins, A., & Ozols, K. (2025). Privacy auditing in differential private machine learning: The current trends. Applied Sciences, 15(2), 647. https://doi.org/10.3390/app15020647

Liu, Q., Shakya, R., Khalil, M., & Jovanovic, J. (2025). Advancing privacy in learning analytics using differential privacy. In Proceedings of the 15th International Learning Analytics & Knowledge Conference (LAK 2025) (pp. 181–191). ACM. https://doi.org/10.1145/3706468.3706493

Ebel, A., Garimella, K., & Reagen, B. (2025). Orion: A fully homomorphic encryption framework for deep learning. In ASPLOS 2025 – 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems (pp. 734–749). https://doi.org/10.1145/3676641.3716008

Asghar, H. J., Lu, Z., Zhao, Z., & Kaafar, D. (2025). Practical, private assurance of the value of collaboration via fully homomorphic encryption. Proceedings on Privacy Enhancing Technologies, 2025(2), 258–279. https://doi.org/10.56553/popets-2025-0061

Zhang, F., Zhai, D., Bai, G., Jiang, J., Ye, Q., Ji, X., & Liu, X. (2025). Towards fairness-aware and privacy-preserving enhanced collaborative learning for healthcare. Nature Communications, 16, 2852. https://doi.org/10.1038/s41467-025-58055-3

Haripriya, R., Khare, N., & Pandey, M. (2025). Privacy-preserving federated learning for collaborative medical data mining in multi-institutional settings. Scientific Reports, 15, 12482. https://doi.org/10.1038/s41598-025-97565-4