Анонимизация (Anonymization)
Анонимизация (деидентификация) — это процесс защиты частной или конфиденциальной информации путем стирания или шифрования идентификаторов, которые хранимые данные с тем или иным человеком или организацией. Речь идет об именах, ИНН, адресах, банковских картах и т.д.
Методы
- Маскировка данных — скрытие данных с измененными значениями. Вы можете создать зеркальную версию базы данных и применить методы модификации, такие как перетасовка символов, шифрование и замена слов или символов. Например, вы можете заменить символ значения таким символом, как «*» или «x». Маскировка данных делает невозможным обратный инжиниринг или обнаружение.
- Псевдонимизация — метод управления данными, при котором частные идентификаторы заменяются поддельными идентификаторами или псевдонимами, например, замена идентификатора «Джон Смит» на «Марк Спенсер». Псевдонимизация сохраняет статистическую точность и целостность данных, позволяя использовать измененные данные для обучения, разработки, тестирования и аналитики, защищая при этом конфиденциальность данных.
- Обобщение — преднамеренно удаляет некоторые данные, чтобы сделать их менее идентифицируемыми. Данные могут быть преобразованы в набор диапазонов или широкую область с соответствующими границами. Вы можете удалить номер дома из адреса, но не удаляйте название дороги. Цель состоит в том, чтобы исключить некоторые идентификаторы, сохранив при этом некоторую точность данных.
- Обмен данными (перетасовка, перестановка) – метод, используемый для перестановки значений атрибутов набора данных, чтобы они не соответствовали исходным записям. Например, перетасовка дат рождения.
- Пертурбация данных немного изменяет исходный набор данных, применяя методы, которые округляют числа и добавляют случайный шум. Диапазон значений должен быть пропорционален искажению. Небольшое искажение может привести к слабой анонимности, а большое – снизить полезность набора данных. Например, вы можете использовать основание 5 для округления таких значений, как возраст или номер дома, потому что оно пропорционально исходному значению. Вы можете умножить номер дома на 15, и значение может сохранить свою достоверность. Однако использование более радикального основания, такого как 15, может сделать значения возраста некорректными.
- Синтезирование данных — алгоритмически созданная информация, не имеющая связи с реальной. Синтетические данные используются для создания искусственных наборов данных вместо изменения исходного набора данных или использования его как есть, что ставит под угрозу конфиденциальность и безопасность. Процесс включает в себя создание статистических моделей на основе шаблонов, найденных в исходном наборе данных. Вы можете использовать стандартные отклонения, медианы, линейную регрессию или другие статистические методы для создания синтетических данных.
Автор оригинальной статьи: imperva.com