Исследование, опубликованное в Nature, представляет метод, который наделяет искусственный интеллект возможностями гомоморфного шифрования, позволяя безопасно выполнять глубокое обучение с подкреплением на зашифрованных данных. Подход дает моделям возможность обучаться, оценивать стратегии и принимать решения, не раскрывая исходные наблюдения или вознаграждения, устраняя одно из наиболее стойких препятствий для внедрения обучения с подкреплением в конфиденциальных средах.
Работа нацелена на центральную проблему: обучение с подкреплением зависит от быстрого, итеративного обмена информацией между агентами и средами, тогда как во многих отраслях данные не могут покидать защищённые системы в открытом виде. Применяя гомоморфное шифрование — криптографию, позволяющую выполнять арифметические операции непосредственно над зашифрованными данными, — исследователи разработали процедуры обучения и конвейеры данных, которые сохраняют опыт, градиенты и действия в режиме сквозного шифрования, одновременно продвигая оптимизацию стратегий.
Чтобы снизить значительные вычислительные накладные расходы, исторически присущие гомоморфному шифрованию, команда представила системные методы, включая тщательный выбор операторов, стратегии пакетной обработки и числовые представления, адаптированные к вычислениям над зашифрованными данными. В сочетании с повторным воспроизведением опыта и защищённой инфраструктурой данных прототип демонстрирует, что практическое обучение и вывод возможны при сохранении шифрования, а точность остаётся в приемлемых пределах, что делает метод пригодным для сценариев в здравоохранении, финансах и промышленном управлении, где конфиденциальность не подлежит компромиссам.
Полученные результаты свидетельствуют о более широкой конвергенции криптографии и инфраструктуры машинного обучения, с последствиями для межорганизационного сотрудничества, соблюдения регуляторных требований и ИИ, работающего на данных в месте их хранения. В качестве следующих шагов в исследовании выделяются масштабирование на более крупные модели, достижение жёстких требований по задержке для управления в реальном времени и разработка стандартизированных интерфейсов и инструментов, чтобы сделать зашифрованное обучение с подкреплением доступным практикующим специалистам.