OpenSource платформа для конфиденциальных ML исследований

Исследователи из Мичиганского университета опубликовали самый большой на сегодняшний день набор сравнительных данных для метода машинного обучения, разработанного с учетом конфиденциальности данных.

Источник: https://arxiv.org/abs/2105.11367

Этот подход, называемый федеративным обучением, обучает модели обучения на устройствах конечных пользователей, таких как смартфоны и ноутбуки, вместо того, чтобы требовать передачи личных данных на центральные серверы.

“Обучаясь на месте на данных, где они генерируются, мы можем тренироваться на больших реальных данных”, – объяснил Фан Лай, доктор в области компьютерных наук и инженерии, который представляет среду обучения FedScale на Международной конференции по машинному обучению.

Все еще являясь новой технологией, федеративное обучение опирается на алгоритм, который служит централизованным координатором. Он доставляет модель на устройства, обучает ее локально на основе соответствующих пользовательских данных, а затем возвращает каждую частично обученную модель обратно и использует их для создания окончательной глобальной модели.

Для ряда приложений этот рабочий процесс обеспечивает дополнительную защиту конфиденциальности и безопасности данных. Приложения для обмена сообщениями, медицинские данные, личные документы и другие конфиденциальные, но полезные учебные материалы могут улучшать модели, не опасаясь уязвимостей центров обработки данных.

В дополнение к защите конфиденциальности, федеративное обучение может сделать обучение модели более ресурсоэффективным за счет сокращения, а иногда и исключения передачи больших объемов данных, но оно сталкивается с рядом проблем, прежде чем его можно будет широко использовать. Обучение на нескольких устройствах означает, что нет никаких гарантий относительно доступных вычислительных ресурсов, а такие неопределенности, как скорость подключения пользователя и характеристики устройства, приводят к тому, что пул вариантов данных отличается качеством.

И вот тут на помощь приходит FedScale. Платформа может имитировать поведение миллионов пользовательских устройств на нескольких графических процессорах , позволяя разработчикам моделей машинного обучения исследовать, как будет работать их объединенная программа обучения без необходимости крупномасштабного развертывания. Она выполняет множество популярных задач обучения, включая классификацию изображений, обнаружение объектов, языковое моделирование, распознавание речи и машинный перевод.

“Все, что использует машинное обучение для обработки данных конечных пользователей, может быть объединено”, – сказал Чоудхури. “Приложения должны иметь возможность изучать и улучшать то, как они предоставляют свои услуги, фактически не записывая все, что делают их пользователи”.

Авторы указывают несколько условий, которые необходимо учитывать, чтобы реалистично имитировать процесс федеративного обучения: неоднородность данных, разнородность устройств, разнородные условия подключения и доступности, и все это с возможностью работы в нескольких масштабах для широкого спектра задач машинного обучения. По словам Чоудхури, наборы данных FedScale являются самыми большими на сегодняшний день, которые специально предназначены для решения этих задач в области федеративного обучения.

Команда FedScale также запустила таблицу лидеров для продвижения наиболее успешных решений для федеративного обучения

Препринт: Fan Lai et al, FedScale: Benchmarking Model and System Performance of Federated Learning at Scale. arXiv:2105.11367v5 [cs.LG], arxiv.org/abs/2105.11367

Курсы: https://cyberkoalastudios.com/groups-all/

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

0
    0
    Ваша корзина
    Ваша корзина пустаВернуться к курсам