CyberKoala

XR туториалы | Разработка VR/AR приложений и игр. Создание и внедрение VR арен для бизнеса

0
Ваша корзина

Геометрические интерпретации глубокого обучения

Геометрическое глубокое обучение (Geometric Deep Learning) – это попытка свести к геометрическому обоснованию широкий класс ML задач с точки зрения симметрии и инвариантности. Эти принципы не только лежат в основе прорывных характеристик сверточных нейронных сетей и успеха графовых нейронных сетей, но и обеспечивают принципиальный способ построения новых типов индуктивных смещений (biases), специфичных для конкретных задач. Как геометрические интерпретации помогают в решении задач?

В октябре 1872 года философский факультет небольшого университета в баварском городе Эрланген попросил выступить молодого профессора с первой исследовательской программой, которую он опубликовал под несколько длинным и скучным названием “Сравнительный обзор последних исследований в области геометрии”. Профессором был Феликс Кляйн, которому в то время было всего 23 года, и его первая работа вошла в анналы математики как “Эрлангенская программа” [1].

Феликс Кляйн и его Эрлангенская программа. Изображение: Википедия/ Исторические математические коллекции Мичиганского университета.

Девятнадцатый век был удивительно плодотворным для геометрии. Впервые почти за две тысячи лет после Евклида, построения проективной геометрии Понселе, гиперболической геометрии Гаусса, Больяи и Лобачевского, а также эллиптической геометрии Римана показало, что возможен целый зоопарк разнообразных геометрий. Однако эти построения быстро разделились на независимые и несвязанные области, и многие математики того периода задавались вопросом, как различные геометрии связаны друг с другом и что на самом деле определяет геометрию.

Прорывное понимание Клейна состояло в том, чтобы подойти к определению геометрии как к изучению инвариантов, или, другими словами, структур, которые сохраняются при определенном типе преобразований (симметрий). Клейн использовал формализм теории групп для определения таких преобразований и использовал иерархию групп и их подгрупп для классификации различных геометрий, возникающих из них. Таким образом, группа жестких перемещений приводит к традиционной евклидовой геометрии, в то время как аффинные или проективные преобразования дают, соответственно, аффинную и проективную геометрии. Важно отметить, что программа Эрлангена была ограничена однородными пространствами [2] и первоначально исключала риманову геометрию.

Эрлангенская программа Клейна подходила к геометрии как к изучению свойств, остающихся инвариантными при определенных типах преобразований. Плоская евклидова геометрия определяется жесткими преобразованиями (изометрическими группами), которые сохраняют площади, расстояния и углы, а следовательно, и параллельность. Аффинные преобразования сохраняют параллелизм, но не расстояния и не площади. Проективные преобразования имеют самую слабую инвариантность, при этом сохраняются только пересечения и перекрестные соотношения, и соответствуют самой большой группе из трех. Таким образом, Клейн утверждал, что проективная геометрия является наиболее общей.

Влияние Эрлангенской программы на геометрию и математику в целом было очень глубоким. Оно также распространилось на другие области, в особенности на физику, где соображения симметрии позволили вывести законы сохранения из первых принципов — удивительный результат, известный как теорема Нетёр

Теорема Нётер утверждает, что каждой непрерывной симметрии физической системы соответствует некоторый закон сохранения:

Теорема обычно формулируется для систем, обладающих функционалом действия, и выражает собой инвариантность лагранжиана по отношению к некоторой непрерывной группе преобразований.

Потребовалось несколько десятилетий, прежде чем этот фундаментальный принцип — через понятие калибровочной инвариантности (в его обобщенной форме, разработанной Янгом и Миллсом в 1954 году) — оказался успешным в объединении всех фундаментальных сил природы, за исключением гравитации. Это то, что называется Стандартной моделью, и она описывает всю физику, которую мы знаем в настоящее время.

По большому счету текущее состояние дел в области глубокого (репрезентативного) обучения напоминает ситуацию с геометрией в девятнадцатом веке: с одной стороны, за последнее десятилетие глубокое обучение произвело революцию в науке о данных и сделало возможными многие задачи, которые ранее считались недостижимыми — будь то компьютерное зрение, распознавание речи, перевод на естественный язык или китайская игра в Го. С другой стороны, теперь у нас есть целый арсенал различных архитектур нейронных сетей для разных типов данных, но мало объединяющих принципов. Как следствие, трудно понять взаимосвязь между различными методами, что неизбежно приводит к переосмыслению и переопределению одних и тех же концепций.

Глубокое обучение: зоопарк архитектур. Источник: ShutterStock

Геометрическое глубокое обучение – это обобщающий термин, который вводится в [5], ссылаясь на недавние попытки придумать геометрическую унификацию ML, аналогичную программе Кляйна в Эрлангене. Он служит двум целям: во-первых, обеспечить общую математическую основу для получения наиболее успешных архитектур нейронных сетей, а во-вторых, дать конструктивную процедуру для принципиального построения будущих архитектур.

Машинное обучение с учителем (supervised ML) в его простейшей постановке – это, по сути, задача оценки функции: учитывая выходные данные некоторой неизвестной функции на обучающем наборе (например, помеченные изображения собак и кошек), пытаются найти функцию f из некоторого класса гипотез, которая хорошо соответствует обучающим данным и позволяет прогнозировать выходные данные на основе ранее невидимых входных данных. В последнее десятилетие доступность больших высококачественных наборов данных, таких как ImageNet, совпала с ростом вычислительных ресурсов (графических процессоров), что позволило разрабатывать расширенные функциональные классы, способные интерполировать такие большие наборы данных.

Нейронные сети кажутся подходящим выбором для представления функций, потому что даже самая простая архитектура, такая как Персептрон, может создавать плотный класс функций при использовании всего двух слоев, позволяя аппроксимировать любую непрерывную функцию с любой желаемой точностью — свойство, известное как универсальная аппроксимация [6].

Многослойные персептроны являются универсальными аппроксиматорами: всего с одним скрытым слоем они могут представлять комбинации ступенчатых функций, позволяя аппроксимировать любую непрерывную функцию с произвольной точностью.

Постановка этой задачи в малых размерностях является классической задачей теории аппроксимации. Но в больших размерностях ситуация совершенно иная: можно быстро увидеть, что для аппроксимации даже простого класса, например, непрерывных функций Липшица, количество выборок растет экспоненциально с увеличением размерности — явление, известное в просторечии как “проклятие размерности”. Поскольку современные методы машинного обучения должны работать с данными в тысячах или даже миллионах измерений, проклятие размерности всегда остается за кадром, делая такой наивный подход к обучению невозможным.

График функции, удовлетворяющей условию Липшица при 9aa Источник: LiveJournal
Иллюстрация проблемы размерности: для того, чтобы аппроксимировать непрерывную функцию Липшица, состоящую из гауссовых ядер, размещенных в квадрантах d-мерного единичного гиперкуба (синий) с ошибкой ε, требуется 𝒪(1/eᵈ) выборок (красные точки).

Данная проблема размерности, наиболее хорошо проявляется в задачах компьютерного зрения, таких как классификация изображений. Последние, как правило, очень многомерны, но интуитивно они имеют большую структуру, которая нарушается и отбрасывается, когда кто-то преобразует изображение в вектор, чтобы передать его в Персептрон. Если изображение оказалось сдвинуто всего на один пиксель, векторизованные входные данные будут сильно отличаться, и нейронной сети нужно будет показать много примеров данного изображения, чтобы узнать, что сдвинутые входные данные должны быть классифицированы таким же образом [7].

Входной сигнал (изображение x∈𝒳(Ω)) определяется в области (сетке Ω), симметрия которой (группа трансляции 𝔊) действует в пространстве сигналов через групповое представление ρ(𝔤) (оператор сдвига). Предположение о том, как функции f (например, классификатор изображений) взаимодействуют с группой, ограничивает класс гипотез.

К счастью, во многих случаях многомерных ML задач есть дополнительная структура, которая исходит из геометрии входного сигнала. Существует неформальное понятие “предшествующая симметрия”, и это мощный принцип, который вселяет оптимизм в описанных выше проблемах, связанных с размерностью. В нашем примере классификации изображений входное изображение x представляет собой не просто d-мерный вектор, а сигнал, определенный в некоторой области Ω, которая в данном случае представляет собой двумерную сетку. Структура области фиксируется группой симметрии 𝔊 — группой 2D—перемещений в нашем примере, – которая воздействует на точки области. В пространстве сигналов 𝒳(Ω) групповые действия (элементы группы, 𝔤∈𝔊) в базовой области проявляются через то, что называется групповой репрезентаций ρ(𝔤) — в нашем случае это оператор сдвига, матрица d×d, которая действует на d-мерный вектор [8].

Геометрическая структура области, лежащей в основе входного сигнала, накладывает структуру на класс функций f, которые мы пытаемся получить. Можно иметь инвариантные функции, на которые не влияет действие группы, т.е. f(ρ(𝔤)x)= f(x) для любых 𝔤∈𝔊 и x. С другой стороны, может быть случай, когда функция имеет одинаковую структуру ввода и вывода и преобразуется так же, как и сами входные данные — такие функции называются эквивариантными и удовлетворяют равенству f(ρ(𝔤)x)=ρ(𝔤)f(x) [9]. В области компьютерного зрения классификация изображений является хорошей иллюстрацией настройки, в которой требуется инвариантная функция (например, независимо от того, где на изображении находится кошка, мы все равно хотим классифицировать ее как кошку), в то время как сегментация изображения, где выходными данными является метка – хороший пример эквивариантной функции (маска сегментации должна следовать за преобразованием входного изображения).

Еще одним мощным геометрическим приором является “разделение масштаба”. В некоторых случаях мы можем построить многомасштабную иерархию областей(Ω и Ω’ на рисунке ниже), “ассимилируя” близлежащие точки и создавая также иерархию сигнальных пространств, которые связаны оператором крупномасштабного анализа P. На этих грубых масштабах мы можем применять функции крупного масштаба. Мы говорим, что функция f локально устойчива, если ее можно аппроксимировать как композицию крупнозернистого оператора P и крупномасштабной функции f≈f’∘P. В то время как f может зависеть от дальнодействующих зависимостей, если он локально стабилен, они могут быть разделены на локальные взаимодействия, которые затем распространяются в сторону грубых масштабов [10].

Разделение масштаба, где мы можем аппроксимировать функцию уровня f как композицию f≈f’ * P функции грубого уровня f’ и оператора “зернистости” P.

Эти два принципа дают нам общую схему геометрического глубокого обучения, которая прослеживается в большинстве популярных архитектур глубоких нейронных сетей, используемых для репрезентативного обучения: типичный дизайн состоит из последовательности эквивариантных слоев (например, сверточных слоев в СНС), за которыми, возможно, следует инвариантный глобальный объединяющий слой (global pooling), объединяющий все в цельный выход.

Геометрическое глубокое обучение

Данная архитектура может быть применена к различным типам геометрических структур, таким как сетки, однородные пространства с глобальными группами преобразований, графы (и множества, как частный случай) и многообразия, где имеется глобальная инвариантность изометрии и локальные калибровочные симметрии. Реализация данных принципов позволила создать некоторые из самых популярных архитектур, существующих сегодня в глубоком обучении: Сверточные Нейронные Сети (CNN), Графовые Нейронные Сети (GNN), DeepSet [11] и Transformer [12]. Данные архитектуры реализуют инвариантность перестановок, RNN (такие как сети LSTM), которые являются инвариантными к деформации во времени [13] и Intrinsic Mesh CNN [14], используемым в компьютерной графике и зрении.

“5G” геометрического глубокого обучения: Grids, Group (однородные пространства с глобальными симметриями), Graphs (и множества как частный случай) и многообразия (мanifolds), где геометрические свойства проявляются через глобальную инвариантность изометрии.