NVIDIA GC ViT: новая архитектура нейросети

Vision Transformer (ViT) стала одной из самых передовых архитектур для решения задач компьютерного зрения (CV) в современных архитектурах типа Transformer, связанных с обработкой естественного языка. По сравнению с традиционными методами CNN, эта модель на основе трансформера демонстрирует исключительные возможности в моделировании информации ближнего и дальнего действия. Квадратичная вычислительная сложность, которую требует ViT, делает моделирование изображений с высоким разрешением непомерно дорогим. Данный факт является фундаментальным ограничением для дальнейшей разработки и применения ViT. Команда исследователей NVIDIA предложила уникальный, но простой иерархический дизайн ViT под названием Global Context Vision Transformer (GC ViT). Модули глобального self-attention и генерации токенов этой архитектуры позволяют эффективно моделировать без дорогостоящих вычислений, обеспечивая при этом высочайшую производительность в различных задачах компьютерного зрения. Команда предложила эту архитектуру в своей недавней статье под названием Global Context Vision Transformers.

Архитектура GC ViT имеет иерархическую структуру, которая легко захватывает репрезентации объектов в различных разрешениях. Когда задается входное изображение, модель применяет заранее определенный сверточный слой с соответствующим заполнением (padding) для создания перекрывающихся участков. По мнению исследовательской группы, подход может быть использован в качестве общей основы для различных задач компьютерного зрения, включая классификацию, обнаружение и сегментацию. Простая структура модели, которая позволяет моделировать соединения на короткие и большие расстояния путем сбора глобальной контекстуальной информации, снижает необходимость в сложных вычислениях. GC ViT с большим отрывом превосходит как модели на основе CNN, так и модели на основе ViT, достигая новых современных контрольных показателей в наборе данных ImageNet-1K для различных размеров моделей. GC ViT также обеспечивает производительность SOTA в наборах данных MS COCO и ADE20K для обнаружения объектов и семантической сегментации.

Каждый этап обработки GC ViT чередуется между локальными и глобальными модулями self-attention для извлечения пространственных объектов. Глобальный механизм self-attention получает доступ к инновационным функциям глобального генератора токенов. Сгенерированные объекты затем передаются через averrage pool и линейные слои, чтобы обеспечить встраивание для последующих задач. В своих эмпирических экспериментах исследователи протестировали предложенные задачи GC ViTon CV, такие как классификация изображений, обнаружение возражений, сегментация экземпляров и семантическая сегментация. Предложенную командой архитектуру можно обобщить, чтобы эффективно охватить общий контекст и добиться производительности SOTA при выполнении задач CV. Хотя GC ViT не увеличивает вычислительные затраты, обучение по-прежнему является несколько дорогостоящим, независимо от архитектуры Transformer. Исследователи добавляют, что такие стратегии, как снижение точности или квантование, могут сделать обучение GC ViT более эффективным.

Доступ к коду GC ViT также можно получить на странице проекта GitHub.

Статья: https://arxiv.org/pdf/2206.09959.pdf

Github: https://github.com/NVlabs/GCViT

Подпишись на новостную рассылку:

[newsletter_form type=”minimal”]

Стань дата инженером: https://cyberkoalastudios.com/groups/de-from-zero/

0
    0
    Ваша корзина
    Ваша корзина пустаВернуться к курсам