ИИ теперь может играть в Minecraft

После создания впечатляющих моделей в области обработки языка (GPT-3) и преобразования текста в изображение (DALL·E 2) OpenAI теперь сталкивается с, возможно, более сложной задачей: открытым действием. В великой задаче решения так называемого общего искусственного интеллекта (AGI) язык и зрение – не единственные области, в которых ИИ должен преуспеть. GPT-3 и DALL·E 2 чрезвычайно хороши в своей области, но какими бы могущественными они ни были, они остаются ограниченными в своих виртуальных мирах.

Шариф Шамим был одним из самых первых испытателей GPT-3. Он понял, что модель GPT-3 может быть применена для решения задач кодирования, что в конечном итоге привело OpenAI к разработке Codex, который теперь встроен в GitHub Copilot. Программист решил пойти дальше и заставить GPT-3 купить пару AirPods в Walmart. Хотя GPT-3 зашла довольно далеко, но все же не смогла успешно выполнить поставленную задачу. Язык – мощный инструмент, но он не является абсолютным.

GPT-3 потерпела неудачу, потому что то, что она пыталась сделать, относится к определенному классу способностей. Подобно управлению компьютером и навигации по физическому миру, поиск в Интернете – это по своей сути открытая деятельность, требующая такой формы интеллекта, которой не хватает современному ИИ. Это то, что OpenAI сейчас пытается решить, и они начали с обучения ИИ играть в Minecraft, подражая людям.

VPT: Начало открытого обучения


Minecraft – это игра с открытым миром. Это означает, что игроки могут делать много разных вещей и выполнять много разных действий, не обязательно следуя заранее определенному пути. Кроме того, в нее особенно легко играть и понимать, что, безусловно, сделало ее самой популярной игрой в мире на данный момент.

Эти особенности делают его идеальным кандидатом. На YouTube и других платформах записаны тысячи часов игрового процесса. Это огромное количество обучающих данных, ожидающих своего часа. Однако эти наборы данных не размечаны, и геймеры не утруждают себя объяснением того, как сделать что-либо в игре. Они показывают только результат: если игрок строит дом в Minecraft, вы увидите, что он делает — действия, но не то, как он это делает — команды остаются за кадром.

OpenAI представила свое решение пару дней назад в своем блоге статье). Видео-ПредОбучение (VPT), как его называют, представляет собой “метод имитационного обучения с полу помощью учителя”. Чтобы наилучшим образом использовать имеющиеся данные, исследователи разделили процесс обучения на два этапа (они доказывают, что такой подход дает лучшие результаты, чем монолитный процесс). Сначала они обучают нейронную сеть под названием inverse dynamics model (IDM) на небольшом наборе данных (2 тысячи часов видео Minecraft) с метками команд действий. Эта модель учится прогнозировать действия на основе “прошлой и будущей информации”.

Чтобы провести аналогию, это все равно, что пытаться угадать действие в видео, видя начало и конец, но не середину. Знание того, как происходит действие, дает IDM явное преимущество, которого нет в реальном мире (т.е. мы знаем, что произошло, но не то, что произойдет).

Во-вторых, IDM используется для маркировки оставшихся 70 тыс. часов видео и обучения базовой модели VPT (примечание: термин базовая модель все еще широко обсуждается в сообществе искусственного интеллекта и не является общепринятой номенклатурой по умолчанию для больших нейронных сетей). Затем полная нейронная сеть VPT может научиться предсказывать будущие кадры с учетом прошлых кадров, используя больший помеченный набор данных в качестве обучающих данных. Это дает VPT способность, которую OpenAI называет “поведенческим клонированием” — обучение копированию действий, видя их.

minecraft-ai-vpt
Обзор VPT. Автор: OpenAI

Используя новый подход, VPT научился выполнять некоторые базовые задачи в Minecraft, которые выполняют игроки (например, плавание, поедание пищи или охота), что было бы невозможно с помощью предыдущих решений, таких как обучение с подкреплением (RL). Настройки открытого мира не обеспечивают необходимых ограничений, которые требуются моделям RL. Шахматы или Го, например, были освоены с помощью комбинации RL и алгоритмов поиска (например, AlphaZero). Это стало возможным только потому, что настройки и правила крайне ограничены. Очень легко давать награды за действия в шахматах, но не так просто в Minecraft или, если уж на то пошло, в реальном мире.

VPT можно дополнительно доработать с помощью видеороликов с конкретными задачами, чтобы направить модель на изучение сложных действий, например, необходимых для строительства дома (для чего, помимо прочего, требуются инструменты для крафта). OpenAI также доказывает, что VPT может быть успешно использован в качестве априорного для метода RL. VPT “действует” как живые игроки, и это делает его “гораздо лучшим стартовым алгоритмом для RL(Reinforcment Learning)” (т.е. следовать человеческим действиям лучше, чем использовать случайные действия в качестве начальной точки, как это обычно бывает в RL).

OpenAI решила открыть помеченные данные, код и веса, чтобы помочь дальнейшим исследованиям этого подхода.

VPT и человеческий интеллект


VPT – это важный шаг вперед в создании агентов искусственного интеллекта с открытым исходным кодом. И концепция может выйти за рамки обучения с подкреплением в условиях, которые слишком сложны для определения разумных критериев.

Важно уточнить, что эта новая парадигма все еще далека от того, чтобы обеспечить ИИ интеллектом, подобным человеческому. Эти три нетривиальных различия между VPT и людьми могут показать, насколько мы далеки от мечты OpenAI об AGI(Artificial general intelligence).

Имитация против оригинального действия


В когнитивных науках хорошо известно, что младенцы учатся не только путем наблюдения, но и путем воплощения действий (путем подражания). Как социальные животные, мы развиваемся в нашем взаимодействии с другими людьми даже с самого раннего возраста. VPT – это шаг вперед в этом отношении. Поведенческое клонирование заключается именно в копировании процесса, основанного на действии, и повторении его до тех пор, пока процесс не будет усвоен. Тем не менее, данная концепция не сильно отличается от способности GPT-3 предсказывать следующий токен, учитывая историю предыдущих.

Хотя подражание играет ключевую роль в раннем когнитивном развитии человека, вскоре мы начинаем экспериментировать сами. Мы действуем оригинально, потому что, в отличие от VPT, у нас есть доступ к игровой площадке, которая позволяет нам учиться во время игры. Процессы обратной связи, которые управляют мозгом, всегда принимают новую информацию, чтобы обновить наши модели мира. Если малыш построит башню из кирпичей и будет толкать ее до тех пор, пока кирпичи не упадут, он узнает что-то новое об окружающем мире. VPT ни в каком смысле не может этого сделать.

Виртуальный мир против физического мира


Существует некоторый параллелизм между подходом VPT к проблеме открытого виртуального действия и подходом самоуправляемых автомобилей к проблеме ограниченного действия в реальном мире. Оба они затрагивают область действия, которая выходит за рамки восприятия или языка. И то, и другое крайне ограничено. Самоуправляемые автомобили предназначены для навигации по миру с очень конкретными целями в качестве мотивации: проехать из пункта А в пункт Б, ничего не трогая, соблюдая правила дорожного движения. Все ещё автономное вождение далеко от человеческой способности ориентироваться в мире.

Способность VPT ориентироваться в мире Minecraft также не соответствует подражанию человеческим действиям. Даже если видеоигра значительно сложнее, чем шахматы и Го, она все равно чрезвычайно ограничена по сравнению с физическим миром. VPT выучил несколько команд и то, как упорядоченная комбинация из них приводит к согласованному действию (хотя согласованность вводится нами, а не самой системой). Но реальный мир не работает с простыми командами. Наш мозг использует набор сложных — и не до конца понятных — процессов для обработки мультимодальных восприятий, которые посылает мир, и преобразования их в действия посредством планирования и принятия решений. Это может быть не просто вопрос масштабирования. Нам может понадобиться качественно отличная парадигма для достижения AGI с того места, где мы находимся.

Предсказание против понимания


Человеческое понимание мира во многом зависит от того, как мы действуем и исследуем его. Хотя VPT работает в открытой среде, и это ставит его в другую категорию, чем GPT-3 или DALL· E 2, это все еще машина прогнозирования. VPT может построить дом или сделать алмазный топор в Minecraft, но он все еще не знает, зачем он это делает. Он “видел”, как это делают люди, но не понял значения этого действия. Почему это имеет значение, учитывая цели и задачи, которые люди ставят перед собой в игре?

Цель и намерение, стоящие за действиями человека в наборе данных видео, скрыты за пределами команд. Когда люди играют в игру — или ориентируются в мире — всегда существует более масштабный план, который нельзя изучить, наблюдая за отдельными или даже последующими действиями. VPT не может получить доступ к этому плану. Игроки строят дом в Minecraft не только потому, что могут, но и для того, чтобы иметь убежище, чтобы пережить ночи и, возможно, позже перейти на что-то большее. Они улучшают инструменты с помощью алмазных материалов, чтобы предотвратить их поломку. Если VPT переходит непосредственно к созданию алмазного топора, то это не потому, что она узнала, что другие типы инструментов более низкого качества в конечном итоге выходят из строя. Мотивация и намерение имеют решающее значение для планирования и действий человека. Ничто из того, что мы делаем, не абстрагируется от них, и VPT их не хватает.

OpenAI продолжает прокладывать путь к своему любимому AGI. Каждый шаг заслуживает анализа и тщательного изучения, но мы все еще очень далеки от этой цели.

Обучение нейросетям: https://cyberkoalastudios.com/intensive-list/

0
    0
    Ваша корзина
    Ваша корзина пустаВернуться к курсам