Главная Азартные игры Новейший AI ReBel от Facebook может превзойти даже профи в покере

Новейший AI ReBel от Facebook может превзойти даже профи в покере

от Игорь

Недавно отдел исследований искусственного интеллекта Facebook опубликовал документ, в котором подробно описывается создание и успешное тестирование новейшего покерного бота под названием ReBel. По словам разработчиков, его алгоритмы более мощные и эффективные, чем алгоритмы, используемые в Libratus, единственном известном боте, который смог победить покерных профессионалов.

В 2019 году Facebook опубликовал информацию о мощном покер-боте Pluribus, который стал еще одним шагом в развитии искусственного интеллекта, но недостаточным, чтобы стать «убийцей покера». Pluribus мог играть как в HU, так и в 6-макс игры против опытных игроков.

На этот раз, однако, не было громких заявлений о влиянии нового бота ReBel на покерную индустрию и его расширенных возможностях. Не было и видео. Вместо этого команда Facebook AI Research опубликовала 27-страничный документ с описанием общих возможностей нового бота и сравнением его со старыми программами.

История ИИ в играх, основанных на навыках
Май 2015 — четыре игрока в покер по имени Бьорн Ли, Донг Ким, Дуг Полк и Джейсон Лес сражались против ИИ Клаудико. Конкурс на 80 000 рук, продолжавшийся 8 недель, завершился значительными победами 3 из 4 профи против программы, хотя компьютерные эксперты назвали это ничьей.

2016 г. — ИИ AlphaGO, созданный программой Google DeepMind, победил лучших игроков в го в мире. Го — китайская игра, напоминающая шахматы, в которой участвуют два игрока и определенные стратегии.

Январь 2017 г. — в конкурсе «Мозги против искусственного интеллекта: повышение ставки» AI Libratus победил покерных профессионалов Дэниела Маколея, Донга Кима, Джейсона Леса и Джимми Чоу.

2019 г. — Исследователи из Университета Карнеги-Меллона (CMU) разработали системы искусственного интеллекта Cepheus и DeepStack, которые могут обрабатывать сложные игры, такие как покер. После пяти лет исследований команда заявила, что успешно решила 6-макс безлимитный холдем.

ReBel — это имя, покер — его игра
Имя бота — это сокращенная форма «рекурсивного обучения, основанного на убеждениях», которое фокусируется на самообучении в условиях несовершенной информации. В названии статьи говорилось: «Объединение глубокого обучения с подкреплением и поиска игр с несовершенной информацией, написано Ноамом Брауном, Антоном Бахтиным, Адамом Лерером и Кученгом Гонгом из исследовательской группы Facebook AI».

ReBel был созданный на основе более раннего покерного AI Deepstack, первого бота, победившего человека в 2017 году. Как и AI Libratus, ReBel использует самостоятельную игру, чтобы научиться играть в безлимитный холдем один на один. Основное отличие ReBel от других ранних версий покерного ИИ заключается в том, что он использует так называемые состояния общественного мнения (PBS).

PBS — это новый механизм самообучения, используемый ReBel, который включает не только анализ текущей информации об игре, но и обладает интуитивно понятными навыками принятия решений на основе предыдущих ходов, сделанных противниками.

ReBel учитывает не только информацию о визуальном состоянии игры, такую ​​как размер ставки, известные карты и даже диапазон рук, которые может иметь оппонент, но также учитывает мнение каждого игрока о состоянии, в котором он находится. Это в некоторой степени похоже на то, как настоящий человек может подумать, считает ли оппонент впереди или позади в той или иной раздаче.

Чтобы это стало возможным, ReBel обучает две разные модели искусственного интеллекта с помощью самостоятельного обучения с подкреплением: сеть ценностей и сеть политик. Затем бот работает с PBS.

Проще говоря, ReBel не только анализирует саму руку, но и анализирует, как ее оценивает оппонент, точно так же, как это делают успешные (человеческие) игроки.

Обнародованы результаты ReBel
Команда Facebook провела эксперименты, в ходе которых ReBel играл в холдем для двух игроков с перевернутым эндшпилем (упрощенная версия игры с никаких повышений в первых двух раундах торговли) и Liar’s Dice.

По сравнению со всеми своими предшественниками ReBel, очевидно, намного быстрее — он тратит как минимум на 2 секунды меньше, чем Libratus. В общем, не более 5 секунд, чтобы решить и сделать ход.

На данный момент единственным игроком в покер, который сражался с ReBel, является Донг Ким — он также был одним из игроков, проигравших Libratus. После 7500 раздач покерный бот превзошел игрока-человека на 0,165ББ за руку, в то время как Libratus набрал 0,147ББ.

Конечно, более реалистичный тест потребует большего количества рук против большего количества игроков, особенно если мы хотим больше узнать о том, как работает PBS.

Опасен ли ReBel в онлайн-покере?
Разработчики ReBel четко заявили, что их цель не состояла в том, чтобы атаковать онлайн-покер. Их ИИ должен помочь людям организовать сложные системы с несовершенной информацией, такие как аукционы, кибербезопасность и логистика (беспилотные грузовики и автомобили). Более того, они не собираются выпускать код.

Чтобы облегчить сознание игроков в покер:

  • В Pluribus процент побед этого ИИ-бота был рассчитан с помощью AIVAT — метода уменьшения дисперсии, который автоматически переоценивает выигрыш.
  • ReBel был создан для работы только в играх с нулевой суммой, то есть, например, в покере нет рейка.
  • Бот предназначен только для игр HU.
  • Таким образом, в современной проблеме покерной индустрии против искусственного интеллекта и несправедливой игры ReBel определенно не будет на стороне ботов.

Похожие статьи

Оставить комментарий