Os cientistas da Deep Mind publicaram um estudo na Science onde descrevem o trabalho de criar um algoritmo de Inteligência Artificial que aprendeu sozinho a jogar Quake III Arena e que consegue, de forma consistente, bater jogadores humanos em jogos de apanha-a-bandeira. Neste tipo de jogos, ambas as equipas começam em determinada zona da arena, e os elementos têm a possibilidade de renascer caso sejam alvejados. O objetivo é conquistar a zona da bandeira do oponente, sendo que envolve muita tomada de decisão na hora e o conjunto de regras pode não ser tão definido como nos jogos de tabuleiro xadrez ou Go.
As reações de cada jogador, os mapas mais complexos e a própria forma como os jogadores planeiam a estratégia podem condicionar a forma de jogar e aumentar a dificuldade de se ter um sistema de IA que seja capaz de rivalizar com os humanos.
Para o sistema da Deep Mind, o FTW, os investigadores prepararam um sistema de aprendizagem de dois níveis Num ponto, o sistema foi focado em vencer o jogo e aprendeu estratégias globais que ajudariam a chegar a esse objetivo. Para melhorar a performance neste nível, os investigadores tiveram uma abordagem de treino baseado na população, onde, ao fim de cada ronda, os piores elementos eram eliminados e os seus substitutos gerados a partir de mutações dos melhores. No segundo nível, foi ensinada uma política baseada nas decisões do primeiro nível, com uma rede neural padrão, com aprendizagem reforçada, explica o ArsTechnica.
Os investigadores explicam que foram feitos mais de 45 mil jogos numa fase inicial e que havia comportamentos distintos a serem implementados após 200 mil jogos. A equipa explica que começou um torneio com oponentes humanos: ao fim de 100 mil jogos, o sistema era capaz de bater um adversário humano médio e ao fim de 200 mil partidas passou a ser considerado um perito em Quake. A única vez que os humanos conseguiram bater os bots, foi quando faziam parte de uma equipa com bots e, mesmo assim, só ganharam 5% das suas partidas.
Em termos de skills, os jogadores humanos destacaram-se por serem melhores snipers, enquanto o FTW é excelente em combate a curta distância, em grande parte devido a um tempo de reação mais rápido e uma maior precisão.
A equipa da Deep Mind explica que há algumas limitações no FTW, nomeadamente que a população de bots tende a converger para o mesmo tipo de abordagens semelhantes com o passar do tempo, algo que só é eficaz se todos os agentes do ambiente se mantenham os mesmos. O desafio é tornar o sistema mais flexível do que é atualmente.