O trabalho dos investigadores da DeepMind, que pertence à Alphabet, uma holding com várias empresas da Google, foi apresentado num artigo publicado na revista Science esta quinta-feira e marca a primeira vez que o feito foi alcançado.
Sabe-se que os computadores têm exercido o seu domínio sobre os humanos em jogos entre duas pessoas, como o xadrez, desde que o Deep Blue da IBM venceu Gary Kasparov, em 1997. Mais recentemente, um agente da GoogleAI venceu o jogador número um do mundo em Go, um jogo de tabuleiro de estratégia, em 2017.
Mas a capacidade de jogar multiplayer [com vários jogadores], envolvendo trabalho de equipa e interação em ambientes complexos, permanecia uma tarefa insuperável.
Para o estudo, a equipa liderada por Max Jaderberg trabalhou numa versão modificada do Quake III Arena, um videojogo de tiro que foi lançado em 1999.
O modo de jogo que escolheram foi "Capture the Flag", que envolve trabalhar com os companheiros de equipa para apanhar a bandeira da equipa adversária enquanto protegem a própria, forçando os jogadores a elaborar estratégias complexas que combinam agressão e defesa.
Depois de os "agentes" terem tido tempo para se treinar a si próprios, as suas proezas foram equiparadas às dos testadores de jogos profissionais.
"Mesmo depois de 12 horas de prática, os humanos testadores de jogos só conseguiram vencer 25% dos jogos contra a equipa do 'agente'", escreveram os investigadores. O desempenho das máquinas permaneceu superior mesmo quando os seus tempos de reação foram artificialmente reduzidos para níveis humanos.
Novos passos para a Inteligência Artificial (IA)
Os programadores confiaram no chamado "Reinforcement Learning" (RL, "aprendizagem por reforço") para ensinar as máquinas a adquirir competências.
"Inicialmente, não conheciam nada e faziam coisas completamente aleatórias", disse Jaderberg à AFP.
Os agentes foram ensinados a recompensarem-se a eles próprios por capturar a bandeira, mas a equipa também desenvolveu uma série de métodos inovadores para ampliar os limites do que é possível com o RL.
"Uma das contribuições do artigo é que cada agente aprende o seu próprio sinal interno de recompensa", disse Jaderbeg, o que significa que os jogadores de IA se recompensam a si mesmos de formas diferentes por realizar tarefas como apanhar a bandeira ou disparar com sucesso sobre o adversário.
Em seguida, descobriram que treinar uma população de "agentes" juntos, em vez de um de cada vez, fazia a população como um todo aprender muito mais rápido.
Questões éticas
A equipa de investigadores não comentou o potencial da IA para uso futuro em ambientes militares.
A DeepMind declarou publicamente no passado que está comprometida a nunca trabalhar em qualquer projeto militar ou de vigilância, e a palavra "atirar" não aparece sequer uma vez no artigo (o processo é descrito como marcar adversários apontando um dispositivo a laser contra eles).
Jaderberg disse que a sua equipa gostaria de explorar a possibilidade de os agentes jogarem na versão completa do Quake III Arena e descobrir como é que a inteligência artificial poderia funcionar em problemas fora dos jogos.
"Usamos jogos, como o Capture the Flag, como ambientes desafiadores para explorar conceitos gerais como planeamento, estratégia e memória, os quais acreditamos serem essenciais para o desenvolvimento de algoritmos que podem ser usados para ajudar a resolver problemas do mundo real", acrescentou.
Comentários