O Fim do Mundo (ainda) não vem aí

The Next Big Idea

Luís Sarmento

16 mai 2023 09:20

Tecnologia

Este artigo tem mais de 2 anos

A falácia da “curva exponencial” no desenvolvimento da Inteligência Artificial.

Este é um texto chato. Não vai explorar medos tecnológicos ancestrais, nem vai falar sobre o espectacular fim-do-mundo que vem aí. É um texto que tenta enumerar algumas das razões pelas quais se tem dado um desenvolvimento efetivamente rápido dos sistemas de Inteligência Artificial (IA). Mas também é um texto em que se tenta desmontar aquela que é uma das principais falácias quando se fala dos potenciais perigos da IA: a de que o seu desenvolvimento se está a dar a um ritmo exponencial e que, portanto, o fim do mundo está iminente.

Do ponto de vista matemático, o conceito de uma curva (de crescimento) exponencial (ao longo do tempo) tem uma definição própria. Mas deixando os formalismos de lado, a noção de crescimento exponencial está associada a uma curva em “J”, em que no início da contagem do tempo parece que uma dada grandeza mantém um valor baixo e cresce lentamente, mas a partir de determinada altura o crescimento é rapidíssimo, “explosivo”.

acerca dos perigos existenciais da IA: “então em pouco tempo estes sistema irão evoluir ao ponto de terem capacidades bem mais evoluídas que os humanos, incluindo consciência e vontade própria, e poderão vir a tomar controlo do Mundo”

Resumidamente, os argumentos acerca dos perigos existenciais da IA desenvolvem-se da seguinte forma: “como o crescimento das capacidade de IA é exponencial, então em pouco tempo estes sistemas irão evoluir ao ponto de terem capacidades bem mais evoluídas que os humanos, incluindo consciência e vontade própria, e poderão vir a tomar controlo do Mundo”.

Não vou discutir se esta conclusão decorre validamente dessa premissa. Yann LeCun, um dos pais da IA moderna, tem opiniões bastante fortes e mais avalizadas sobre essa ligação. O que eu gostaria de discutir (e desmontar) é a própria premissa de que o desenvolvimento da IA se está a dar seguindo uma “curva exponencial”.

Mas antes disso, há que reconhecer que as técnicas de IA têm vindo a evoluir a uma velocidade enorme, ao ponto de ser praticamente impossível acompanhar essa evolução. Há centenas de artigos científicos sobre IA a serem publicados todos os dias. Qualquer pessoa que tenha trabalhado na área pode testemunhar que se sente completamente inundado pelo volume de novidades científicas que saem diariamente.

Depois, é verdade que temos assistido a demonstrações de capacidades de IA formidáveis, especialmente nos últimos 1 a 2 anos. Mas também é verdade que muitos destes sistemas estiveram em evolução contínua durante vários anos longe dos olhos do público, ou operando discretamente em funcionalidades mais modestas dentro do nossos clientes de e-mail, dos motores de pesquisa e assistentes de voz, etc.

Logo, vendo apenas o que se passou nos últimos 2 anos, a velocidade da evolução da IA deverá parecer “explosiva”. Em particular, o “momento ChatGPT” chamou a atenção do público em geral para uma tecnologia incrível, mas que pelo seu mediatismo gerou uma percepção de “descontinuidade” ainda maior que aquela que de facto se deu. Mas independentemente disso, houve mesmo uma aceleração do desenvolvimento das capacidades de IA. E há vários fatores para isso estar a acontecer, todos muito pragmáticos. Vamos tentar elencar alguns para desmistificar o que se tem passado.

Os dados

Um dos fatores que mais tem contribuído para a aceleração da IA é a enorme quantidade de dados que está agora disponível para treinar os modelos. Durante os últimos anos foram gerados volumes gigantes de dados de texto, imagem e som, entre outros formatos, que ficaram disponíveis para o treino dos sistemas de IA. Sistemas como o ChatGPT são treinados com centenas de milhões ou biliões de palavras que vêm sendo acumuladas na internet. Os sistemas de geração de imagem são treinados com os milhões de fotos que todos os dias vamos colocando na internet. E por aí em diante. A informação existe, e está disponível para treino destes sistemas (de uma forma mais ou menos respeitosa para quem a produziu, e isso é um ponto a discutir).

O poder computacional

Obviamente que processar toda esta informação não é tarefa fácil. Logo, um outro factor relevante é o efectivo aumento da capacidade computacional disponível para treinar modelos de IA. Em particular, temos de falar dos incríveis GPUs da NVidia, que trazem capacidades de supercomputação mesmo para organizações com bolsos modestos. Quando se juntam milhares destes GPUs torna-se possível ter capacidades computacionais inimagináveis há apenas 10 anos. E para quem não quiser comprar e manter todo este hardware, há sempre a opção de utilizar serviços de cloud computing. De facto, o ecossistema cloud - que não era uma infra-estrutura comum há 10 anos - ajudou a democratizar o acesso à supercomputação e a dinamizar o desenvolvimento da IA.

As ferramentas

Claro que juntar uns milhares de GPUs para treinar uma rede neuronal não é uma tarefa trivial. Isto leva-nos a um outro factor, raramente falado, mas de enorme importância neste aparente salto de IA: o facto do ecossistema de ferramentas de programação, de treino de redes neuronais e de gestão das infra-estruturas de supercomputação ter atingido uma enorme maturidade. Hoje em dia estão disponíveis ao grande público e a custo zero ferramentas que ajudam o desenvolvimento (e até a comercialização) de sistemas de IA que há 10 anos só poderíamos encontrar em meia dúzia de organizações no mundo inteiro. Esta democratização de ferramentas tem permitido que mais e mais organizações, mesmo de pequena dimensão, façam pesquisa e desenvolvimento de elevadíssima qualidade, o que naturalmente acelera a velocidade de inovação.

A comunidade e a política de partilha

Depois, há a simples questão relativa ao número de pessoas que estão dedicadas à pesquisa e desenvolvimento da IA. Quer pela diminuição das barreiras à entrada para novos participantes, quer pelo aumento da visibilidade e atratividade da área de IA, temos hoje uma comunidade de engenheiros e cientistas de IA maior do que nunca. Ora, um incremento de gente a trabalhar, com mais condições, e melhores ferramentas, maior capacidade de computação traduz-se naturalmente numa maior cadência de desenvolvimento. Como se isto não bastasse, o espírito da comunidade é o da partilha, com a livre disponibilização dos artigos científicos, códigos e ferramentas, para que outros investigadores possam replicar os resultados. Note-se que esta prática não é assim tão comum noutras áreas da ciência, mas foi adoptada maciçamente pela comunidade de IA desde há muitos anos. Ora, tudo isto acelera a velocidade de desenvolvimento porque cada vez há mais conhecimento disponível para um conjunto maior de participantes.

grande parte da tecnologia e do conhecimento de IA está concentrada num pequeno conjunto de empresas privadas. É essa concentração que é verdadeiramente perigosa, e deveria dominar as nossas discussões sobre os “perigos” da IA

O incentivo económico dos privados

Finalmente, e este talvez seja tenha sido o principal combustível para que tudo aconteça tão rápido, desde há 15 anos que existe uma poderosa indústria que usa comercialmente técnicas de IA e investe fortemente no seu desenvolvimento. Empresas como a Google ou Amazon entre outras têm investido uma percentagem muito significativa dos seus enormes recursos na pesquisa e desenvolvimento de IA. Não é por acaso que uma das técnicas chave de IA que permitiu o desenvolvimento do ChatGPT, os chamados Transformers, tenha surgido de um grupo de investigação da Google. A tecnologia de IA está integrada nos produtos das Big Tech há mais de 10 anos e esta incorporação é parte da razão pela qual estas empresas mantêm uma enorme vantagem competitiva.

Repare-se que este investimento vai para além da contratação de especialistas qualificadíssimos -- por vezes “roubando-os” aos quadros das melhores universidades: estas organizações tecnológicas investem também na aquisição de enormes quantidades de dados e na disponibilização de capacidades computação para que estes profissionais possam ter o melhor desempenho possível. Há no interior destas organizações condições para pesquisa e desenvolvimento que não estão disponíveis em mais nenhum local, nem mesmo nas melhores universidades mundiais.

Repare-se também que esta convergência de investimento e recursos feita por players industriais é rara na ciência moderna. Tipicamente grande parte da investigação tem sido financiada por governos e é realizada em universidades ou grandes laboratórios públicos. Mas, no caso da IA, o principal motor de toda a investigação tem sido a indústria. Sem burocracias, sem caciquismos, sem miserabilismos e com bolsos fundos. E por isso, grande parte da tecnologia e do conhecimento de IA está, de facto, concentrada num pequeno conjunto de empresas privadas. É essa concentração que é verdadeiramente perigosa, e deveria dominar as nossas discussões sobre os “perigos” da IA e, já agora, sobre a forma como deveríamos melhorar o financiamento das universidades e laboratórios de investigação públicos.

Mas o ritmo de crescimento não pode acelerar para sempre…

O que é certo é que a confluência destes fatores todos deu-se num curto espaço de tempo. E a fórmula de “just go bigger” funcionou bem nestes últimos anos, levando à criação dos Large Language Models (LLM) que hoje nos impressionam. Mas esta fórmula está a esgotar-se. E é a própria OpenAI a admitir que o progresso "fácil" está a acabar.

Obviamente.

Primeiro, por questões matemáticas: a curva exponencial de crescimento só existe nos buracos negros, e mesmo aí é discutível. E segundo lugar, também por razões muito pragmáticas de ordem económica. E então quais são elas?

Colecionar mais dados vai tornar-se mais complicado e mais caro, embora certamente mais justo para quem os produz. Logo, por muitíssimo boas razões, a fórmula de alimentar os modelos de IA com mais dados vai, naturalmente, deixar de funcionar

Os dados, outra vez

Comecemos mais uma vez pela problemática dos dados. Até agora foi possível treinar modelos usando os dados da Web sem grande pudor e sem escrutínio relativamente a questões de propriedade intelectual e direitos de autor. Esta situação é, obviamente, incorrecta, indesejável e insustentável, pelo que a justa regulação da forma como podem ser obtidos e usados os dados de treino irá limitar a quantidade de texto “facilmente” disponível, e sem custos para os desenvolvedores da IA.

Portanto, a via simples de aumentar a capacidade dos modelos de IA usando mais dados “gratuitos” está a chegar ao fim. Colecionar mais dados vai tornar-se mais complicado e mais caro, embora certamente mais justo para quem os produz. Logo, por muitíssimo boas razões, a fórmula de alimentar os modelos de IA com mais dados vai, naturalmente, deixar de funcionar. Curiosamente, esta limitação até pode ser uma benesse para os LLMs, já que a existência de mais escrutínio poderá contribuir para um aumento da qualidade dos dados usados para treino, e a um maior controlo sobre potenciais enviasamentos indesejados dos modelos de IA. Less may be more…

Os custos da computação

Depois há a questão dos custos dos recursos computacionais para o treino de modelos cada vez maiores (e com mais dados). Esta não é uma questão menor. De facto, o custo de treino destes modelos é já na ordem de vários milhões de dólares por treino, e o custo de disponibilizar estes modelos em aplicações reais de grande escala pode também chegar a milhões de dólares por dia. Isto põe uma enorme pressão sobre a estratégia de desenvolvimento dos grandes modelos: é simplesmente demasiado caro desenvolver modelos cada vez maiores.

É, aliás, provável que, com estes custos desmesurados que estamos a assistir, a obtenção de retorno económico da aplicação destes grandes modelos se torne difícil na prática, pelo que o incentivo para continuar este caminho de crescimento “ilimitado” por empresas possa desaparecer ou, pelo menos, a abrandar até se conseguir tornar as tecnologias base mais eficientes. Logo, se houver crescimento das capacidades de IA, então este terá de vir de um outro caminho que não o atual.

Os limites do hardware

Claro que para além disso, há a questão do limite computacional do próprio hardware (e não apenas o seu custo comercial ou o dos data centers gigantes que é preciso construir e manter). Nós temos visto avanços enormes a nível do hardwarenos últimos 10 anos, mas as arquiteturas de redes neuronais que estão por trás dos LLMs atuais exigem recursos (memória e capacidade de cálculo) que crescem quadraticamente com a sua capacidade de análise. O problema é que as capacidades computacionais das atuais arquiteturas de hardware usadas para treinar e executar LLMs, os famosos GPUs, não conseguem crescer tão rapidamente.

Claro que há sempre a possibilidade de se darem avanços fundamentais no hardware, com o desenvolvimento de novas arquiteturas e a produção de circuitos desenhados à medida para treinar e executar as LLMs. Mas também esse caminho é muito complexo, lento e caro, e vamos precisar investir muito esforço para termos um novo salto qualitativo como o que vimos durante os últimos 2 anos.

Carmo 2 - Trindade 1

Finalmente, há questões mais fundamentais relacionadas com aquilo que estes sistemas de IA conseguem realmente aprender só a partir de texto e imagens. Esta TED Talk da reputada investigadora Yejin Choi é muito reveladora dos limites do que se pode realmente aprender usando as estratégias atuais.

Por isso, parece-me provável que, para além de todos os avanços no software, no hardware e nas bases de dados disponíveis para treinar modelos, as próximas gerações de IA necessitem de ficarem expostas a experiências de aprendizagem no “mundo real”, para que possam ganhar capacidades fundamentais num comportamento inteligente, tal como o senso-comum (e não apenas memorização ou a eloquência verbal).

Pela riqueza dos mundos virtuais que constrói, a indústria dos jogos de computador pode ser aquela que está mais bem colocada para poder treinar a próxima geração de IAs

Para isso, há duas estratégias. Ou teremos de começar a treinar as IA através da sua interacção com o mundo real usando robots físicos, ou teremos de criar mundos virtuais verdadeiramente ricos onde robots virtuais podem interagir e aprender com os erros que nele cometem. Nada disto parece fácil, barato, nem rápido de fazer.

Mas, a propósito disto, falemos de jogos de computador. Pela riqueza dos mundos virtuais que constrói, a indústria dos jogos de computador pode ser aquela que está mais bem colocada para poder treinar a próxima geração de IAs.

Não será que devíamos começar a pensar nisso?

Não sou bruxo, mas aposto que daqui a 3 ou 4 anos vamos ser outra vez “surpreendidos” com a constatação que a tecnologia de jogos de computador está concentrada nas Big Tech. Se calhar vamos ficar muito admirados e ofendidos quando verificarmos que tudo o que são dados relativos aos jogos de simulação de guerra, incluindo todas as decisões tomadas por milhões e milhões de jogadores e os respectivos resultados numa diversidade de situações de combate, estão armazenados em bases de dados controlados pelos suspeitos do costume.

Nessa altura vai cair outra vez o Carmo e a Trindade.

Até lá, ficam alguma perguntas importantes: quem é que vai ser campeão nacional este ano? E o Sporting: vai à Europa?

Um artigo do parceiro

https://thenextbigidea.pt/

The Next Big Idea é um site de inovação e empreendedorismo, com a mais completa base de dados de startups e incubadoras do país. Aqui encontra as histórias e os protagonistas que contam como estamos a mudar o presente e a inventar o que vai ser o futuro. Veja todas as histórias em www.thenextbigidea.pt

Mais artigos The Next Big Idea