Ainda no mês de julho recebemos no podcast Start Now. Cry Later, apresentado pela jornalista Mariana Barbosa, Catarina Salteiro, da DefinedCrowd, uma empresa que trabalha com Machine Learning e apresenta soluções de Inteligência Artificial. Na ressaca da intensificação dos movimentos Black Lives Matter um pouco por todo o mundo, ao mesmo tempo que o documentário "The Social Dilema" levanta muitas questões sobre algoritmos, tornou-se inevitável não cruzar o tópico do preconceito no que à ciência computacional e inteligência artificial (IA) diz respeito.

Ao longo dos últimos anos, o tópico tem surgido diversas vezes, não apenas em relação a soluções de IA, mas também para novas tecnologias que necessitam de grandes volumes de informação para trabalhar de uma forma ótima. E as perguntas sucedem-se: as máquinas serão preconceituosas? Será que, num futuro em que tudo seja as decisões sejam tomadas por inteligência artificial, os preconceitos serão maiores, ou menores? Os especialistas são perentórios na resposta: “todos os modelos [de inteligência artificial] são feitos por humanos e refletem os seus preconceitos,” explica Michael McKenna num artigo do site AI Business. Ou seja, o caminho para uma IA mais justa parece paralelo, quase tangente, ao de uma sociedade mais justa.

Na conversa com a diretora de comunicação da DefinedCrowd, um dos exemplos mencionados foi a tecnologia de reconhecimento facial utilizado pela Apple nos seus aparelhos iPhone, que não só lhe trouxe problemas aquando o seu lançamento, como veria esses mesmos erros a persistir com mulheres chinesas, algo que levantou logo questões sobre se a tecnologia era, ou não, racista.

Este problema tem-se revelado tão recorrente que o surgimento de equipas de cientistas focado em resolvê-lo tornou-se inevitável, não só para perceber os problemas da sua origem, mas também a forma como estes preconceitos se refletem noutros contextos. Tal é o caso de algoritmos estão em constante aprendizagem e num processo contínuo de recolha de dados para continuar a operar, tal como acontece com as redes sociais que usamos no dia-a-dia, ou, de forma ainda mais visível, no motor de busca da Google.

Neste último caso, a empresa tem estado votada em colmatar as sugestões de busca propostas pelo seu algoritmo, que são fruto de pesquisas recorrentes dos seus utilizadores. Os resultados apresentados advêm de “um exame algorítmico ao conteúdo disponível na internet e da sua avaliação sobre o que, especificamente, as pessoas estão à procura quando escrevem um termo genérico no motor,” pode ler-se na Wired. Citado pela revista, um porta-voz da Google admite mesmo que “por muito que eu queira crer que os nossos algoritmos vão ser perfeitos, não acredito que cheguem a sê-lo”. A bem da verdade, é uma dificuldade real se tivermos em conta que 15% das buscas recebidas pela empresa todos os dias são novas.

Nem mesmo as grandes tecnológicas, com maior capacidade financeira, de investimento e de desenvolvimento conseguem, à partida, colmatar estas falhas. Por um sem número de razões: por um lado, porque muitos dos processos utilizados não têm protocolos de deteção de tendências preconceituosas; por outro, porque os dados disponibilizados não retratam as intenções de quem as desenvolve; ou ainda, porque o contexto em que se insere é demasiado retratado nos dados recolhidos.

Este último caso foi o que sucedeu com a tecnologia que a Amazon tentou implementar (mas com a qual não chegou a avançar) para a contratação de novos programadores ou outras posições mais técnicas na empresa, que excluía arbitrariamente mulheres do processo. Segundo a Reuters, esta tendência do software surge na forma como os computadores foram treinados, e dos dados a que tiveram acesso. “Os modelos da Amazon foram treinados para examinar candidatos através da observação de padrões em currículos enviados à empresa durante 10 anos. A maior parte veio de homens, o que demonstra o domínio masculino na indústria tecnológica.”

Torna-se, assim, essencial possibilitar que o algoritmo possa analisar dados e desenvolver um processo de “machine learning”, em que os sistematiza e define comportamentos, que tenham informação rica e variada. Isto é, que seja, no mínimo, representativa da demografia que vai analisar para evitar problemas futuros. Paralelamente, e de acordo com a própria Catarina Salteiro, é essencial que se perceba o contexto em que estas tecnologias vão operar. O mesmo pode ser lido na MIT Technology Review, que menciona a falta de contexto como um dos principais erros que os cientistas de dados mais cometem ao caírem na “armadilha da portabilidade”, ou seja, assumindo que um modelo desenvolvido para determinado contexto resulta num totalmente diferente. Na DefinedCrowd, de acordo com a sua Diretora de Comunicação, uma das soluções usadas para evitar estes problemas passa pelo recrutamento: a equipa é diversa, pelo que leva a sua própria diversidade para o trabalho que faz, garantido que a representatividade se transponha para os resultados.

Esta é, de resto, uma das soluções propostas no artigo de McKenna no site AI Business: “manter equipas diversificadas, tanto em termos demográficos como em termos de habilidades, é importante para evitar e mitigar preconceitos e tendências não desejadas em modelos de IA.” As palavras “não desejada” são, também, um dos pontos importantes do seu artigo. O autor postula que nenhum modelo deve estar livre de certas tendências, porque são estas que também o definem como fidedigno. Por exemplo, se o propósito for um algoritmo que processa dados biométricos no sentido de detetar a probabilidade de se desenvolver cancro da mama, este deverá privilegiar mulheres, que denotam o maior número de casos.

O trabalho de tornar estes algoritmos e estes computadores mais justos é contínuo e não é fácil. Os especialistas averiguam diariamente sobre a complexidade destes problemas e admitem que “há muito a ter em consideração”. Não só há que perceber o que é um conjunto de dados diversos, mas entender como é que estes funcionam em determinados contextos, ao mesmo tempo que se procura que os computadores demonstrem as tendências certas para melhor cumprir o propósito para que foram desenvolvidos. Olga Russakovsky, professora na Universidade de Princeton, explica à Wired que não há uma noção clara do que é “uma base de dados verdadeiramente diversa, dadas as formas como diferentes culturas vêm o mundo”.

Contudo, há algo em que todos os especialistas parecem estar de acordo: as decisões tomadas por máquinas deverão ser cada vez mais justas. Segundo a própria professora Russakovsky, “resolver o preconceito na humanidade é mais difícil do que resolvê-lo em sistemas de inteligência artificial”.