Como resolver problemas complexos com dados?Da extração ao consumo: entenda o fluxo de dados
Casos como esses contam com uma particularidade: a informação-chave está presente na menor parte das amostras coletadas. Quando se fala em detecção de um câncer, por exemplo, muito provavelmente a pequena parte do total de exames realizados estará relacionada à doença. Se nada for feito para levar essa característica em consideração, boa parte dos modelos acabará visando aos resultados em favor da classe majoritária, ou seja, da que diz que não há presença de câncer na imagem analisada, levando a consequências catastróficas. Esse problema ocorre nos chamados datasets desbalanceados, nos quais uma ou mais classes estão sub-representadas. Os tratamentos disponíveis para esse tipo de contratempo recaem tipicamente em duas abordagens: ajustes nos dados e introdução de métodos com custos heterogêneos, a depender da classe. Enquanto o primeiro se relaciona com técnicas de aumento das amostras das classes sub-representadas (oversampling) ou diminuição de registros das classes sobre-representadas (undersampling), o segundo impõe diferentes penalidades de acordo com o erro cometido pelo modelo (procura penalizar mais o erro relacionado à classe sub-representada). Ajustes nos dados tipicamente recorrem a técnicas de oversampling ou undersampling. Assim, é possível encontrar a escolha randômica de registros a serem duplicados (oversampling) ou deletados (undersampling). Outra possibilidade seria a escolha direta desses registros. Ao duplicar as informações, o modelo se torna mais propenso ao overfitting, podendo perder a capacidade de boa generalização na detecção dos casos de interesse. Por outro lado, ao jogar registros fora, o modelo deixa de contar com a informação presente, o que pode ser prejudicial para o próprio aprendizado.
Outras abordagens
Visando superar os problemas de descarte de informação (undersampling) e propensão ao overfitting (oversampling), surgiu a técnica chamada Synthetic Minority Oversampling Technique (SMOTE). Em resumo, trata-se da busca de pontos próximos aos da informação sub-representada, calculando a diferença entre o registro em questão e seu vizinho mais próximo e multiplicando por um número entre zero e um. Por fim, o resultado é adicionado ao vetor em consideração. Esse processo acaba expandindo a região onde essas minorias se encontram, permitindo melhor generalização na detecção dos casos de interesse. Já os métodos com custos heterogêneos buscam penalizar mais o modelo quando esse erra para a classe sub-representada. Basicamente, ao longo do processo de aprendizado do algoritmo, várias funções de perda são calculadas e procuram sumarizar o erro do modelo (valor observado versus previsto) em apenas um número, de forma que ao longo de sucessivas interações o valor diminua. Ao colocar pesos diferentes para erros diferentes na função de perda, o algoritmo acaba focando nas classes desejadas (no caso exemplificado, a minoritária) e buscando ser mais assertivo. Seja por ajuste nos dados, seja procurando métodos mais sensíveis a classes sub-representadas, tratar o problema de baixa representatividade dos “casos-chaves” é necessário para evitar equívocos nas recomendações dos modelos. Para que a sociedade consiga incorporar a inteligência artificial ao seu dia a dia, os algoritmos devem estar preparados para os mais diferentes cenários, diminuindo o risco de recomendações que podem levar a consequências graves. A depender do uso, a intervenção humana ainda se fará necessária, especialmente para validar resultados com menor taxa de “confiança”. De toda forma, reduzir o escopo do ser humano na tomada de decisões, permitindo que foque no que é, de fato, crítico, trata-se de um processo já em andamento em diversas sociedades.