@MASTERSTHESIS{ 2022:1525113358, title = {Uso de região de interesse para tratamento de desbalanceamento de Bases de Dados de monitoramento de tráfego de redes de acesso geradas por adesão voluntária}, year = {2022}, url = "https://tede.ufam.edu.br/handle/tede/9313", abstract = "Uma base de dados desbalanceada é caracterizada pela diferença entre a quantidade de amostras observadas entre os grupos de dados, o mais observado é chamado majoritário e o menos observado é chamado minoritário. Essa característica está presente em bases de diferentes domínios, como finanças, diagnóstico de doenças e clima. Bases de dados geradas por adesão voluntária também podem apresentar desbalanceamento, pois os dados coletados estão diretamente relacionado com o perfil social e econômico do voluntário. Em geral, a coleta desses dados é demorada e consume recursos financeiros significativos impossibilitando a extensão do período de coleta ou a repetição da coleta. Nesse contexto, a representatividade dos dados é uma questão fundamental a ser observada quando se usa essas bases de dados para treinamento de modelos de aprendizagem, por exemplo, para resolver problemas de predição e classificação com precisão significativa. Estratégias para resolver o problema de desbalanceamento têm sido propostas e avaliadas em diferentes domínios de aplicação. Essas estratégias abordam o problema tanto em nível algorítmico, em que modifica-se os modelos de aprendizagem, quanto em nível de dados, em que modifica-se a distribuição estatística dos dados. No nível de dados, tem-se o método de oversampling, que consiste em modificar a distribuição dos dados gerando amostras pouco observadas do grupo de interesse. A geração das amostras utiliza o conceito de vizinhança que é estabelecida por medida de similaridade, por exemplo, uma medida de distância entre amostras. Essa abordagem é implementada pelo SMOTE for Regression (SMOTER) e tem sido bastante difundida devido a sua simplicidade. A maior crítica a essa abordagem é desconsiderar a região em que a amostra é gerada, o que pode produzir amostras com valores inadequados de atributos. Para superar as dificuldades identificadas nos métodos baseados em vizinhança, outra abordagem, que propõe a geração de amostras a partir da identificação da região de interesse, é implementada pelo método Radial-Based Oversampling (RBO). Esse método usa uma função de base radial para caracterizar as regiões de interesse de geração de novas amostras. A principal crítica a esse método é o alto custo computacional dessa operação, tornando o seu uso inviável em grandes conjuntos de dados. Este trabalho apresenta um método, extensão do método RBO, para tratar o desbalanceamento de bases, também baseado em região de interesse, que supera as limitações características do RBO. As avaliações realizadas usando as bases de dados do projeto Neubot coletadas por 06 anos, com mais de 12 milhões de registros de sensoriamento de sessões de streaming de vídeo, mostram a eficiência do método na geração das amostras. A qualidade das amostras geradas foi avaliada sob diferentes perspectivas, inclusive quando elas são utilizadas para treinar modelos de regressão.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de Pós-graduação em Informática}, note = {Instituto de Computação} }