@MASTERSTHESIS{ 2025:1409158778, title = {Reconhecendo gêneros musicais brasileiros similares por abordagem baseada em segmentos e aprendizado profundo usando transformadores visuais}, year = {2025}, url = "https://tede.ufam.edu.br/handle/tede/11426", abstract = "Esta pesquisa investiga o uso de mecanismos de autoatenção em arquiteturas de transformadores visuais, com foco no modelo Vision transformer (ViT), para o reconhecimento e análise de similaridade entre gêneros musicais. O estudo envolve a construção do BYRM Dataset, uma base curada de músicas regionais brasileiras composta por 1.082 faixas distribuídas em dez gêneros culturalmente diversos, extraídas automaticamente a partir de álbuns no YouTube. A base permite experimentos controlados com múltiplos trechos por faixa, variando tanto a posição temporal quanto a duração dos segmentos. O modelo ViT foi treinado com espectrogramas de Mel como entrada e avaliado por meio de métricas como acurácia, precisão, revocação e f1-score. A melhor configuração alcançou 81,94% de acurácia e 81,84% de f1-score. Além da classificação, esta dissertação também propõe uma análise da representação vetorial aprendida pelo modelo, aplicando técnicas de redução de dimensionalidade (PCA, t-SNE e UMAP) e medidas quantitativas de similaridade, como a distância cosseno, para investigar a proximidade entre gêneros no espaço latente. Os resultados indicam que o ViT é capaz de capturar relações estilísticas relevantes, agrupando gêneros semelhantes como samba e pagode, ou vaneira e xote gaúcho, ao mesmo tempo em que separa estilos mais distintos, como o rock brasileiro. Este trabalho contribui para a área de Recuperação de Informação Musical (MIR), demonstrando o potencial de modelos baseados em atenção na classificação e interpretação de gêneros musicais em contextos ricos e diversos culturalmente.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de Pós-graduação em Informática}, note = {Instituto de Computação} }