???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/11426
Full metadata record
DC FieldValueLanguage
dc.creatorGuimarães, Victória de Souza Leon-
dc.creator.Latteshttp://lattes.cnpq.br/2240797417794522eng
dc.contributor.advisor1Rodrigues, Rosiane de Freitas-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8358219976594707eng
dc.contributor.advisor-co1Kienen, João Gustavo-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6260084621108132eng
dc.contributor.referee1Santos, Eulanda Miranda dos-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3054990742969890eng
dc.contributor.referee2Silva Junior, Waldir Sabino da-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/2925380715531711eng
dc.contributor.referee3Silva, Diego Furtado-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/7662777934692986eng
dc.date.issued2025-09-10-
dc.identifier.citationGUIMARÃES, Victória de Souza Leon. Reconhecendo gêneros musicais brasileiros similares por abordagem baseada em segmentos e aprendizado profundo usando transformadores visuais. 2025. 98 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2025.eng
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/11426-
dc.description.resumoEsta pesquisa investiga o uso de mecanismos de autoatenção em arquiteturas de transformadores visuais, com foco no modelo Vision transformer (ViT), para o reconhecimento e análise de similaridade entre gêneros musicais. O estudo envolve a construção do BYRM Dataset, uma base curada de músicas regionais brasileiras composta por 1.082 faixas distribuídas em dez gêneros culturalmente diversos, extraídas automaticamente a partir de álbuns no YouTube. A base permite experimentos controlados com múltiplos trechos por faixa, variando tanto a posição temporal quanto a duração dos segmentos. O modelo ViT foi treinado com espectrogramas de Mel como entrada e avaliado por meio de métricas como acurácia, precisão, revocação e f1-score. A melhor configuração alcançou 81,94% de acurácia e 81,84% de f1-score. Além da classificação, esta dissertação também propõe uma análise da representação vetorial aprendida pelo modelo, aplicando técnicas de redução de dimensionalidade (PCA, t-SNE e UMAP) e medidas quantitativas de similaridade, como a distância cosseno, para investigar a proximidade entre gêneros no espaço latente. Os resultados indicam que o ViT é capaz de capturar relações estilísticas relevantes, agrupando gêneros semelhantes como samba e pagode, ou vaneira e xote gaúcho, ao mesmo tempo em que separa estilos mais distintos, como o rock brasileiro. Este trabalho contribui para a área de Recuperação de Informação Musical (MIR), demonstrando o potencial de modelos baseados em atenção na classificação e interpretação de gêneros musicais em contextos ricos e diversos culturalmente.eng
dc.description.abstractThis research investigates the use of self-attention mechanisms in visual transformer architectures, focusing on the Vision Transformer (ViT) model for musical genre recognition and similarity analysis. The study involves the construction of the BYRM Dataset, a curated collection of Brazilian regional music comprising 1.082 tracks across ten culturally diverse genres, automatically extracted from YouTube album videos. The dataset supports controlled experiments using multiple excerpts per track, varying both the temporal position and the segment duration. The ViT model was trained using Melspectrograms as input and evaluated with metrics such as accuracy, precision, recall, and F1-score. The best configuration achieved 81,94% accuracy and 81,84% F1-score. Beyond classification, this dissertation also proposes an analysis of the vector representations learned by the model, applying dimensionality reduction techniques (PCA, t-SNE,and UMAP) and quantitative similarity measures, such as cosine distance, to investigate the proximity between genres in the latent space. Results indicate that ViT successfully captures meaningful stylistic relationships, grouping similar genres such as samba and pagode or vaneira and xote gaúcho. This work contributes to the field of Music Information Retrieval (MIR), demonstrating the potential of attention-based models in the classification and interpretation of musical genres in culturally rich and diverse contexts.eng
dc.formatapplication/pdf*
dc.languageporeng
dc.publisherUniversidade Federal do Amazonaseng
dc.publisher.departmentInstituto de Computaçãoeng
dc.publisher.countryBrasileng
dc.publisher.initialsUFAMeng
dc.publisher.programPrograma de Pós-graduação em Informáticaeng
dc.rightsAcesso Aberto-
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectSistemas de recuperação da informação - Músicapor
dc.subjectAprendizado do computadorpor
dc.subjectClassificação - Músicapor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAOeng
dc.titleReconhecendo gêneros musicais brasileiros similares por abordagem baseada em segmentos e aprendizado profundo usando transformadores visuaiseng
dc.title.alternativeRecognizing similar Brazilian music genres using a segment-based deep learning approach with vision transformerseng
dc.typeDissertaçãoeng
dc.creator.orcidhttps://orcid.org/0000-0002-1814-1544eng
dc.subject.userRecuperação de informação musicalpor
dc.subject.userAprendizado profundopor
dc.subject.userRedes de transformadorespor
dc.subject.userEspectrogramapor
dc.subject.userAnálise temporalpor
dc.subject.userSimilaridade entre gêneros musicaispor
dc.subject.userRedução de dimensionalidadepor
dc.subject.userMúsica brasileirapor
dc.subject.userMusic information retrievaleng
dc.subject.userDeep learningeng
dc.subject.userTransformer networkseng
dc.subject.userSpectrogrameng
dc.subject.userTemporal analysiseng
dc.subject.userGenre similarityeng
dc.subject.userDimensionality reductioneng
dc.subject.userBrazilian musiceng
Appears in Collections:Mestrado em Informática

Files in This Item:
File Description SizeFormat 
DISS_VGuimarães_PPGI.pdf10.29 MBAdobe PDFDownload/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.