Recuperação de imagem com múltiplos rótulos usando hashing profundo

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/9047

???metadata.dc.type???:	Tese
Title:	Recuperação de imagem com múltiplos rótulos usando hashing profundo
???metadata.dc.creator???:	Silva, Josiane Rodrigues da
???metadata.dc.contributor.advisor1???:	Cristo, Marco Antônio Pinheiro
???metadata.dc.contributor.referee1???:	Santos, Eulanda MIranda dos
???metadata.dc.contributor.referee2???:	Carvalho, André Luiz da Costa
???metadata.dc.contributor.referee3???:	Rosa, Thierson Couto
???metadata.dc.contributor.referee4???:	Ferreira, Raoni Simões
???metadata.dc.description.resumo???:	Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado em aprendizado são hoje uma das abordagens mais estudadas de pesquisa aproximada de vizinhos mais próximos para recuperação de imagens em larga escala. Com o avanço das redes neurais profundas em representação de imagem, métodos de hashing para CBIR passaram a usar aprendizado profundo no processo de construção dos códigos binários. Tais estratégias são conhecidas genericamente como técnicas de Hashing Profundo (deep hashing). Embora uma variedade de métodos tenham sido propostos para CBIR usando hashing profundo, a maioria deles propõem abordagens que tratam as imagens como descrevendo um único tópico, ou seja, associadas a um único rótulo. Contudo, em busca visual é natural que as imagens tenham vários tópicos, cada um dos quais representados por diferentes rótulos que podem estar relacionados, por exemplo, com objetos de várias categorias ou diferentes conceitos associados com as imagens. Além disso, muitos desses modelos focam exclusivamente na qualidade dos rankings gerados, ignorando questões como a eficiência da busca e do uso do espaço disponível, aspectos importantes em Recuperação de Imagem. Desta forma, esta proposta investiga técnicas de hashing profundo com o intuito de tornar a tarefa de recuperação de imagem mais eficiente mantendo a qualidade do ranking de resposta compatível com o estado-da-arte. Além disso, focamos no cenário de múltiplos rótulos com o objetivo de gerar códigos hash que representem os vários níveis de similaridade entre as imagens. Mais especificamente, ao longo desta pesquisa, propusemos e estudamos arquiteturas profundas geradoras treinadas em duplas e triplas de imagens para a tarefa de recuperação de imagens multi-rótulo. As arquiteturas usadas foram autocodificadores variacionais baseados em distribuição discreta, capazes de gerar representações compactas das imagens, diretamente aplicáveis a técnicas de hashing, sem auxílio de processos intermediários não vinculados ao treino. Ao avaliarmos os métodos propostos em duas coleções de imagens multi-rótulo, uma sintética e outra real, observamos que os modelos são capazes de gerar códigos de hash binários efetivos em termos da qualidade dos rankings criados além de eficientes em termos do uso do espaço de hashing.
Abstract:	Content-based Image Retrieval (CBIR) is the task of retrieving images as result of an image search, such that the retrieved images have the same visual contents as the query image. This problem has attracted increasing attention in the area of computer vision. Learning-based hashing techniques are among the most studied approaches to nearest-neighbor approximate search for large-scale image retrieval. With the advancement of deep neural networks in image representation, hashing based methods for CBIR have adopted deep learning in the process of outputing binary hash codes. Such strategies are known generically as Deep Hashing techniques. Although a variety of methods have been proposed for CBIR using deep hashing, most of them deal with single-labeled images. However, in visual search it is natural for images to have several topics, each of which is represented by a different label that may be related, for example, with objects of various categories or different concepts associated with the images. Furthermore, many of these models focus exclusively on the quality of the generated rankings, ignoring issues such as search efficiency and the use of the available space, which are important aspects to consider in Image Retrieval. In this way, we investigate deep hashing techniques which enable efficient image retrieval while achieving a high-quality response ranking. In addition, we focus on the multiple-label scenario so that the generated hash codes capture the various levels of similarity among the images. More specifically, throughout this research, we propose and study deep generative architectures trained on pairs and triples of images for the task of multi-label image retrieval. To this, we adopt variational autoencoders based on discrete distributions. These models can generate compact image representations, directly applicable to hashing techniques, without intermediate processes unrelated to training. When evaluating the proposed methods in two collections of multi-label images, we observed that they are capable of generating effective binary hash codes. Such codes can be used to produce high-quality rankings while enabling an efficient use of the hashing space.
???metadata.dc.subject.cnpq???:	CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO
???metadata.dc.subject.user???:	Recuperação de Imagem Baseada em Conteúdo Aprendizagem de Máquina Aprendizagem Profunda Hashing Profundo Arquiteturas Geradoras Profundas Recuperação de Imagens com Múltiplos Rótulos Autocodificadores Variacionais
Language:	por
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	SILVA, Josiane Rodrigues da. Recuperação de imagem com múltiplos rótulos usando hashing profundo. 2022. 122 f. Tese (Doutorado em Informática) Universidade Federal do Amazonas, Manaus (AM), 2022.
???metadata.dc.rights???:	Acesso Aberto
URI:	https://tede.ufam.edu.br/handle/tede/9047
Issue Date:	25-Jul-2022
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_Josiane Rodrigues da Silva_PPGIN.pdf		7.6 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

Universidade Federal do Amazonas