???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/10568
Full metadata record
DC FieldValueLanguage
dc.creatorFerreira, Van Den Berg da Gama-
dc.creator.Latteshttps://lattes.cnpq.br/9433225118102294eng
dc.contributor.advisor1Moura, Edleno Silva de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4737852130924504eng
dc.contributor.referee1Silva, Altigran Soares da-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3405503472010994eng
dc.contributor.referee2Freitas, Rosiane Rodrigues de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/8358219976594707eng
dc.contributor.referee3Rosa, Thierson Couto-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4414718560764818eng
dc.contributor.referee4Marinho, Leandro Balby-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/3728312501032061eng
dc.date.issued2024-12-18-
dc.identifier.citationFERREIRA, Van Den Berg da Gama. Implementing Efficient Error-Tolerant Query Autocompletion Systems. 2024. 107 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2024.eng
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/10568-
dc.description.resumoNesta tese, desenvolvemos algoritmos e estruturas de dados eficazes e eficientes para sistemas de autocompletar consultas tolerantes a erros (ETQAC). Esses sistemas sugerem consultas classificadas com base em um prefixo digitado, passando por duas fases principais: correspondência e classificação. A fase de correspondência seleciona sugestões que combinam com o prefixo, enquanto a fase de classificação organiza os resultados de acordo com uma função de pontuação que busca as sugestões mais relevantes. Discutimos o uso de uma abordagem de paralelismo de bits para calcular a distância de edição entre strings, adaptando-a para métodos de busca aproximada por prefixo. Propomos um método baseado em tries chamado BWBEV, que utiliza uma representação unária de vetores de edição e operações de bits para atualizá-los ao calcular distâncias de edição. Demonstramos também como aplicar essa técnica para computar distâncias de edição online sem uma estrutura de índice. Nossos experimentos mostram que o BWBEV melhora a velocidade de processamento em mais de 36% em comparação com métodos de ponta. Além disso, investigamos a otimização do cálculo dos resultados principais, combinando as fases de correspondência e classificação para eliminar resultados irrelevantes durante a correspondência, acelerando assim o processamento. Como ETQACs precisam apresentar apenas algumas das melhores sugestões, essa limitação é explorada para reduzir custos computacionais. Em relação à fase de correspondência, estudos anteriores utilizaram tries e variações como estruturas em memória. No entanto, esses métodos podem exigir muita memória. Exploramos o uso de burst tries, uma versão compacta de tries, como estrutura subjacente para métodos de busca de prefixo tolerante a erros. Burst tries constroem contêineres leves nos nós folha do índice, reduzindo custos de armazenamento sem comprometer o desempenho. Ao indexar o conjunto de dados JusBrasil, o uso de burst tries reduziu o consumo de memória para 26% de uma trie completa e aumentou o desempenho de tempo em 16%.eng
dc.description.abstractIn this thesis, we focus on developing effective and efficient algorithms and data structures for implementing error-tolerant query autocompletion (ETQAC) systems. An ETQAC system suggests fully ranked queries based on a typed prefix and consists of two main phases: matching and ranking. The matching phase involves selecting query suggestions that match a given prefix, while the ranking phase involves sorting the matched results according to a score function that attempts to select the most relevant suggestions. We discuss the use of a bit-parallel approach to compute the edit distance between two strings and demonstrate how it can be adapted for approximate prefix search methods. We propose a trie-based method, called BWBEV, that uses a unary representation of edit vectors and bitwise operations to update them when computing edit distances. We also show how to apply our new bit-parallelism technique strategy to online edit distance computation between strings without index structure. Our experimental results with BWBEV indicate that it can significantly improve processing speed by more than 36% compared to state-of-the-art methods. In addition, we also study how to optimize the computation of top results when performing the ranking by combining the match and ranking phases to prune results while computing the matches, consequently accelerating the query processing. ETQAC systems usually need to present just a few top-ranked suggestions to their users and we can take advantage of this limit in the number of answers to reduce the computational costs when implementing an ETQAC system. Regarding methods for computing matching results, several previous studies in the literature have utilized tries and their variations as in-memory data structures to implement the matching phase of ETQAC systems. However, these methods may require a significant amount of memory to process queries. We explore the use of burst tries, a compact version of tries, as the underlying data structure to implement state-of-the-art trie-based error-tolerant prefix search methods. Burst tries are an alternative compact trie implementation that builds lightweight containers in the leaf nodes of the index based on a criterion or parameter to reduce storage costs while maintaining close performance to tries. We examine the trade-off between memory usage and time performance while varying the parameters used to build the burst trie index. For instance, when indexing the JusBrasil dataset, one of the datasets utilized in our experiments, the use of burst tries reduces the memory required by a full trie to 26% and increases time performance to 16%.eng
dc.formatapplication/pdf*
dc.thumbnail.urlhttps://tede.ufam.edu.br/retrieve/80285/Tese_VanDenBergFerreira_PPGI.pdf.jpg*
dc.languageengeng
dc.publisherUniversidade Federal do Amazonaseng
dc.publisher.departmentInstituto de Computaçãoeng
dc.publisher.countryBrasileng
dc.publisher.initialsUFAMeng
dc.publisher.programPrograma de Pós-graduação em Informáticaeng
dc.rightsAcesso Aberto-
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: ENGENHARIA DE SOFTWAREeng
dc.titleImplementing Efficient Error-Tolerant Query Autocompletion Systemseng
dc.typeTeseeng
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-7860-9575eng
dc.creator.orcidhttps://orcid.org/0000-0001-8985-5045eng
dc.contributor.referee1orcidhttps://orcid.org/0000-0002-8992-495Xeng
dc.contributor.referee2orcidhttps://orcid.org/0000-0002-7608-2052eng
dc.contributor.referee3orcidhttps://orcid.org/0000-0001-7117-3994eng
dc.contributor.referee4orcidhttps://orcid.org/0000-0001-7599-372Xeng
dc.subject.userAutocompleteeng
dc.subject.userTrieeng
dc.subject.userBurst trieeng
dc.subject.userTrie buildingeng
dc.subject.userBit parallelismeng
dc.subject.userTop-keng
Appears in Collections:Doutorado em Informática

Files in This Item:
File Description SizeFormat 
Tese_VanDenBergFerreira_PPGI.pdf2.03 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.