Implementing Efficient Error-Tolerant Query Autocompletion Systems

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/10568

Full metadata record

DC Field	Value	Language
dc.creator	Ferreira, Van Den Berg da Gama	-
dc.creator.Lattes	https://lattes.cnpq.br/9433225118102294	eng
dc.contributor.advisor1	Moura, Edleno Silva de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4737852130924504	eng
dc.contributor.referee1	Silva, Altigran Soares da	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/3405503472010994	eng
dc.contributor.referee2	Freitas, Rosiane Rodrigues de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/8358219976594707	eng
dc.contributor.referee3	Rosa, Thierson Couto	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4414718560764818	eng
dc.contributor.referee4	Marinho, Leandro Balby	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/3728312501032061	eng
dc.date.issued	2024-12-18	-
dc.identifier.citation	FERREIRA, Van Den Berg da Gama. Implementing Efficient Error-Tolerant Query Autocompletion Systems. 2024. 107 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2024.	eng
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/10568	-
dc.description.resumo	Nesta tese, desenvolvemos algoritmos e estruturas de dados eficazes e eficientes para sistemas de autocompletar consultas tolerantes a erros (ETQAC). Esses sistemas sugerem consultas classificadas com base em um prefixo digitado, passando por duas fases principais: correspondência e classificação. A fase de correspondência seleciona sugestões que combinam com o prefixo, enquanto a fase de classificação organiza os resultados de acordo com uma função de pontuação que busca as sugestões mais relevantes. Discutimos o uso de uma abordagem de paralelismo de bits para calcular a distância de edição entre strings, adaptando-a para métodos de busca aproximada por prefixo. Propomos um método baseado em tries chamado BWBEV, que utiliza uma representação unária de vetores de edição e operações de bits para atualizá-los ao calcular distâncias de edição. Demonstramos também como aplicar essa técnica para computar distâncias de edição online sem uma estrutura de índice. Nossos experimentos mostram que o BWBEV melhora a velocidade de processamento em mais de 36% em comparação com métodos de ponta. Além disso, investigamos a otimização do cálculo dos resultados principais, combinando as fases de correspondência e classificação para eliminar resultados irrelevantes durante a correspondência, acelerando assim o processamento. Como ETQACs precisam apresentar apenas algumas das melhores sugestões, essa limitação é explorada para reduzir custos computacionais. Em relação à fase de correspondência, estudos anteriores utilizaram tries e variações como estruturas em memória. No entanto, esses métodos podem exigir muita memória. Exploramos o uso de burst tries, uma versão compacta de tries, como estrutura subjacente para métodos de busca de prefixo tolerante a erros. Burst tries constroem contêineres leves nos nós folha do índice, reduzindo custos de armazenamento sem comprometer o desempenho. Ao indexar o conjunto de dados JusBrasil, o uso de burst tries reduziu o consumo de memória para 26% de uma trie completa e aumentou o desempenho de tempo em 16%.	eng
dc.description.abstract	In this thesis, we focus on developing effective and efficient algorithms and data structures for implementing error-tolerant query autocompletion (ETQAC) systems. An ETQAC system suggests fully ranked queries based on a typed prefix and consists of two main phases: matching and ranking. The matching phase involves selecting query suggestions that match a given prefix, while the ranking phase involves sorting the matched results according to a score function that attempts to select the most relevant suggestions. We discuss the use of a bit-parallel approach to compute the edit distance between two strings and demonstrate how it can be adapted for approximate prefix search methods. We propose a trie-based method, called BWBEV, that uses a unary representation of edit vectors and bitwise operations to update them when computing edit distances. We also show how to apply our new bit-parallelism technique strategy to online edit distance computation between strings without index structure. Our experimental results with BWBEV indicate that it can significantly improve processing speed by more than 36% compared to state-of-the-art methods. In addition, we also study how to optimize the computation of top results when performing the ranking by combining the match and ranking phases to prune results while computing the matches, consequently accelerating the query processing. ETQAC systems usually need to present just a few top-ranked suggestions to their users and we can take advantage of this limit in the number of answers to reduce the computational costs when implementing an ETQAC system. Regarding methods for computing matching results, several previous studies in the literature have utilized tries and their variations as in-memory data structures to implement the matching phase of ETQAC systems. However, these methods may require a significant amount of memory to process queries. We explore the use of burst tries, a compact version of tries, as the underlying data structure to implement state-of-the-art trie-based error-tolerant prefix search methods. Burst tries are an alternative compact trie implementation that builds lightweight containers in the leaf nodes of the index based on a criterion or parameter to reduce storage costs while maintaining close performance to tries. We examine the trade-off between memory usage and time performance while varying the parameters used to build the burst trie index. For instance, when indexing the JusBrasil dataset, one of the datasets utilized in our experiments, the use of burst tries reduces the memory required by a full trie to 26% and increases time performance to 16%.	eng
dc.format	application/pdf	*
dc.thumbnail.url	https://tede.ufam.edu.br/retrieve/80285/Tese_VanDenBergFerreira_PPGI.pdf.jpg	*
dc.language	eng	eng
dc.publisher	Universidade Federal do Amazonas	eng
dc.publisher.department	Instituto de Computação	eng
dc.publisher.country	Brasil	eng
dc.publisher.initials	UFAM	eng
dc.publisher.program	Programa de Pós-graduação em Informática	eng
dc.rights	Acesso Aberto	-
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: ENGENHARIA DE SOFTWARE	eng
dc.title	Implementing Efficient Error-Tolerant Query Autocompletion Systems	eng
dc.type	Tese	eng
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-7860-9575	eng
dc.creator.orcid	https://orcid.org/0000-0001-8985-5045	eng
dc.contributor.referee1orcid	https://orcid.org/0000-0002-8992-495X	eng
dc.contributor.referee2orcid	https://orcid.org/0000-0002-7608-2052	eng
dc.contributor.referee3orcid	https://orcid.org/0000-0001-7117-3994	eng
dc.contributor.referee4orcid	https://orcid.org/0000-0001-7599-372X	eng
dc.subject.user	Autocomplete	eng
dc.subject.user	Trie	eng
dc.subject.user	Burst trie	eng
dc.subject.user	Trie building	eng
dc.subject.user	Bit parallelism	eng
dc.subject.user	Top-k	eng
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_VanDenBergFerreira_PPGI.pdf		2.03 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

Universidade Federal do Amazonas