Identificando o Tópico de Páginas Web

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/2957

Full metadata record

DC Field	Value	Language
dc.creator	Lima, Márcia Sampaio	-
dc.creator.Lattes	http://lattes.cnpq.br/2066466047322329	por
dc.contributor.advisor1	Cavalcanti, João Marcos Bastos	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3537707069694606	por
dc.date.available	2012-10-08	-
dc.date.issued	2009-04-24	-
dc.identifier.citation	LIMA, Márcia Sampaio.Identificando o Tópico de Páginas Web. 2009. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009.	por
dc.identifier.uri	http://tede.ufam.edu.br/handle/tede/2957	-
dc.description.resumo	Evidências textuais e estruturais que podem ser extraídas dos documentos web são frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recuperação de informação (RI). O tópico de uma página web é uma evidência textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evidência para melhorar ranking de páginas web, melhorar sistemas de classificação e filtragem destas páginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um método para identificar automaticamente o tópico de páginas web através da combinação de diferentes fontes de evidências. Definimos o tópico de uma página como sendo um conjunto de, no máximo, cinco termos distintos relacionadas ao assunto principal da página. Em linhas gerais, o método de identificação de tópicos proposto nesta dissertação, está dividido em quatro fases distintas: (1) identificação dos possíveis termos descritores de uma página web, fazendo uso de múltiplas fontes de evidências; (2) utilização de um algoritmo genético na combinação das fontes de evidências usadas; (3) definição dos três melhores termos descritores da página; e (4) utilização da estrutura hierárquica de um diretório abrangente e popular da web com o objetivo de identificar o tópico da referida página. Os resultados obtidos nos experimentos realizados para avaliar o método proposto foram os seguintes: (1) alto grau de importância do uso da concatenação do texto de âncora de links na descoberta dos termos descritores de uma página web; (2) boa avaliação da eficiência do método proposto na identificação de tópicos de páginas web: 0.9129, em uma escala de zero a um; e (3) boa avaliação da utilização de parte do método proposto na classificação automática de páginas web na estrutura hierárquica do diretório Google, atingindo 88%±0.11 de acertos das páginas classificadas. Os experimentos realizados demonstram que o modelo proposto é útil na identificação do tópico de uma página web e também na classificação de páginas na estrutura hierárquica do diretório Google.	por
dc.description.abstract	Textual and structural sources of evidences extracted from web pages are frequently used to improve the results of Information Retrieval (IR) systems. The main topic of a web page is a textual source of evidence that has a wide applicability in IR systems. It can be used as a new source of evidence to improve ranking results, page classification, filtering, among other applications. In this work, we propose to study, develop and evaluate a method to identify the main topic of a web page using a combination of different sources of evidences. We define the main topic of a web page as a set of, at most, five distinct keywords related to the main subject of the page. In general, the proposed method, is divided in four distinct phases: (1) identification of the keywords that describe the web page content, using multiple sources of evidences; (2) use of a genetic algorithm to combine the sources of evidences; (3) definition of the three better keywords of the page; and (4) use of a web directory to identify the page main topic. The results of the experiments show that: (1) the best source of evidence used to describe the keywords of a web page is the content link; (2) the proposed method is efficient to identify the main topic of a web page: 0.9129, in a scale of zero to one; and (3) the proposed method is also efficient to automatic classify web pages within the Google directory, reaching 88%±0.11 of precision in the classification task.	eng
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado do Amazonas	-
dc.format	application/pdf	por
dc.thumbnail.url	http://200.129.163.131:8080//retrieve/7040/DISSERTACAO%20MARCIA.pdf.jpg	*
dc.language	por	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.country	BR	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.subject	Tópico de páginas Web	por
dc.subject	Algoritmos genéticos	por
dc.subject	Múltiplas fontes de evidências	por
dc.subject	Diretórios web	por
dc.subject	Topic of web page	eng
dc.subject	Genetic algorithm	eng
dc.subject	Multiple sources of evidences	eng
dc.subject	Web directories	eng
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.title	Identificando o Tópico de Páginas Web	por
dc.title.alternative	Identifying the topic of Web Pages	eng
dc.type	Dissertação	por
Appears in Collections:	Mestrado em Informática

Files in This Item:

File	Description	Size	Format
DISSERTACAO MARCIA.pdf		775.86 kB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

Universidade Federal do Amazonas