???jsp.display-item.social.title??? |
![]() ![]() |
Please use this identifier to cite or link to this item:
https://tede.ufam.edu.br/handle/tede/2957
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.creator | Lima, Márcia Sampaio | - |
dc.creator.Lattes | http://lattes.cnpq.br/2066466047322329 | por |
dc.contributor.advisor1 | Cavalcanti, João Marcos Bastos | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3537707069694606 | por |
dc.date.available | 2012-10-08 | - |
dc.date.issued | 2009-04-24 | - |
dc.identifier.citation | LIMA, Márcia Sampaio.Identificando o Tópico de Páginas Web. 2009. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009. | por |
dc.identifier.uri | http://tede.ufam.edu.br/handle/tede/2957 | - |
dc.description.resumo | Evidências textuais e estruturais que podem ser extraídas dos documentos web são frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recuperação de informação (RI). O tópico de uma página web é uma evidência textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evidência para melhorar ranking de páginas web, melhorar sistemas de classificação e filtragem destas páginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um método para identificar automaticamente o tópico de páginas web através da combinação de diferentes fontes de evidências. Definimos o tópico de uma página como sendo um conjunto de, no máximo, cinco termos distintos relacionadas ao assunto principal da página. Em linhas gerais, o método de identificação de tópicos proposto nesta dissertação, está dividido em quatro fases distintas: (1) identificação dos possíveis termos descritores de uma página web, fazendo uso de múltiplas fontes de evidências; (2) utilização de um algoritmo genético na combinação das fontes de evidências usadas; (3) definição dos três melhores termos descritores da página; e (4) utilização da estrutura hierárquica de um diretório abrangente e popular da web com o objetivo de identificar o tópico da referida página. Os resultados obtidos nos experimentos realizados para avaliar o método proposto foram os seguintes: (1) alto grau de importância do uso da concatenação do texto de âncora de links na descoberta dos termos descritores de uma página web; (2) boa avaliação da eficiência do método proposto na identificação de tópicos de páginas web: 0.9129, em uma escala de zero a um; e (3) boa avaliação da utilização de parte do método proposto na classificação automática de páginas web na estrutura hierárquica do diretório Google, atingindo 88%±0.11 de acertos das páginas classificadas. Os experimentos realizados demonstram que o modelo proposto é útil na identificação do tópico de uma página web e também na classificação de páginas na estrutura hierárquica do diretório Google. | por |
dc.description.abstract | Textual and structural sources of evidences extracted from web pages are frequently used to improve the results of Information Retrieval (IR) systems. The main topic of a web page is a textual source of evidence that has a wide applicability in IR systems. It can be used as a new source of evidence to improve ranking results, page classification, filtering, among other applications. In this work, we propose to study, develop and evaluate a method to identify the main topic of a web page using a combination of different sources of evidences. We define the main topic of a web page as a set of, at most, five distinct keywords related to the main subject of the page. In general, the proposed method, is divided in four distinct phases: (1) identification of the keywords that describe the web page content, using multiple sources of evidences; (2) use of a genetic algorithm to combine the sources of evidences; (3) definition of the three better keywords of the page; and (4) use of a web directory to identify the page main topic. The results of the experiments show that: (1) the best source of evidence used to describe the keywords of a web page is the content link; (2) the proposed method is efficient to identify the main topic of a web page: 0.9129, in a scale of zero to one; and (3) the proposed method is also efficient to automatic classify web pages within the Google directory, reaching 88%±0.11 of precision in the classification task. | eng |
dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado do Amazonas | - |
dc.format | application/pdf | por |
dc.thumbnail.url | http://200.129.163.131:8080//retrieve/7040/DISSERTACAO%20MARCIA.pdf.jpg | * |
dc.language | por | por |
dc.publisher | Universidade Federal do Amazonas | por |
dc.publisher.department | Instituto de Computação | por |
dc.publisher.country | BR | por |
dc.publisher.initials | UFAM | por |
dc.publisher.program | Programa de Pós-graduação em Informática | por |
dc.rights | Acesso Aberto | por |
dc.subject | Tópico de páginas Web | por |
dc.subject | Algoritmos genéticos | por |
dc.subject | Múltiplas fontes de evidências | por |
dc.subject | Diretórios web | por |
dc.subject | Topic of web page | eng |
dc.subject | Genetic algorithm | eng |
dc.subject | Multiple sources of evidences | eng |
dc.subject | Web directories | eng |
dc.subject.cnpq | CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO | por |
dc.title | Identificando o Tópico de Páginas Web | por |
dc.title.alternative | Identifying the topic of Web Pages | eng |
dc.type | Dissertação | por |
Appears in Collections: | Mestrado em Informática |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DISSERTACAO MARCIA.pdf | 775.86 kB | Adobe PDF | ![]() Download/Open Preview |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.