Propuesta para mejorar el proceso automatizado de clasificación de documentos en MOCIC

AuthorAleida Eva Sáez Aldana/Carlos Sáez Aldana
Pages485-501
485
Propuesta para mejorar el proceso automatizado
de clasificación de documentos en MOCIC
Proposal for improving the automated classification
of documents MOCIC
ALEIDA EVA SÁEZ ALDANA
CARLOS SÁEZ ALDANA
Cuba
Resumen
En la Universidad de las Ciencias Informáticas se desarrolla un Motor de
Clasificación Inteligente por Contenidos (MOCIC) con el fin de que clasifi-
que de forma automática y por categorías, según el tema, la información que
está en las páginas Web. Este motor posee entre otros módulos uno para la
clasificación de texto. Para este módulo se desea implementar la función de
ponderación ACC (Combinación Analítica de Criterios), que se basa en una
combinación heurística de criterios analizando solo el Lenguaje de Marcación
de Hipertexto (HTML) de las páginas, para detectar los términos relevantes y
saber a qué categoría puede pertenecer. La tendencia actual en el mundo de
la Web es el uso de las Hojas de Estilo en Cascada (CSS) para dar estilo a las
páginas y se propone en este trabajo un método que permite la obtención de
términos relevantes en las páginas HTML a través del análisis de las CSS en
función de uno de los criterios que combina la ACC, el enfatizado.
Palabras clave
ACC, CSS, K-NN: k, Libxml2, Libxslt, XSLT
Abstract
At the University of Information Sciences is developing an Intelligent Clas-
sification Engine for Content (MOCIC) so that automatically classified and ca-
tegorized according to subject, the information that is in Web pages. This en-
gine has among other modules specifically one for text classification. For this
486
Propuesta para mejorar el proceso... / Aleida E. Sáez y Carlos Sáez
module you want to implement the weighting function ACC (Combination
Analytical Criteria), which is based on a heuristic combination of criteria to
analyze only the Hypertext Markup Language (HTML) pages to identify re-
levant terms and know what category can belong. The current trend in the
world of Web design is the use of Cascading Style Sheets to style pages and is
proposed in this paper a method for obtaining relevant terms in HTML pages
by analyzing the CSS based on a criterion that combines the ACC, the “stressed”.
Keywords
ACC, CSS, K-NN: k, Libxml2, Libxslt, XSLT
Introducción
Internet es una infraestructura de redes que conecta a la vez todo tipo de
ordenadores. Conocida como la “red de redes”, es la autopista de la información
por excelencia permitiendo la comunicación de millones de usuarios en todo
el mundo [1]. Es una combinación de hardware (ordenadores interconectados
por vía telefónica o digital) y software (protocolos y lenguajes que hacen que
todo funcione) que crece vertiginosamente a un ritmo sorprendente, pues
cada día se publican en la “red de redes” miles de nuevos documentos y se
conectan por primera vez miles de personas. Tras el impacto que ha tenido en
el mundo el uso de esta potente herramienta, se trabaja constantemente con
el fin de aumentar la rapidez de envío y recepción de datos para así mejorar la
comunicación entre los usuarios desde cualquier parte del planeta.
La World Wide Web (WWW): conjunto de información multimedia ubicado
en diferentes máquinas a lo largo del mundo y que están conectadas a Inter-
net, es en la actualidad el punto más usado en este ámbito y como columna
vertebral en la navegación ofrece gran cúmulo de información y diversos ser-
vicios. Se está hablando no más que del amplio mundo de la Web, páginas en
formato electrónico que tratan temas específicos, poseen enlaces a otras pá-
ginas y tienen una estructura en general basada en el Lenguaje de Marcación
de Hipertexto (HTML) definido por etiquetas que estructuran un texto para su
visualización.
Se estima en nuestros días, que la información existente en formato digital
o electrónico supere 3 000 000 de veces la cantidad de libros escritos en la his-
toria. Tanto cúmulo de contenido hace engorrosa la búsqueda de temas muy
particulares y los usuarios desean consultar la información más precisa en el
menor espacio de tiempo posible, existiendo una dificultad en este sentido y

To continue reading

Request your trial

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT