Etiquetado asistido de documentos de investigación mediante procesamiento de lenguaje natural y tecnologías de la web semántica

Pedro Harvey Alvarez Sanchez; Gustavo Andres Uribe Gomez; Alfonso Edil Tintinago P.; Yordan Muñoz

doi:10.22517/23447214.17721

Etiquetado asistido de documentos de investigación mediante procesamiento de lenguaje natural y tecnologías de la web semántica

Autores/as

Pedro Harvey Alvarez Sanchez Corporación universitaria
Gustavo Andres Uribe Gomez Corporación universitaria comfacauca, UNICOMFACAUCA http://orcid.org/0000-0001-5852-7487
Alfonso Edil Tintinago P. Corporación universitaria
Yordan Muñoz Corporación universitaria

DOI:

https://doi.org/10.22517/23447214.17721

Palabras clave:

Metadato, Recuperación de información, Procesamiento natural del lenguaje, Web semántica

Resumen

El presente artículo se basa en la implementación del procesamiento de lenguaje natural (PLN) y las tecnologías de la web semántica, con la intención de facilitar la extracción de palabras claves en documentos de investigación de forma más eficiente y eficaz. Para tal fin, por medio de una matriz de comparación se seleccionó un algoritmo para realizar el proceso de extracción. Se eligió el algoritmo Keyword Extraction Based On Entropy Difference (C#) realizado por Zhen YANG, Jianjun LEI, Kefeng FAN y Yingxu LAI. Este algoritmo fue desarrollado para procesarlos documentos en idioma chino, por lo que fue requerida una adaptación al idioma inglés y español anexando los vocabularios de correspondientes a estos idiomas configurando el código fuente del algoritmo. Adicionalmente se adaptó el algoritmo para que usase una ontología con la terminología propia del dominio de conocimiento de ingenierías. El algoritmo fue evaluado por medio de ejemplos de artículos científicos, obteniendo métricas de recuperación de la información, como son la precisión, exhaustividad y el valor F. Se obtuvo como resultado un valor F promedio 0.63 para una muestra de 13 artículos científicos, lo que valida el algoritmo como óptimo para la tarea propuesta.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Pedro Harvey Alvarez Sanchez, Corporación universitaria

COORDINADOR DE INVESTIGACION

Gustavo Andres Uribe Gomez, Corporación universitaria comfacauca, UNICOMFACAUCA

Lider Grupo Tic Unicomfacauca Docente Investigador

Alfonso Edil Tintinago P., Corporación universitaria

Ingeniero de Sistemas

Yordan Muñoz, Corporación universitaria

Ingeniero de Sistemas

Descargas

Vistas(Views):

PDF Descargas(Downloads): 827

Publicado

2018-12-30

Cómo citar

Alvarez Sanchez, P. H., Uribe Gomez, G. A., Tintinago P., A. E., & Muñoz, Y. (2018). Etiquetado asistido de documentos de investigación mediante procesamiento de lenguaje natural y tecnologías de la web semántica. Scientia Et Technica, 23(4), 528–537. https://doi.org/10.22517/23447214.17721

Descargar cita

Número

Vol. 23 Núm. 4 (2018)

Sección

Sistemas y Computación

Licencia

Derechos de autor 2019 Scientia et technica

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Los autores firmantes declaran que el artículo sometido a la revista Scientia et Technica es un trabajo original y que todo el material que lo compone se encuentra libre de restricciones de derechos de autor de terceros o cuenta con las autorizaciones correspondientes. En consecuencia, los autores asumen la responsabilidad por cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de toda responsabilidad a la Universidad Tecnológica de Pereira y a la revista Ciencia y Tecnología .

En caso de que el trabajo presentado sea aprobado para su publicación, los autores conservan los derechos de autor sobre el artículo y conceden a la revista Scientia et Technica el derecho de primera publicación, así como una licencia no exclusiva, ilimitada en el tiempo, para reproducir, editar, distribuir, exhibir y comunicar públicamente el artículo en cualquier medio o formato, incluyendo medios impresos, electrónicos, bases de datos, repositorios, Internet u otros sistemas de difusión científica. Los autores aceptan que el artículo sea publicado en acceso abierto y distribuido bajo la licencia Creative Commons Atribución–No Comercial–Compartir Igual 4.0 Internacional (CC BY-NC-SA 4.0).

La revista Scientia y respetará en todos los casos los derechos morales de los autores, conforme a lo establecido en el artículo 30 de la Ley 23 de 1982 de la República de Colombia, reconociendo la paternidad de la obra, el derecho a la integridad y el derecho de divulgación, los cuales son inalienables e irrenunciables.