Etiquetado asistido de documentos de investigación mediante procesamiento de lenguaje natural y tecnologías de la web semántica
DOI:
https://doi.org/10.22517/23447214.17721Keywords:
Metadato, Recuperación de información, Procesamiento natural del lenguaje, Web semánticaAbstract
El presente artículo se basa en la implementación del procesamiento de lenguaje natural (PLN) y las tecnologías de la web semántica, con la intención de facilitar la extracción de palabras claves en documentos de investigación de forma más eficiente y eficaz. Para tal fin, por medio de una matriz de comparación se seleccionó un algoritmo para realizar el proceso de extracción. Se eligió el algoritmo Keyword Extraction Based On Entropy Difference (C#) realizado por Zhen YANG, Jianjun LEI, Kefeng FAN y Yingxu LAI. Este algoritmo fue desarrollado para procesarlos documentos en idioma chino, por lo que fue requerida una adaptación al idioma inglés y español anexando los vocabularios de correspondientes a estos idiomas configurando el código fuente del algoritmo. Adicionalmente se adaptó el algoritmo para que usase una ontología con la terminología propia del dominio de conocimiento de ingenierías. El algoritmo fue evaluado por medio de ejemplos de artículos científicos, obteniendo métricas de recuperación de la información, como son la precisión, exhaustividad y el valor F. Se obtuvo como resultado un valor F promedio 0.63 para una muestra de 13 artículos científicos, lo que valida el algoritmo como óptimo para la tarea propuesta.Downloads
Downloads
-
Vistas(Views): 1214
- PDF (Español (España)) Descargas(Downloads): 755
Published
How to Cite
Issue
Section
License
Copyright (c) 2019 Scientia et technica

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
The undersigned authors declare that the article submitted to the journal Scientia et Technica is an original work and that all its content is free of third-party copyright restrictions or has the corresponding authorizations. Consequently, the authors assume responsibility for any litigation or claim related to intellectual property rights, releasing the Technological University of Pereira and the journal Scientia et Technica from any liability.
If the submitted work is accepted for publication, the authors retain copyright to the article and grant the journal Scientia et Technica the right of first publication, as well as a non-exclusive, perpetual license to reproduce, edit, distribute, display, and publicly communicate the article in any medium or format, including print, electronic, databases, repositories, the Internet, or other scientific dissemination systems. The authors agree that the article will be published in open access and distributed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0).
The journal Scientia will respect in all cases the moral rights of the authors, in accordance with the provisions of article 30 of Law 23 of 1982 of the Republic of Colombia, recognizing the authorship of the work, the right to integrity and the right of disclosure, which are inalienable and non-waivable.