Please use this identifier to cite or link to this item:
http://dspace.utpl.edu.ec/handle/20.500.11962/26279
Title: | Desarrollo de una aplicación web que permita identificar automáticamente los principales tópicos en documentos médicos digitales |
Authors: | Reátegui Rojas, Ruth María Mena Chamba, Andrea Estefanía. |
Keywords: | Ecuador. Tesis digital. |
Issue Date: | 2020 |
Citation: | Mena Chamba, A. E. Reátegui Rojas, R. M. (2020) Desarrollo de una aplicación web que permita identificar automáticamente los principales tópicos en documentos médicos digitales [Tesis de N/D, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/20.500.11962/26279 |
Abstract: | Abstract: Topic Modeling is an unsupervised machine learning technique that allows to extract topics from certain documents and classify them. In this work, a web application was developed based on the Latent Dirichlet Allocation (LDA) model to extract topics from documents with medical information. 220 digital documents were used, these documents have information about health conditions of different patients. A pre-processing was carried out, which implies cleaning and refining the data to define the medical data or terms that can represent the documents. Subsequently, a document representation was made through a document term matrix. LDA was applied with this matrix, therefore the document-topic matrix and topic-term matrix were obtained. A very important feature that was added to the application is to give options to choose the number of the topics. For this, 4 metrics based on graphs were used to allow the selection of the number of topics. Also, the use of specialized medical terminology turned out to be a better option when selecting the type of vocabulary that describes the documents. The results can be evidenced by a heat map, word cloud and an interactive tool called PyLDAvis. |
Description: | Resumen: Topic Modeling o Modelado de temas es una técnica no supervisada del aprendizaje de máquina que permite extraer tópicos o temas desde ciertos documentos y de esta manera poder clasificarlos. Para el presente trabajo de titulación se desarrolló una aplicación web que, con base en el modelo Latent Dirichlet Allocation (LDA) extrae tópicos de documentos con información médica. Se trabajó con un total de 220 documentos digitales que tratan de casos de pacientes con diversas condiciones de salud. Se realizó un pre-procesamiento, lo cual implica una limpieza y refinamiento de los datos para poder definir los datos o términos médicos que puedan representar a los documentos. Posteriormente, se realizó una representación de los documentos a través de una matriz documento-término. LDA se usa con esta matriz y se obtiene las matrices de documento-tópico y tópico-término. Una característica muy importante que se agregó a la aplicación es dar opciones para elegir el número de tópicos. Para esto se utilizó 4 métricas que en base gráficas permiten la selección del número de tópicos. Además, el empleo de terminología especializada en medicina resultó ser una mejor opción al momento de seleccionar el tipo de vocabulario que describa a los documentos. Los resultados se pueden evidenciar mediante mapa de calor, nubes de palabras y una herramienta interactiva llamada PyLDAvis. |
URI: | https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=123741.TITN. |
Appears in Collections: | Ingeniero en Sistemas Informáticos y Computación |
Files in This Item:
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.