Desarrollo de una aplicación web que permita identificar automáticamente los principales tópicos en documentos médicos digitales

Mena Chamba, Andrea Estefanía

Please use this identifier to cite or link to this item: http://dspace.utpl.edu.ec/handle/20.500.11962/26279

Title:	Desarrollo de una aplicación web que permita identificar automáticamente los principales tópicos en documentos médicos digitales
Authors:	Mena Chamba, Andrea Estefanía
Director:	Reátegui Rojas, Ruth María
Keywords:	Ecuador. Tesis digital.
Issue Date:	2020
Citation:	Mena Chamba, A. E. Reátegui Rojas, R. M. (2020) Desarrollo de una aplicación web que permita identificar automáticamente los principales tópicos en documentos médicos digitales [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/20.500.11962/26279
Abstract:	Abstract: Topic Modeling is an unsupervised machine learning technique that allows to extract topics from certain documents and classify them. In this work, a web application was developed based on the Latent Dirichlet Allocation (LDA) model to extract topics from documents with medical information. 220 digital documents were used, these documents have information about health conditions of different patients. A pre-processing was carried out, which implies cleaning and refining the data to define the medical data or terms that can represent the documents. Subsequently, a document representation was made through a document term matrix. LDA was applied with this matrix, therefore the document-topic matrix and topic-term matrix were obtained. A very important feature that was added to the application is to give options to choose the number of the topics. For this, 4 metrics based on graphs were used to allow the selection of the number of topics. Also, the use of specialized medical terminology turned out to be a better option when selecting the type of vocabulary that describes the documents. The results can be evidenced by a heat map, word cloud and an interactive tool called PyLDAvis.
Description:	Resumen: Topic Modeling o Modelado de temas es una técnica no supervisada del aprendizaje de máquina que permite extraer tópicos o temas desde ciertos documentos y de esta manera poder clasificarlos. Para el presente trabajo de titulación se desarrolló una aplicación web que, con base en el modelo Latent Dirichlet Allocation (LDA) extrae tópicos de documentos con información médica. Se trabajó con un total de 220 documentos digitales que tratan de casos de pacientes con diversas condiciones de salud. Se realizó un pre-procesamiento, lo cual implica una limpieza y refinamiento de los datos para poder definir los datos o términos médicos que puedan representar a los documentos. Posteriormente, se realizó una representación de los documentos a través de una matriz documento-término. LDA se usa con esta matriz y se obtiene las matrices de documento-tópico y tópico-término. Una característica muy importante que se agregó a la aplicación es dar opciones para elegir el número de tópicos. Para esto se utilizó 4 métricas que en base gráficas permiten la selección del número de tópicos. Además, el empleo de terminología especializada en medicina resultó ser una mejor opción al momento de seleccionar el tipo de vocabulario que describa a los documentos. Los resultados se pueden evidenciar mediante mapa de calor, nubes de palabras y una herramienta interactiva llamada PyLDAvis.
Identifier :	Cobarc: 1344822
URI:	https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=123741.TITN.
Type:	bachelorThesis
Appears in Collections:	Ingeniero en Sistemas Informáticos y Computación

Files in This Item:

7e3914b9-4c93-443e-b9d0-acf20c7e0859

Show full item record