Please use this identifier to cite or link to this item:
http://dspace.utpl.edu.ec/handle/20.500.11962/29493
Title: | Word Embedding en documentos médicos através dela aplicación de Word2Vec y Doc2Vec |
Authors: | Reátegui Rojas, Ruth María Jaramillo Uday, Luis Alfredo |
Keywords: | Ecuador. Tesis digital. |
Issue Date: | 2022 |
Citation: | Jaramillo Uday, L. A. Reátegui Rojas, R. M. (2022) Word Embedding en documentos médicos através dela aplicación de Word2Vec y Doc2Vec [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/20.500.11962/29493 |
Abstract: | Abstract: The use of word embedding (incrustation de palabras) in document analysis for a few years has been widely used, promoting the use in different documents, such as medical documents, in order to obtain better information and usefulness from them.The present investigation considered the application of word embedding using two of its algorithms, the Word2Vec model that is used for word similarity and the Doc2Vec model for text comparison, both will be used in the analysis of medical datasets, a dataset in English on obesity and diabetes and another in Spanish that contains different medical reports.As a result, it was obtained that the Word2Vec model used in the data set in English had a similarity result of 0.99. The same model used in the Spanish data set obtained results of similarity of 0.25, this is because the documents of this data set have content of different diseases. The Doc2Vec model showed a good result both in the data set in Spanish and in the data set in English. |
Description: | Resumen: El uso de incrustación de palabras (Word Embedding) en el análisis de documentos desde hace unos años ha sido ampliamente utilizado, promoviendo el uso en diferentes documentos, como documentos médicos, con el fin de obtener una mejor información y utilidad de estos. La presente investigación consideró la aplicación de incrustación de palabras utilizando dos de sus algoritmos, el modelo Word2Vec que es usado para similitud de palabras y el modelo Doc2Vec para comparación de textos, ambos serán usados en el análisis de dataset médicos, un datas et en inglés sobre obesidad y diabetes y otro en español que contiene diferentes reportes médicos. Como resultado se obtuvo que el modelo Word2Vec usado en el conjunto de datos en inglés tuvo un resultado de similitud de 0,99. El mismo modelo utilizado en el conjunto de datos español obtuvo resultados de similitud de 0,25, esto se debe a que los documentos de este conjunto de datos tienen contenido de diferentes enfermedades. El modelo Doc2Vec reflejó un buen resultado tanto en el conjunto de datos en español como en el conjunto de datos en inglés. |
URI: | https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=128238.TITN. |
Appears in Collections: | Ingeniero en Sistemas Informáticos y Computación |
Files in This Item:
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.