Please use this identifier to cite or link to this item: http://dspace.utpl.edu.ec/handle/29.500.19856/76505
Title: NER y clasificación automática de documentos médicos con la aplicación de transformers
Authors: Bustamante Moncayo, Kevin Joel
Director: Reátegui Rojas, Ruth María
Keywords: Ecuador.
Tesis digital.
Issue Date: 2026
Citation: Bustamante Moncayo, K. J. Reátegui Rojas, R. M. (2026) NER y clasificación automática de documentos médicos con la aplicación de transformers [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/29.500.19856/76505
Abstract: Abstract: This work presents the application of Transformer-based models for the automation of medical text analysis in Spanish, focusing on Named Entity Recognition (NER) and the classification of clinical documents. Medical texts from public datasets and real documents were used, which were anonymized and subjected to minimal cleaning in order to preserve their original content. Throughout the development of this study, three pre-trained models focused on the clinical domain were evaluated. The evaluation was carried out without fine-tuning or the use of manual BIO tagging schemes, with the objective of observing how these models behave in real-world scenarios. Among the evaluated models, MEDSPANER stood out for its ability to accurately identify relevant clinical entities, allowing its direct use. The extracted entities were then used in the classification of medical documents. The results indicate that, in certain cases, it is possible to use specialized Spanish-language models for clinical tasks without the need for fine-tuning, which facilitates the analysis and organization of medical information.
Description: Resumen: Este trabajo presenta la aplicación de modelos basados en transformers para la automatización del análisis de textos médicos en español, centrando en el Reconocimiento de Entidades Nombradas (NER) y la clasificación de documentos clínicos. Se utilizaron textos médicos de conjuntos de datos públicos y documentos reales que fueron anonimizados, a los cuales se aplicó una pequeña limpieza para mantener su contenido original. A lo largo del desarrollo de este estudio se evaluaron tres modelos preentrenados para estar enfocados al dominio clínico, la evaluación se hizo sin realizar fine-tuning ni usar esquemas manuales de etiquetado BIO, con el objetivo de observar cómo se comportan estos modelos en situaciones reales. Entre los modelos evaluados, MEDSPANER destacó al momento de identificar entidades clínicas relevantes con gran precisión, lo que permitió su uso directo. Las entidades obtenidas fueron utilizadas en la clasificación de documentos médicos. Los resultados demuestran que es posible utilizar modelos especializados en español sin necesidad de fine-tuning, lo que facilita el análisis y la utilidad de la información médica.
Identifier : Cobarc: 1380269
URI: https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=151948.TITN.
Type: bachelorThesis
Appears in Collections:Titulación de Sistemas Informáticos y Computación



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.