Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)

Córdova Añazco, José Daniel

Please use this identifier to cite or link to this item: http://dspace.utpl.edu.ec/handle/29.500.19856/78449

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Barba Guamán, Luis Rodrigo	es_ES
dc.contributor.author	Córdova Añazco, José Daniel	es_ES
dc.date.accessioned	2026-03-06T16:22:47Z	-
dc.date.available	2026-03-06T16:22:47Z	-
dc.date.issued	2026	es_ES
dc.identifier.citation	Córdova Añazco, J. D. Barba Guamán, L. R. (2026) Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT) [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/29.500.19856/78449	es_ES
dc.identifier.other	Cobarc: 1380290	es_ES
dc.identifier.uri	https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=151968.TITN.	es_ES
dc.description	Resumen: La presente investigación implementó y evaluó modelos basados en Vision Transformers en la detección de vehículos en imágenes aéreas captadas por vehículos aéreos no tripulados en entornos urbanos complejos. Se implementaron dos arquitecturas con enfoque Transformer, ViTDet y Deformable DETR, a los cuales se los comparo con el modelo convolucional de referencia YOLOv8m, mediante métricas estándar de desempeño, Precision, Recall, F1 score y mAP con un umbral de 0,5, además del tiempo de inferencia. Para el desarrollo se utilizó la metodología XP como estrategia ágil, y por parte de los datos, se utilizó un conjunto de datos etiquetados con las clases Carro y Bus, además, se redimensionaron las imágenes a 1280×720 para de estandarizar la entrada y conservar suficiente detalle de las escenas. Gracias a los resultados obtenidos se evidencia que los modelos Trasnformer alcanzan una detección más precisa que el modelo convolucional incluso en escenas con baja iluminación. En conjunto este trabajo aporta evidencia experimental sobre la viabilidad y los retos de aplicar Transformers en escenarios aéreos urbanos.	es_ES
dc.description.abstract	Abstract: This research implemented and evaluated models based on Vision Transformers for the detection of vehicles in aerial images captured by unmanned aerial vehicles in complex urban environments. Two architectures with a Transformer approach, ViTDet and Deformable DETR, were implemented and compared with the reference convolutional model YOLOv8m using standard performance metrics, Precision, Recall, F1 score, and mAP with a threshold of 0.5, in addition to inference time. The XP methodology was used as an agile strategy for development, and a dataset labeled with the classes Car and Bus was used for the data. In addition, the images were resized to 1280×720 to standardize the input and preserve sufficient detail of the scenes. The results obtained show that Transformer models achieve more accurate detection than the convolutional model, even in low-light scenes. Overall, this work provides experimental evidence on the feasibility and challenges of applying Transformers in urban aerial scenarios.	es_ES
dc.language.iso	spa	es_ES
dc.subject	Ecuador.	es_ES
dc.subject	Tesis digital.	es_ES
dc.title	Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)	es_ES
dc.type	bachelorThesis	es_ES
Appears in Collections:	Titulación de Sistemas Informáticos y Computación

Files in This Item:

50aea3ba-25f5-4f94-9469-2e9f0c049975

Show simple item record