Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)

Córdova Añazco, José Daniel

Please use this identifier to cite or link to this item: http://dspace.utpl.edu.ec/handle/29.500.19856/78449

Title:	Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)
Authors:	Córdova Añazco, José Daniel
Director:	Barba Guamán, Luis Rodrigo
Keywords:	Ecuador. Tesis digital.
Issue Date:	2026
Citation:	Córdova Añazco, J. D. Barba Guamán, L. R. (2026) Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT) [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/29.500.19856/78449
Abstract:	Abstract: This research implemented and evaluated models based on Vision Transformers for the detection of vehicles in aerial images captured by unmanned aerial vehicles in complex urban environments. Two architectures with a Transformer approach, ViTDet and Deformable DETR, were implemented and compared with the reference convolutional model YOLOv8m using standard performance metrics, Precision, Recall, F1 score, and mAP with a threshold of 0.5, in addition to inference time. The XP methodology was used as an agile strategy for development, and a dataset labeled with the classes Car and Bus was used for the data. In addition, the images were resized to 1280×720 to standardize the input and preserve sufficient detail of the scenes. The results obtained show that Transformer models achieve more accurate detection than the convolutional model, even in low-light scenes. Overall, this work provides experimental evidence on the feasibility and challenges of applying Transformers in urban aerial scenarios.
Description:	Resumen: La presente investigación implementó y evaluó modelos basados en Vision Transformers en la detección de vehículos en imágenes aéreas captadas por vehículos aéreos no tripulados en entornos urbanos complejos. Se implementaron dos arquitecturas con enfoque Transformer, ViTDet y Deformable DETR, a los cuales se los comparo con el modelo convolucional de referencia YOLOv8m, mediante métricas estándar de desempeño, Precision, Recall, F1 score y mAP con un umbral de 0,5, además del tiempo de inferencia. Para el desarrollo se utilizó la metodología XP como estrategia ágil, y por parte de los datos, se utilizó un conjunto de datos etiquetados con las clases Carro y Bus, además, se redimensionaron las imágenes a 1280×720 para de estandarizar la entrada y conservar suficiente detalle de las escenas. Gracias a los resultados obtenidos se evidencia que los modelos Trasnformer alcanzan una detección más precisa que el modelo convolucional incluso en escenas con baja iluminación. En conjunto este trabajo aporta evidencia experimental sobre la viabilidad y los retos de aplicar Transformers en escenarios aéreos urbanos.
Identifier :	Cobarc: 1380290
URI:	https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=151968.TITN.
Type:	bachelorThesis
Appears in Collections:	Titulación de Sistemas Informáticos y Computación

Files in This Item:

fc79dee4-74cc-4662-b4c2-1564c18b64a8

Show full item record