Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)

Córdova Añazco, José Daniel

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dspace.utpl.edu.ec/handle/29.500.19856/78449

Titel:	Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT)
Autor(en):	Córdova Añazco, José Daniel
Director:	Barba Guamán, Luis Rodrigo
Stichwörter:	Ecuador. Tesis digital.
Erscheinungsdatum:	2026
Zitierform:	Córdova Añazco, J. D. Barba Guamán, L. R. (2026) Detección de vehículos en Imágenes Aéreas con Transformadores de Visión (ViT) [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/29.500.19856/78449
Zusammenfassung:	Abstract: This research implemented and evaluated models based on Vision Transformers for the detection of vehicles in aerial images captured by unmanned aerial vehicles in complex urban environments. Two architectures with a Transformer approach, ViTDet and Deformable DETR, were implemented and compared with the reference convolutional model YOLOv8m using standard performance metrics, Precision, Recall, F1 score, and mAP with a threshold of 0.5, in addition to inference time. The XP methodology was used as an agile strategy for development, and a dataset labeled with the classes Car and Bus was used for the data. In addition, the images were resized to 1280×720 to standardize the input and preserve sufficient detail of the scenes. The results obtained show that Transformer models achieve more accurate detection than the convolutional model, even in low-light scenes. Overall, this work provides experimental evidence on the feasibility and challenges of applying Transformers in urban aerial scenarios.
Beschreibung:	Resumen: La presente investigación implementó y evaluó modelos basados en Vision Transformers en la detección de vehículos en imágenes aéreas captadas por vehículos aéreos no tripulados en entornos urbanos complejos. Se implementaron dos arquitecturas con enfoque Transformer, ViTDet y Deformable DETR, a los cuales se los comparo con el modelo convolucional de referencia YOLOv8m, mediante métricas estándar de desempeño, Precision, Recall, F1 score y mAP con un umbral de 0,5, además del tiempo de inferencia. Para el desarrollo se utilizó la metodología XP como estrategia ágil, y por parte de los datos, se utilizó un conjunto de datos etiquetados con las clases Carro y Bus, además, se redimensionaron las imágenes a 1280×720 para de estandarizar la entrada y conservar suficiente detalle de las escenas. Gracias a los resultados obtenidos se evidencia que los modelos Trasnformer alcanzan una detección más precisa que el modelo convolucional incluso en escenas con baja iluminación. En conjunto este trabajo aporta evidencia experimental sobre la viabilidad y los retos de aplicar Transformers en escenarios aéreos urbanos.
Identifier :	Cobarc: 1380290
URI:	https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=151968.TITN.
Type:	bachelorThesis
Enthalten in den Sammlungen:	Titulación de Sistemas Informáticos y Computación

Dateien zu dieser Ressource:

bf1ffed6-b45c-4164-9b70-0e07e46d294a

Zur Langanzeige Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.