Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dspace.utpl.edu.ec/handle/29.500.19856/76521| Titel: | Implementación de un prototipo de consulta de vehículos en videos urbanos Integrando Modelos Multimodales y RAG |
| Autor(en): | Piedra Narváez, José David |
| Director: | Barba Guamán, Luis Rodrigo |
| Stichwörter: | Ecuador. Tesis digital. |
| Erscheinungsdatum: | 2026 |
| Zitierform: | Piedra Narváez, J. D. Barba Guamán, L. R. (2026) Implementación de un prototipo de consulta de vehículos en videos urbanos Integrando Modelos Multimodales y RAG [Tesis de Grado, Universidad Técnica Particular de Loja]. Repositorio Institucional. https://dspace.utpl.edu.ec/handle/29.500.19856/76521 |
| Zusammenfassung: | Abstract: A prototype was developed and implemented that allows natural language queries of vehicular events within urban videos captured from drones, integrating computer vision detection and augmented generation through retrieval. The system detects vehicles with YOLO, records class and location, attaches frames as evidence, and converts events into embeddings that are stored in a vector database to retrieve and rank relevant information. Consequently, with the context retrieved, a multimodal language model generates explanatory and substantiated responses, reducing hallucinations through groundedness and the use of visual evidence. For this purpose, an XP methodology, a large dataset of labeled aerial images, and five test videos in different resolutions and lighting conditions were used. The evaluation showed that YOLOv8 achieved the best balance between accuracy and coverage compared to YOLOv5 and YOLOv11, validating the feasibility of the approach for near-real-time urban analysis. |
| Beschreibung: | Resumen: Se desarrolló e implementó un prototipo que permite consultar en lenguaje natural eventos vehiculares dentro de videos urbanos capturados desde dron, integrando detección de visión por computadora y generación aumentada por recuperación. El sistema detecta vehículos con YOLO, registra clase y ubicación, adjunta fotogramas como evidencia y convierte los eventos en embeddings que se almacenan en una base vectorial para recuperar y rankear información relevante. Por consiguiente, con el contexto recuperado, un modelo de lenguaje multimodal genera respuestas explicativas y fundamentadas, aminorando alucinaciones mediante groundedness y el uso de evidencia visual. Por eso se empleó una metodología XP, un dataset amplio de imágenes aéreas etiquetadas y cinco videos de prueba en distintas resoluciones y condiciones de iluminación. La evaluación mostró que YOLOv8 alcanzó el mejor equilibrio entre precisión y cobertura frente a YOLOv5 y YOLOv11, validando la viabilidad del enfoque para análisis urbano en tiempo cercano a real. |
| Identifier : | Cobarc: 1379484 |
| URI: | https://bibliotecautpl.utpl.edu.ec/cgi-bin/abnetclwo?ACC=DOSEARCH&xsqf99=151179.TITN. |
| Type: | bachelorThesis |
| Enthalten in den Sammlungen: | Titulación de Sistemas Informáticos y Computación |
Dateien zu dieser Ressource:
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.
