Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW

Zaruma Sozoranga, Jhonny Alonso

Please use this identifier to cite or link to this item: http://dspace.utpl.edu.ec/handle/123456789/10879

Title:	Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW
Authors:	Zaruma Sozoranga, Jhonny Alonso
Director:	Piedra Pullaguari, Nelson Oswaldo
Keywords:	Web Servicios web Recursos educativos abiertos Web Semántica Ingeniero en Sistemas Informáticos y Computación- Tesis – Disertaciones académicas
Issue Date:	2014
Citation:	Zaruma Sozoranga, Jhonny Alonso. (2014). Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW. (Trabajo de Fin de Titulación de Ingeniero en Sistemas Informáticos y Computación). UTPL. Loja. 114pp.
Description:	Diseño e implementación de una aplicación y tres servicios web para la extracción de entidades a partir de contenido HTML, alojados en un del Laboratorio De Tecnologías Avanzadas en la Web y SBC de la UTPL e implementados mediante Python. Con este trabajo se busca facilitar la extracción de información clave dentro del contenido HTML y el enriquecimiento del mismo. Se desarrollaron tres servicios web para este fin: uno para descomponer el texto con la finalidad de etiquetar las palabras, un segundo para procesar las palabras etiquetadas y posteriormente extraer entidades y el contexto del que fueron tomadas, y un tercero para desambiguar y enlazar con la Dbpedia para enriquecer el contenido; los tres servicios han sido descritos con anotaciones semánticas, para que puedan permitir la interoperabilidad entre los servicios existentes. Al implementarse el piloto de este proyecto en sitios con recursos abiertos OCW, esta investigación constituye un referente para futuros proyectos que se desarrollen a partir de la extracción de entidades y el enriquecimiento de contenido. Design and implementation of an application and three Web services for extracting features from HTML content, housed in a SBC Advanced Technologies Laboratory Web and UTPL and implemented using Python. This work is to facilitate the extraction of key information within the HTML content and enrich it. Three web services for this purpose were developed: one to break the text in order to label the words a second to process the tagged words and then extract entities and the context from which they were taken, and a third to disambiguate and join the dbpedia to enrich the content; the three services are described with semantic annotations, so they can enable interoperability between existing services. By implementing the pilot project in open source OCW sites, this research provides a benchmark for future projects developed from entity extraction and enrichment of content.
Identifier :	1152263
URI:	http://dspace.utpl.edu.ec/handle/123456789/10879
metadata.dc.rights:	openAccess
metadata.dc.language:	spa
Type:	bachelorThesis
Appears in Collections:	Ingeniero en Sistemas Informáticos y Computación

Files in This Item:

File	Description	Size	Format
ZARUMA_SOZORANGA_JHONNY_ALONSO.pdf	Trabajo de fin de titulación PDF	2.11 MB	Adobe PDF	View/Open

Show full item record