Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW

Zaruma Sozoranga, Jhonny Alonso

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.utpl.edu.ec/handle/123456789/10879

Título :	Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW
Autor :	Piedra Pullaguari, Nelson Oswaldo Zaruma Sozoranga, Jhonny Alonso
Palabras clave :	Web Servicios web Recursos educativos abiertos Web Semántica Ingeniero en Sistemas Informáticos y Computación- Tesis – Disertaciones académicas
Fecha de publicación :	2014
Citación :	Zaruma Sozoranga, Jhonny Alonso. (2014). Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW. (Trabajo de Fin de Titulación de Ingeniero en Sistemas Informáticos y Computación). UTPL. Loja. 114pp.
Descripción :	Diseño e implementación de una aplicación y tres servicios web para la extracción de entidades a partir de contenido HTML, alojados en un del Laboratorio De Tecnologías Avanzadas en la Web y SBC de la UTPL e implementados mediante Python. Con este trabajo se busca facilitar la extracción de información clave dentro del contenido HTML y el enriquecimiento del mismo. Se desarrollaron tres servicios web para este fin: uno para descomponer el texto con la finalidad de etiquetar las palabras, un segundo para procesar las palabras etiquetadas y posteriormente extraer entidades y el contexto del que fueron tomadas, y un tercero para desambiguar y enlazar con la Dbpedia para enriquecer el contenido; los tres servicios han sido descritos con anotaciones semánticas, para que puedan permitir la interoperabilidad entre los servicios existentes. Al implementarse el piloto de este proyecto en sitios con recursos abiertos OCW, esta investigación constituye un referente para futuros proyectos que se desarrollen a partir de la extracción de entidades y el enriquecimiento de contenido. Design and implementation of an application and three Web services for extracting features from HTML content, housed in a SBC Advanced Technologies Laboratory Web and UTPL and implemented using Python. This work is to facilitate the extraction of key information within the HTML content and enrich it. Three web services for this purpose were developed: one to break the text in order to label the words a second to process the tagged words and then extract entities and the context from which they were taken, and a third to disambiguate and join the dbpedia to enrich the content; the three services are described with semantic annotations, so they can enable interoperability between existing services. By implementing the pilot project in open source OCW sites, this research provides a benchmark for future projects developed from entity extraction and enrichment of content.
URI :	http://dspace.utpl.edu.ec/handle/123456789/10879
Aparece en las colecciones:	Ingeniero en Sistemas Informáticos y Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ZARUMA_SOZORANGA_JHONNY_ALONSO.pdf	Trabajo de fin de titulación PDF	2.11 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem