Desarrollo de un sistema de Web Scraping para la obtención de datos en entornos Big Data

Mijangos Espinosa, Rogelio Daniel%1085700

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación

Please use this identifier to cite or link to this item: https://rinacional.tecnm.mx/jspui/handle/TecNM/5371

Full metadata record

DC Field	Value	Language
dc.contributor.author	Mijangos Espinosa, Rogelio Daniel%1085700	-
dc.creator	Mijangos Espinosa, Rogelio Daniel%1085700	-
dc.date.accessioned	2023-03-13T23:17:52Z	-
dc.date.available	2023-03-13T23:17:52Z	-
dc.date.issued	2023-02-13	-
dc.identifier.uri	https://rinacional.tecnm.mx/jspui/handle/TecNM/5371	-
dc.description	Los bancos de datos Web son entornos que ofrecen acceso a grandes cantidades de información, la cual es generada a cada momento en internet. Estos bancos de datos Web se nutren de páginas Web, bases de datos, datasets, sensores, redes sociales y cualquier aparato electrónico con conexión a internet. La información generada por estas fuentes de información es de gran importancia para las áreas académicas, laborales y personales, ya que genera información que es actualizada en forma mucho más dinámica que las fuentes convencionales de consulta bibliográfica, como son los libros de consulta. Sin embargo, el crecimiento exponencial y descontrolado de información en la Web complican las actividades de búsqueda, recolección y preprocesamiento de la información. Esta tendencia ha ocasionado la creación de un enorme volumen de datos tanto estructurados como no estructurados. Estos entornos requieren de herramientas de Big Data para analizar e interpretar estos conjuntos de datos. Los sistemas de Web Scraping (Raspado Web) son programas informáticos que simulan la navegación de una persona dentro de un sitio Web y permiten realizar las tareas de búsqueda, recolección y procesamiento de información contenida en internet de forma automática, lo cual permite reducir el tiempo y esfuerzo requerido para obtener información de un tipo específico. En este trabajo de investigación se presenta la propuesta de un sistema de obtención de datos basado en técnicas de Web Scraping. Este sistema permite la búsqueda de información en páginas Web de un tema específico, por ejemplo, información relacionada con COVID. El sistema permite que la obtención de una determinada fuente de información se realice de forma automática con la periodicidad especificada por el usuario. La búsqueda de la información es configurada por el usuario por lo que el sistema requerirá parámetros de configuración para la realización de la búsqueda, recolección y almacenamiento de los datos. Como resultado, es posible automatizar el proceso de obtención y almacenamiento de datos que se desean obtener de forma recurrente a partir de la Web. La solución propuesta en esta tesis permite reducir el tiempo que un investigador dedica a obtener información recurrente para un tópico específico. Esta solución es de especial utilidad en entornos Big Data, donde se requiere la recuperación de grandes volúmenes de información de múltiples sitios, lo cuales pueden ser actualizados continuamente	es_MX
dc.language.iso	spa	es_MX
dc.publisher	Tecnológico Nacional de México	es_MX
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0	es_MX
dc.subject	info:eu-repo/classification/cti/7	es_MX
dc.title	Desarrollo de un sistema de Web Scraping para la obtención de datos en entornos Big Data	es_MX
dc.type	info:eu-repo/semantics/masterThesis	es_MX
dc.contributor.director	Estrada Esquivel, Hugo%216754	-
dc.contributor.director	Martinez Rebollar, Alicia%217272	-
dc.folio	23-1397	es_MX
dc.rights.access	info:eu-repo/semantics/openAccess	es_MX
dc.publisher.tecnm	Centro Nacional de Investigación y Desarrollo Tecnológico	es_MX
Appears in Collections:	Tesis de Maestría en Computación

Files in This Item:

File	Description	Size	Format
MC_Rogelio_Daniel_Mijangos_Espinosa.pdf	Tesis	867.9 kB	Adobe PDF	View/Open
MC_Rogelio_Daniel_Mijangos_Espinosa_c.PDF Restricted Access	Cesión de derechos	226.02 kB	Adobe PDF	View/Open Request a copy

This item is protected by original copyright

View License

Show simple item record

This item is licensed under a Creative Commons License

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM) Tesis de Posgrado Morelos Centro Nacional de Investigación y Desarrollo Tecnológico Tesis CENIDET Tesis de Maestría Tesis de Maestría en Computación

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación