preloder
aumentar disminuir

¿QUÉ HACEMOS?

Manejo de datos no estructurados

Del 4 de noviembre al 2 de diciembre

lunes y miércoles (18 a 21 hrs.)
descargar ver

Introducción

Al día, durante todos los días, la humanidad produce enormes cantidades de información y datos en internet. Estos datos se producen en una gran multitud de sitios web que van desde las redes sociales, las tiendas en línea, los buscadores web, los aparatos wereables, el internet de las cosas, etc, los cuales no hacen mas que aumentan a un ritmo impresionante.

Muchos de estos datos se encuentran en internet de maneras no estructuradas, para lo cual es necesario emplear mecanismos de extracción automatizada de datos (APIs, web scrapping, data crawling) para poder descargar, estructurar y aprovechar toda esta información disponible.

El objetivo de este curso es presentar técnicas para poder acceder, procesar y almacenar esta información.

 

Objetivos

El objetivo del curso es que el alumno adquiera los conocimientos y capacidades para generar, almacenar y procesar bases de datos provenientes de internet, de fuentes estructuradas y no estructuradas, utilizando técnicas de web-scrapping, data crawling y manejo de texto.

 

Público objetivo

El curso está dirigido para personas que deseen adquirir habilidades para la adquisición de los datos no estructurados que se encuentran disponibles en internet. Para un mejor aprovechamiento del contenido de este curso, se recomienda haber tomado el curso Introducción a R + Manejo de Datos (r_1) de la Escuela de Métodos o tener conocimientos equivalentes, así como experiencia trabajando con bases de datos.

 

Sesiones

El módulo está dividido en ocho sesiones, cada una de tres horas, haciendo un total de 24 horas de clase.

Los temas a abordar en el curso serán los siguientes:

 

  1. Fundamentos de R para el curso (1 sesión).

1.1 Bibliotecas a utilizar.

1.2 Fundamentos de conceptos.

– Limpieza y manipulación de datos.

– APIs.

– Web Scraping.

– Cloud Services.

– HTML selectors.

– Formato *.json.

1.3 Extracción de datos a través de urls.

  1. Manejo y manipulación de texto (1 sesión).

2.1 Repaso de la biblioteca stringr.

2.2 Expresiones regulares.

 

  1. Consumo y creación de APIs (1 sesión).

3.1 Servicios de APIs.

3.2 APIs públicas y APIs privadas.

3.3 Creación de un API con plumber.

 

  1. Introducción al web scraping con Rvest (2 sesiones).

4.1 Definición de web scraping.

4.2 Discusión sobre la legalidad del web scraping.

4.3 Bibliotecas curl y rvest para extracción de datos.

  1. Web Scraping con RSelenium (1 sesión).

5.4 Uso de RSelenium para automatización de navegación web.

  1. Cloud computing con Amazon Web Services (1 sesión).

6.1 ¿Qué es AWS?

6.2 ¿Qué alternativas existen a AWS?

6.3 S3 y sistemas de almacenamiento.

6.4 Automatización de tareas en la nube.

6.5 Otros servicios.

 

  1. Temas selectos de Big Data (1 sesión).

          En esta sesión se darán lecturas sobre temas selectos de Big Data, tales como:

7.1 Extracción de datos.

7.2 Almacenamiento de datos.

7.3 Procesamiento y análisis.

 

Bibliografía básica

 

Mitchell, Ryan. (2018) Web Scraping with Python. 2nd Edition. O´Reilly.

Munzert, S. Rubba, C. Meißner, P. Nyhuis, D. (2014) Automated Data Collection with R. Wiley.

 

 

Profesores

Dr. Sebastián Garrido de Sierra

E-mail: sebastian.garrido@cide.edu

 

M.C. Jorge Juvenal Campos Ferreira

E-mail: juvenal.campos@cide.edu

 

Horario de clases:

Lunes y miércoles de 18:00 a 21:00 horas

 

Lugar:

Instituto Mora. Plaza Valentín Gómez Farías #12 Col. San Juan Mixcoac México CDMX. C.P 03730

 

Requisitos de Admisión:

 

Para ser admitido como alumno de nuevo ingreso al programa de Educación Continua, el solicitante debe satisfacer los siguientes requisitos:

 

  • Enviar al correo de escuelademetodos@lnpp.mx el formato de inscripción del curso, este último se genera en PDF una vez que hayas llenado la solicitud en línea (o también se puede descargar en la liga https://tinyurl.com/snprnj5); una identificación oficial (INE, licencia, cédula); y el comprobante de pago.
  • Favor de enviarlos antes de la fecha de inicio y entregar los originales (pago) el primer día de clase

 

Precio y formas de pago:

 

Los participantes deberán cubrir una colegiatura de $6,500.00 (seis mil quinientos pesos 00/100 m.n.) por cada curso, la cual deberá ser cubierta en una sola exhibición, a pagar al momento de la inscripción en línea. Bajo ninguna circunstancia se otorgarán prórrogas para el pago de cuotas. Las inscripciones se cierran el primer día del curso.

El depósito o transferencia bancaria se deberá hacer al banco HSBC a nombre de Centro de Investigación y Docencia Económicas, A. C. a la cuenta número: 4039603584, sucursal número 0763 (Lilas), CLABE: 021180040396035842.

 

Estacionamiento:

Los participantes de la Escuela de Métodos, tendrán acceso al estacionamiento del CIDE. Sin embargo, para los alumnos de los cursos que se dan en nuestra sede alterna, en el Instituto Mora, no hay estacionamiento

 

Mayores informes:

 

Patricia Galán Lara

Tel. (55) 5727 9800 ext. 2443

Cel. (55) 61853815

Correo: escuelademetodos@lnpp.mx

SUBIR
COMENTARIOS.png