Download Acercamiento a la Ciencia de Datos

Document related concepts

Ciencia de datos wikipedia , lookup

Minería de datos wikipedia , lookup

Análisis de datos wikipedia , lookup

ADO.NET wikipedia , lookup

Administrador de base de datos wikipedia , lookup

Transcript
#DATAJAM2017
DE DESARROLLO RURAL
Bogotá, 27 y 28 de abril de
2017.
1
ACERCAMIENTO A LA
CIENCIA DE LOS DATOS
Julio Lozano – Informático y Matemático Especialista en Innovación y Gestión de
Ciudades
Alexander Riascos Ingeniero Informático Especialista en Inteligencia de Negocios
2
¿QUÉ ES CIENCIA DE DATOS?
No existe una definición de consenso, sino que difiere
según las fuentes.
• Podemos decir que trata del estudio de la extracción
generalizada de conocimiento a partir de información,
de datos.
• ¿Esto es algo nuevo? ¿No se parece a alguna ciencia
con la que ya estamos familiarizados?
Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf
3
¿Ciencia de datos y Estadística ?
Tras consultar varias opiniones y diversas fuentes,
podemos llegar a la conclusión de que existen
diferencias:
• El enfoque de Data Science es más holístico, más global, para
partiendo de grandes volúmenes de datos poder extraer
conocimiento que aporte valor a una determinada organización
del tipo que sea.
• El foco principal se sitúa en la extracción de conocimiento,
empleando para ello las herramientas que estén al alcance.
Veamos en qué se traduce lo anterior, mediante una definición
más completa.
Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf4
¿QUÉ ES CIENCIA DE DATOS?
• Ya hemos podido intuir que se trata de algo más que la
Estadística. Veamos qué más… Wikipedia recopila muchos de los
principales campos implicados en Data Science, indicando que
emplea:
• Técnicas y teorías de muchos campos dentro de amplias áreas
como la Matemática, la Estadística y las Tecnologías de la
Información, incluyendo: procesamiento de señales, modelos
probabilísticos, machine learning, aprendizaje estadístico,
programación, ingeniería de datos, reconocimiento de patrones,
visualización, modelización de la incertidumbre, data warehousing,
and computación de altas prestaciones
Fuente: https://www.cs.us.es/cursos/bd-2014/IntroDataScience.pdf5
¿PORQUÉ LA CIENCIA DE DATOS?
Es necesario contar con la capacidad de gestionar,
analizar, sintetizar, visualizar, y descubrir el
conocimiento de los datos recopilados de manera
oportuna teniendo en cuenta aspectos como:
• Explosión de Información
• Madurez tecnológica y computacional
• Bajos costos
• Muchos datos, poco conocimiento
6
¿QUE ES UN CIENTIFICO DE DATOS?
Un científico de datos es un
profesional que debe dominar
las
ciencias matemáticas y la
estadística, conocimientos de
programación (y sus múltiples
lenguajes),
ciencias de la
computación y analítica.
7
Disciplinas que componen la ciencia de datos
Inteligencia de negocios
Minería de
datos
Estadística
Algorítmica
Matemáticas
Big Data
8
¿Paraqué se utiliza el conocimiento obtenido?
• Hacer predicciones sobre nuevos datos
• Explicar los datos existentes
• Interpretar bases de datos masivas
• Facilitar la toma de decisiones empresariales
• Facilitar la construcción de política pública
• Proyectos de investigación
• Periodismo de datos
• Creación de nuevos negocios
9
Consideraciones y Técnicas en análisis de datos
10
Consideraciones y Técnicas en análisis de datos
Fuente de Datos
Consideraciones y Técnicas en análisis de datos
Modelos
Es el proceso completo de extracción de conocimiento a partir de bases
de datos aplicando técnicas como: [*] Descriptivo, [**] Predictivo
• Casificación [**]
• Agrupación (Clustering) [**]
• Reglas de asociacion y
descubrimiento [*]
• Descubrimiento de Patrones
secuenciales [*]
• Regresión [**]
• Desviasión y Detección de
anomalias [**]
• Series de Tiempo [**]
12
NOMENCLATURA DATASET
1. Estándar nombres de archivos – datos.gov.co
Para facilitar ubicación y diferenciación de los data set seleccionados
para el data jam se asigno una descripción estándar en el nombre de
los archivos la cual se especifica a continuación:
Nombre
evento
Año
Tipo Reto
Nombre
dataset
Tipo de reto: identifica el número del reto al cual se considera aporta
la información contenida en el conjunto de datos:
5/4/2017
Sigla
Descripción
Sigla
Descripción
R3
Reto 3
R1
Reto 1
AC
R2
Reto
Análisis
Complementario
OP
Dataset opcional
FOOTER GOES HERE
13
Metadatos – Data set
Encuentre información complementaria de los datasets en 3 pasos :
1. Ingrese al data set dando clic en el enlace
del mismo
2. Diríjase a la opción acerca de, ubicada en la parte
superior derecha en la barra de opciones del dataset.
3. Desplace la barra horizontal hasta ubicar la opción Archivos
adjuntos o Url documentación del menú de opciones
5/4/2017
FOOTER GOES HERE
14
PLATAFORMA DE DATOS ABIERTOS COLOMBIA
5/4/2017
FOOTER GOES HERE
15
ACERCAMIENTO A LA
CIENCIA DE LOS DATOS
Julio Lozano – Informático y Matemático Especialista en Innovación y Gestión de
Ciudades
Alexander Riascos Ingeniero Informático Especialista en Inteligencia de Negocios
GRACIAS!!!
16