Download Introducción a Big Data Analytics - EMC Spain

Document related concepts
no text concepts found
Transcript
Introducción a Big Data
Analytics
Luis Zamora - Sales Manager
Iberia Greenplum
Pedro Algaba - EMC Greenplum
Solutions Architect
© Copyright 2011 EMC Corporation. All rights reserved.
1
BIG DATA: Retos y Requerimientos
Big Data Analytics plantea unos requerimientos más
exigentes que las soluciones de Business
Intelligence tradicional no resuelven
– Análisis Masivo de datos (centenares de TB hasta PB)
– Datos externos a los sistemas de la organización (no
operacionales) y en muchos casos no estructurados
– Procesos analíticos más agiles e iterativos
– Integración con los sistemas informacionales de datos
tradicionales
© Copyright 2011 EMC Corporation. All rights reserved.
4
CASO DE USO DE BIG DATA
Optimizar los modelos de riesgo incorporando
datos externos
Underwriting Risk
HIGH
Greenplum
Database
BI Reporting
Greenplum
In-Database
Analytics
Greenplum
Big Data Analytics
Unstructured Data
Sources Enrich The Data
Legacy
System
LOW
Monthly
Risk Model
Updates
Daily
Risk Model
Updates
TRADITIONAL DATA LEVERAGED
© Copyright 2011 EMC Corporation. All rights reserved.
BIG DATA LEVERAGED
5
© Copyright 2011 EMC Corporation. All rights reserved.
6
Greenplum Unified Analytics Platform
© Copyright 2011 EMC Corporation. All rights reserved.
7
Greenplum Database:
Rendimiento Extremo en HW Commodity
Optimizada para BI y Analytics
Procesado y carga de datos en paralelo
Arquitectura MPP-sin compartir nada con
escalabilidad lineal
Integración con repositorios de datos
externos
© Copyright 2011 EMC Corporation. All rights reserved.
8
Greenplum HD:
Enterprise-Ready Hadoop
Apache Hadoop
Servicios y soporte 24*7 EMC
Escalabilidad asegurada
– Greenplum Analytics Workbench
Integración con Greenplum Database
© Copyright 2011 EMC Corporation. All rights reserved.
9
Greenplum In-Database Analytics
SAS – HPA, Access, y Scoring
Accelerator
MADLib – Librería open-source de
funciones analíticas avanzadas
Extensiones analíticas soportadas
MAD
lib
– PostGIS - Geospatial support, PL/R - Statistical
Computing, PL/Java, PL/Perl
© Copyright 2011 EMC Corporation. All rights reserved.
10
Greenplum Chorus:
Agilizando Big Data Analytics
Una interfaz única para todos los datos
– Buscar, explorar, visualizar e importar datos de
cualquier repositorio
– SAS datasets, bases de datos o ficheros Hadoop
Provisión automática de bases de datos
virtuales
Colaborativo: Crear, compartir, publicar
– Fuentes de datos, modelos analíticos,
insights
© Copyright 2011 EMC Corporation. All rights reserved.
11
Co-Proceso de datos unificado
Analytic Productivity Tools & Apps
Data Computing Interfaces
SAS PROC, SQL, MapReduce, In-Database Analytics, Parallel Data Loading
Greenplum Database
Hadoop
Compute
Compute
Storage
parallel
data exchange
Storage
SQL DB
Engine
parallel
data exchange
MapReduce
Engine
Network
• unstructured data
• structured data
• temporal
data
© Copyright 2011 EMC Corporation.
All rights reserved.
All Data Types
• geospatial data
• sensor data
• spatial data
12
Greenplum
Data Computing Appliance
El único appliance modular para co-proceso de datos
estructurados y no estructurados
– servidores Intel estándar y switching GigE
Plataforma Unificada para Big Data analytics
–
–
–
–
Red de interconexión interna de alto rendimiento
Módulos para datos estructurados (GreenplumDB)
Módulos para datos no-estructurados (GreenplumHD)
Módulos para aplicaciones analíticas ETL / BI
(GreenplumDIA)
© Copyright 2011 EMC Corporation. All rights reserved.
13
Configuración modular para Big Data
Analytics
1st Rack
Aggregation Rack
Functional
Module
Functional
Module
or
Functional
Module
+
Functional
Module
or
Add ¼ rack
Increments
© Copyright 2011 EMC Corporation. All rights reserved.
or
Greenplum
DIA Module
+
or
Functional
Module
Functional
Module
Greenplum
Database
Modules
Functional
Module
Greenplum
HD
Module
Add ¼ rack
Increments
14
DEMO
© Copyright 2011 EMC Corporation. All rights reserved.
20