Download Asegurando la Calidad del Dato en nuestros

Document related concepts

DQS wikipedia , lookup

Calidad wikipedia , lookup

Administrador de base de datos wikipedia , lookup

Normalización de bases de datos wikipedia , lookup

Minería de datos wikipedia , lookup

Transcript
Asegurando la Calidad del Dato en
nuestros entornos de BI
Mary Arcia
SQL PASS Venezuela
[email protected]
@maryarcia
https://ve.linkedin.com/pub/mary-arcia/
Blog: geeks.ms/blogs/marcia
MCTS SQL Server 2005/2008
Organiza
http://tinyurl.com/ComunidadWindows
Patrocinadores del SQL Saturday
Premier Sponsor
Gold Sponsor
Bronze Sponsor
AGENDA






4 |
Introducción a la calidad de datos
Calidad de datos en Poyectos de BI
Metodología de Calidad de Datos en BI
Capacidades de Data Quality Services
Proyectos de Data Quality Services
Preguntas
Qué es Calidad de Datos?
 Algunos problemas
Nuestros envíos postales
tienen un grado de
devolución muy alto.
Los datos de ventas
no me cuadran.
Muchas personas
Muchas verdades
5 |
El sistema está
malo
Por qué necesito calidad de datos?
 Imprescindible para una toma de decisiones
correcta.
 Pieza básica en la gestión de información
corporativa.
 Impacto directo en el negocio.
 ROI inmediato.
“Si los datos son la materia prima con la cual creamos
la Información; entonces la confiabilidad de la
información depende directamente de la calidad de los
datos utilizados para producirla”
6 |
En qué afecta la falta de calidad de datos
7 |
A Quién afecta la falta de calidad de datos
Áreas Productivas del Negocio
 Ventas no dispone de información correcta.
 Marketing realiza segmentaciones erróneas,
campañas no eficientes.
 Dirección toma decisiones basándose en
información errónea.
 Atención al Cliente sufre y es causante a la vez de
la mala calidad de los datos.
 Tecnología toma tiempos muy largos para la
culminación de los proyectos (Time To Market).
8 |
as
A quién afecta la falta de calidad….
 Baja la rentabilidad del negocio
 Pérdida de clientes. Segmentación
 Poco control sobre el gasto
 Análisis de fraude limitado
Todo es Dinero….
9 |
Qué nos resuelve calidad de datos
Ahorra dinero.
Aumenta Ventas
Aumenta
rentabilidad del
negocio
10 |
Impacto en Múltiples Proyectos
En BI buenos datos….buenas decisiones 
 Análisis predictivo
 MDM (visión única del cliente/proveedor/producto)
 Migraciones: Sistema nuevo con datos buenos
(Garbage In/Garbage Out)
 Cumplimiento de normativas y leyes
 Gestión del CRM, ERP , etc.
11 |
Ciclo de Vida en la Calidad de los datos
1.
Descubrir
6.
Monitorear
la calidad de Monitorizar
los datos
vs los objetivos
Implementar
los procesos
de mejora
de calidad
Identificar y medir la calidad de los datos
2. Perfilar
5.
Consolidar
3. Limpiar
Definir reglas y
objetivos
de la calidad
de los datos
Diseñar los procesos
de mejora de la
calidad de los datos
Matcheo de información y estadísticas
4. Match
12 |
Dimensiones de la calidad de datos
Dimensión
Qué mide?
Perfilado de
columna
Cuáles son las caracteríticas físicas de los datos?
Relación
Qué relación existe entre grupos de datos?
Redundancia
Es un dato redundante?
Existencia
Qué dato falta o no nos es útil?
Conformidad
Qué dato está almacenado en formato no estándar?
Consistencia
Qué datos aportan información no conflictiva?
Precisión
Qué datos son incorrectos o están caducados?
Duplicados
Qué datos o atributos están repetidos?
Integridad
Qué información no está referenciada?
Rango
Qué resultados, cálculos, valores están fuera de
rango?
13 |
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Existencia
Existencia
Existencia
Existencia
Tenemos todos los datos completos?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Conformidad
Conformidad
Conformidad
Conformidad
Conformidad
Conformidad
El dato tiene un formato correcto?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Consistencia
Consistencia
Consistencia
Consistencia
El dato tiene el formato correcto pero rompe las reglas de negocio
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Duplicidad
Duplicidad
Duplicidad
Los datos aparecen varias veces? Coincidencia difusa
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Integridad
Integridad
Las relaciones del dato son consistentes?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Rango
Rango
Rango
Se encuentran los valores entre rangos aceptables?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Precisión
Precisión
Precisión
El dato representa la realidad exacta? Son las fuentes verificables?
DEMO
Perfilado de Datos
21 |
Qué es Data Quality Services?
Data Quality Services (DQS) es una
solución basada en el conocimiento
de la calidad de datos que permite a
los administradores de datos y
profesionales de IT la mejora de la
calidad de sus datos fácilmente.
En qué nos apoya Data Quality Services?
Conocimiento
Limpieza
Consolidación
Aporte de Valor
Arquitectura de DQS
CLIENTE
Data Quality Services
Client
SERVIDOR
DQS_MAIN
DQS_PROJECT
Componente Integration
Services
DQS_STAGING
Arquitectura de DQS
Referencias
Externas
Dominios
Dominio
Reglas y
Relacion
es
Reglas de
matching
Valores
Dominios
Compuestos
Bases de
Conocimiento
Base de Conocimiento
ENTIDAD
DQKB_Tarjetahabiente
Tarjetahabientes
 Apellidos y
Nombres
 Nacionalidad
 Nro. Tarjeta
 Tipo Producto
 Limite de Crédito
Atributos
Tipo de Producto
Lista de
Valores y
correcciones
Límite de Crédito
6 dígitos dent
de un rango
Nacionalidad
Lista de
Valores y
correcciones
Dominios
DEMO
Construyendo una Base de Conocimiento
27 |
Proyectos DQS
Proyectos de Cleansing
Limpieza de
Datos
Partiendo de la
Base de Conocimiento
Información
Extra
Sobre las decisiones
que toma
Base de
Conocimiento
en la nube
Consumir datos
Proyectos DQS
Proyectos de Matching
Creación de
Reglas
Matching
Política de comportamiento
del motor DQS
Lógica Difusa
Agrega Metadatos
Exportación
Datos que quedan
en el modelo
SQL Server, Excel, DQS
Ciclo de Vida de Proyectos BI sin DQ
Detectar
Orígenes
Pruebas
de Carga
de Datos
Desarrollo
de
Informes
Información
Extra
Aceptación
Final
UAT
Pruebas y
cuadres
Ciclo de Vida de Proyectos BI con DQ
Detectar
Orígenes
Análisis de
Perfilado
de Datos
Aceptación
Final
Información
Extra
UAT
Monitorear
DQ
Pruebas y
cuadres
Procesos
de Carga
Enriqueci
miento y
Matching
Desarrollo
de
Informes
Impacto de DQ en Proyectos de BI
 Aumenta la rapidez de implementación
 Menor Time To Market del Proyecto
 Menor esfuerzo en la fase de pruebas y UAT
 Mejora la calidad de la información  decisiones
 Genera origenes de datos de calidad para
Campañas
 Mayor confianza y usabilidad de la aplicación
 Mayor cumplimiento de expectativas y
obtención de mayor satisfacción.
33 |
PREGUNTAS Y RESPUESTAS
[email protected]
geeks.ms/blogs/marcia/
SQL PASS
Venezuela
Mary Arcia
34 |
@maryarcia