Download ficha Unidad II Mariana Tapia Chavez

Document related concepts
no text concepts found
Transcript
Materia:
“Bases de Datos
Avanzadas”
“Unidad 2 Ficha EAP”
Catedrático:
L.I. Eloy Martínez Parra
Alumna:
Mariana Tapia Chávez
8° semestre Grupo “A”
Acatlán de Osorio Puebla. Marzo del 2012.
Objetivo de la Ficha
Del planteamiento del problema que se muestra a continuación realizare el
ejercicio utilizando herramientas ETL como lo es Pentaho y DataIntegration
Services y también realizare un cubo explicando los puntos de la ficha.
Planteamiento del problema
Se tienen dos sucursales de prestamos una se encuentra localizada en Acatlán de
Osorio y la otra en Puebla, cada una con su base de datos el detalle es que la de
Puebla registra en Excel mientras que la de Acatlán registra en Access, cada una
de ellas no registra la cantidad de pago de abonos de los clientes por motivo de
organización.
La solución a este problema es realizar una unión de ambas bases de datos con
una herramienta ETL y agregar una columna en donde se registren la cantidad de
pago del abono que realizan los clientes este problema lo realizaremos en
Integration Services.
1.
Elaborar un proyecto ETL, donde se sumen dos columnas con
Pentaho Data Integration.
1.
Primero que nada agregamos una tabla de salida de Access, una
Calculadora y una Tabla de salida de SQL, las unimos para que queden como lo
muestra la imagen.
2.
Después de eso damos click a la tabla de entrada de Access para
configurar la conexión.
3.
Le ponemos nombre a nuestra entrada y después seleccionamos la tabla
de Access en este caso se llama Sucursal2.
4.
Después configuramos la calculadora en donde vamos a crear una columna
derivada de la tabla que se llamara CantidadPago la cual nos va a mostrar la
división del préstamo que se realiza entre los pagos que se llevan acabo
obteniendo el total de cada pago según corresponda. Tambien le agregamos el
tipo de dato. Seleccionamos el campo préstamo de la tabla de Access
“Sucursales2”.
5.
Seleccionamos el campo de pagos de la tabla de Sucursales2.
6.
Después de configurar la calculadora ahora nos vamos a configurar la
calculadora ahora nos vamos a configurar la tabla de salida.
7.
En esta parte realizamos la conexión le ponemos un nombre
y
seleccionamos el SGBD al que deseamos que se transformen nuestros datos de
la tabla de Access damos click en test para comprobar que se realizara nuestra
conexión de manera correcta.
8.
Después de esto nos vamos a la opción de abrir conexión de tabla y damos
click.
9.
Nos aparecerá la ventana anterior en donde escribiremos código SQL para
crear nuestra tabla a la que vamos a enviar los datos de Access y con ello poder
realizar la transformación de datos.
10.
Asi es como nos quedara el codigo Es importante en esta parte escribir el
campo nuevo de la columna deriva que se agregó en la calculadora para que el
objetivo se lleve acabo le damos ejecutar y nos aparece la ventada en donde nos
indica que el código se a ejecutado de manera correcta le damos ok y listo ya
tenemos nuestra tabla.
11.
Le damos click para refrescar la información, es como actualizar lo que
realizamos y nos lo pueda mostrar después la información.
12. Despues del proceso damos ok.
13.
Continuamos en la tabla de salida ahora vamos a la pestaña de archivos de
la base de datos para realizar el mapeo damos click.
14.
No mostrar esta ventana en donde vamos a dar click en guess para poder
realizar el mapeo una ves realizado nos mostrara lo siguiente
15.
Después de damos en la opción de SQL para poder ejecutar los procesos
que realizamos y nos mostrara lo siguiente lo ejecutamos y listo.
16.
Damos ok y nuestra configuración esta realizada ahora ejecutamos nuestra
aplicación y nos muestra la siguiente pantalla en donde se indica que la
transformación fue realizada con éxito.
17.
Por ultimo nos vamos SQL Server para mostrar los datos y comprobar que
nuestra transformación se a realizado correctamente.
2.
Elaborar un proyecto ETL, donde se sumen (o concatenen) dos
columnas con Integration Services.
1. Primero que nada tenemos que agregar nuestras herramientas en el
proyecto de Integration Services. Para este proyecto agregaremos Un
Origen de Excel, Origen OLE DB, Unión de Todo, Ordenar, Columna
derivada, Destino OLE DB.
2. Una vez agregados los componentes damos doble click en el origen de
Excel para agregar la conexión creamos una nueva conexión de Excel.
3.
Indicamos la ruta del archivo en donde se encuentra.
4. Seleccionamos el archivo y damos abrir.
5. Mostramos una vista previa para comprobar que se ha establecido la
conexión y damos cerrar.
6. Realizamos la misma operación con nuestra base de datos en Access.
7. Agregamos una nueva conexión.
8. Seleccionamos nuestro proveedor.
9.
Ubicamos la dirección del archivo para abrirlo.
10.
Probamos que la conexión se allá establecido correctamente.
11. Realizamos la unión de las tablas para hacer un solo registro.
12. Ordenamos los datos de la tabla en la columna del nombre de manera
ascendente.
13. Ahora vamos a crear una columna derivada en donde podamos contener
datos de columnas existentes realizando una operación.
14. Damos doble click en la herramienta de Columna derivada.
15. Nos muestra la siguiente pantalla en donde colocaremos el nombre de la
columna que se va a crear así como la operación que va a realizar.
16. Colocamos datos como nombre y la expresión que se utilizara.
17. después de uniones y configuraciones nuestro proyecto esta listo para ser
ejecutado
18. Antes de correrlo tenemos que configurar la salida de datos para esto nos
vamos a SQL Server, creamos una nueva base de datos.
19. le ponemos de nombre sucursales y damos aceptar.
20. Ahora configuramos la conexión de Integration Services para la salida de
nuestros datos.
21. damos doble click y agregamos una nueva conexión.
22. Seleccionamos nuestro proveedor.
23. Seleccionamos nuestro servidor.
24. Seleccionamos la base de datos que creamos en SQL Server.
25. Probamos que en realidad se haya establecido la conexión y damos aceptar.
26. Damos aceptar.
27. Creamos un nueva tabla en donde van a guardarse los datos de la salida de la
transformación.
28. La seleccionamos y damos aceptar.
29. Probamos una vista previa para demostrar que en realidad se ha creado la
tabla.
30. Realizamos el mapeo de las tablas correspondientes y damos aceptar.
31. Ahora si nuestro proyecto esta listo para ser ejecutado después de todo damos
ejecutar.
32. Si todo nos aparece en color verde quiere decir que nuestro proyecto es
satisfactoriamente ejecutable y ha sido realizado con éxito.
33. Para demostrarlo nos vamos a SQL Server y damos en la BD, después en la
tabla que creamos y Le damos en mostrar las primeras 1000 filas y vemos como
nos muestra los datos juntos eso demuestra que la transformación de datos se ha
realizado.
3.
Elabore ejemplo basado en el mundo real de una empresa (tema libre
tema libre diferente a los vistos en clases) ejemplificando sus dimensiones,
atributos, elementos, relaciones, jerarquía e indicadores.
Atributo A (Valor 1)
Atributo B (Valor 2)
Prestamos para toda
persona mayor de 25
años que cumpla con los
requisitos
Atributo C (Valor 1)
Jerarquía
Atributo A
Prestamos
Dimensión 3
Dimensión 1
Relación
Dimensión 2
Atributo D
Año
Atributo B
Sucursales
Acatlán de
Osorio
Puebla
4.
Genera una exposición en equipo donde se expliquen proyectos ETL
con Oracle, Postgres, DB2 o Mysql bajo previa asignación de tema por el
profesor, la expo debe tener:

Breve descripción de los SGBD a utilizar.

Redacción del problema ETL

Una transformación interesante y diferente a las que se trataron en
clase

Una conclusión

Un tiempo máximo de 15 minutos
Etl con pentaho data integration
Transformación
¿Que es Excel?
 Excel es una herramienta ofimática perteneciente al conjunto de programas
denominados hoja de cálculo electrónica, en la cual se puede escribir,
almacenar, manipular, calcular y organizar todo tipo de información
numérico o de texto.
 Un programa informático compuesto por columnas, filas y celdas, donde la
intersección de las columnas y las filas son las celdas, en el interior de cada
celda es el sitio donde podemos escribir cualquier tipo de información que
posteriormente será tratada, siendo cada celda única en toda la hoja de
cálculo.
Características
 Microsoft Excel 2010 permite analizar, administrar y compartir información
de más formas que nunca, lo que le ayuda a tomar decisiones mejores y
más inteligentes. Las nuevas herramientas de análisis y visualización le
ayudan a realizar un seguimiento y resaltar importantes tendencias de
datos.
 Obtener acceso fácilmente a datos importantes dondequiera que vaya
desde prácticamente cualquier explorador web o smartphone. 1 Incluso
puede cargar sus archivos en Internet y trabajar simultáneamente con otras
personas en línea. Tanto como si produce informes financieros o administra
sus gastos personales, Excel 2010 le brinda más eficiencia y flexibilidad
para lograr sus objetivos.
Bases de Datos en Excel
 Bases de Datos en Excel Microsoft Excel aporta al usuario la posibilidad de
trabajar con tablas de información: nombres, direcciones, teléfonos, zonas,
etc.
 Nos permiten incluir datos, consultarlos y modificarlos siempre que se
necesite. Al trabajar bases de datos en Excel las filas reciben la
denominación de registros y las columnas serían los campos de los
registros. Para trabajar de manera correcta los datos, es recomendable que
la primera fila sirva para poner el encabezado a cada campo de la tabla.
 Excel para el manejo de bases de datos son mucho más limitadas que las
de Microsoft Access, ya que Access es una aplicación diseñada
específicamente para gestionar bases de datos. Sin embargo, si las
necesidades de gestión de la base de datos son sencillas, a menudo Excel
puede servir perfectamente.
¿Que es Pentaho?
PENTAHO es un proyecto iniciado por una comunidad OpenSource, provee
una alternativa de soluciones de BI en distintas áreas como en la
Arquitectura, Soporte, Funcionalidad e Implantación.
Estas soluciones al igual que su ambiente de implantación están basados
en JAVA, haciéndolo flexible en cubrir amplias necesidades empresariales.
A través de la integración funcional de diversos proyectos de OpenSource
permite ofrecer soluciones en áreas como: Análisis de información,
Reportes, Tableros de mando conocido como “DashBoards”, Flujos de
Trabajo y Minería de Datos.
Ventajas de usar Pentaho
Pentaho es un software libre bajo varias licencias, entre ellas la
licencia GPLv2. Esta licencia implica que se puede usar, copiar, distribuir
y modificar gratuitamente.
Pentaho ha sido creado bajo las plataformas libres de Java y MySQL.
Ambas plataformas están en auge Son fáciles de usar, compilar y
programar, lo que posibilita un fácil desarrollo e integración en otros
sistemas ya creados o a desarrollar. Según el ranking de los lenguajes de
programación de 2011 elaborada por el portal de tecnología Eweek , el
lenguaje de programación JAVA es el lenguaje más usado en la actualidad.
Funciones
Informes: permite crear a los usuarios y personalizar informes además de
exportar en multitud de formatos.
Análisis: a través de las potentes herramientas ayuda al usuario a ampliar la
perspectiva y mejorar la toma de decisiones en el negocio.
Cuadros de mando: ofrece al usuario final opciones de visualización en
tiempo real de los datos, gestiónados por 'displays' interactivos y últimas
tecnologías multimedia para facilitar la interacción con la herramienta y
manejo de datos.
Integración de datos: dispone de aplicaciones potentes para la extracción,
transformación y carga de datos en diversas plataformas de bases de
datos.
MySQL
•
MySQL es un sistema de gestión de bases de datos relacional, multihilo y
multiusuario con más de seis millones de instalaciones.
•
MySQL es una base de datos muy rápida en la lectura cuando utiliza el
motor no transaccional MyISAM, pero puede provocar problemas de
integridad en entornos de alta concurrencia en la modificación. En
aplicaciones web hay baja concurrencia en la modificación de datos y en
cambio el entorno es intensivo en lectura de datos, lo que hace a MySQL
ideal para este tipo de aplicaciones. Sea cual sea el entorno en el que va a
utilizar MySQL, es importante monitorizar de antemano el rendimiento para
detectar y corregir errores tanto de SQL como de programación
Paquetes de MySQL
En la mayoría de los casos, sólo será necesario instalar los
paquetes MySQL-server y MySQL-client para conseguir una instalación
de MySQL en funcionamiento. Los otros paquetes no se necesitan para una
instalación estándar. Si se deseara ejecutar un servidor MySQL-Max, el
cual posee capacidades adicionales, se debería instalar también el
RPM MySQL-Max.
Ejemplo:
La Gerente de la Buitique “Ropa” para ti y toda la familia cuenta con dos
tiendas, por lo cual debe conocer cuanta mercancía tiene en total por las
dos tiendas, dado que tiene su inventario en una tabla de Excel, la gerente
requiere transformar sus datos a otro programa o Sistema Gestor de Base
de Datos en que pueda administrar mejor su información, así como también
obtener la cantidad total de mercancía que tiene por las dos tiendas.