Download ficha Unidad II Mariana Tapia Chavez
Document related concepts
no text concepts found
Transcript
Materia: “Bases de Datos Avanzadas” “Unidad 2 Ficha EAP” Catedrático: L.I. Eloy Martínez Parra Alumna: Mariana Tapia Chávez 8° semestre Grupo “A” Acatlán de Osorio Puebla. Marzo del 2012. Objetivo de la Ficha Del planteamiento del problema que se muestra a continuación realizare el ejercicio utilizando herramientas ETL como lo es Pentaho y DataIntegration Services y también realizare un cubo explicando los puntos de la ficha. Planteamiento del problema Se tienen dos sucursales de prestamos una se encuentra localizada en Acatlán de Osorio y la otra en Puebla, cada una con su base de datos el detalle es que la de Puebla registra en Excel mientras que la de Acatlán registra en Access, cada una de ellas no registra la cantidad de pago de abonos de los clientes por motivo de organización. La solución a este problema es realizar una unión de ambas bases de datos con una herramienta ETL y agregar una columna en donde se registren la cantidad de pago del abono que realizan los clientes este problema lo realizaremos en Integration Services. 1. Elaborar un proyecto ETL, donde se sumen dos columnas con Pentaho Data Integration. 1. Primero que nada agregamos una tabla de salida de Access, una Calculadora y una Tabla de salida de SQL, las unimos para que queden como lo muestra la imagen. 2. Después de eso damos click a la tabla de entrada de Access para configurar la conexión. 3. Le ponemos nombre a nuestra entrada y después seleccionamos la tabla de Access en este caso se llama Sucursal2. 4. Después configuramos la calculadora en donde vamos a crear una columna derivada de la tabla que se llamara CantidadPago la cual nos va a mostrar la división del préstamo que se realiza entre los pagos que se llevan acabo obteniendo el total de cada pago según corresponda. Tambien le agregamos el tipo de dato. Seleccionamos el campo préstamo de la tabla de Access “Sucursales2”. 5. Seleccionamos el campo de pagos de la tabla de Sucursales2. 6. Después de configurar la calculadora ahora nos vamos a configurar la calculadora ahora nos vamos a configurar la tabla de salida. 7. En esta parte realizamos la conexión le ponemos un nombre y seleccionamos el SGBD al que deseamos que se transformen nuestros datos de la tabla de Access damos click en test para comprobar que se realizara nuestra conexión de manera correcta. 8. Después de esto nos vamos a la opción de abrir conexión de tabla y damos click. 9. Nos aparecerá la ventana anterior en donde escribiremos código SQL para crear nuestra tabla a la que vamos a enviar los datos de Access y con ello poder realizar la transformación de datos. 10. Asi es como nos quedara el codigo Es importante en esta parte escribir el campo nuevo de la columna deriva que se agregó en la calculadora para que el objetivo se lleve acabo le damos ejecutar y nos aparece la ventada en donde nos indica que el código se a ejecutado de manera correcta le damos ok y listo ya tenemos nuestra tabla. 11. Le damos click para refrescar la información, es como actualizar lo que realizamos y nos lo pueda mostrar después la información. 12. Despues del proceso damos ok. 13. Continuamos en la tabla de salida ahora vamos a la pestaña de archivos de la base de datos para realizar el mapeo damos click. 14. No mostrar esta ventana en donde vamos a dar click en guess para poder realizar el mapeo una ves realizado nos mostrara lo siguiente 15. Después de damos en la opción de SQL para poder ejecutar los procesos que realizamos y nos mostrara lo siguiente lo ejecutamos y listo. 16. Damos ok y nuestra configuración esta realizada ahora ejecutamos nuestra aplicación y nos muestra la siguiente pantalla en donde se indica que la transformación fue realizada con éxito. 17. Por ultimo nos vamos SQL Server para mostrar los datos y comprobar que nuestra transformación se a realizado correctamente. 2. Elaborar un proyecto ETL, donde se sumen (o concatenen) dos columnas con Integration Services. 1. Primero que nada tenemos que agregar nuestras herramientas en el proyecto de Integration Services. Para este proyecto agregaremos Un Origen de Excel, Origen OLE DB, Unión de Todo, Ordenar, Columna derivada, Destino OLE DB. 2. Una vez agregados los componentes damos doble click en el origen de Excel para agregar la conexión creamos una nueva conexión de Excel. 3. Indicamos la ruta del archivo en donde se encuentra. 4. Seleccionamos el archivo y damos abrir. 5. Mostramos una vista previa para comprobar que se ha establecido la conexión y damos cerrar. 6. Realizamos la misma operación con nuestra base de datos en Access. 7. Agregamos una nueva conexión. 8. Seleccionamos nuestro proveedor. 9. Ubicamos la dirección del archivo para abrirlo. 10. Probamos que la conexión se allá establecido correctamente. 11. Realizamos la unión de las tablas para hacer un solo registro. 12. Ordenamos los datos de la tabla en la columna del nombre de manera ascendente. 13. Ahora vamos a crear una columna derivada en donde podamos contener datos de columnas existentes realizando una operación. 14. Damos doble click en la herramienta de Columna derivada. 15. Nos muestra la siguiente pantalla en donde colocaremos el nombre de la columna que se va a crear así como la operación que va a realizar. 16. Colocamos datos como nombre y la expresión que se utilizara. 17. después de uniones y configuraciones nuestro proyecto esta listo para ser ejecutado 18. Antes de correrlo tenemos que configurar la salida de datos para esto nos vamos a SQL Server, creamos una nueva base de datos. 19. le ponemos de nombre sucursales y damos aceptar. 20. Ahora configuramos la conexión de Integration Services para la salida de nuestros datos. 21. damos doble click y agregamos una nueva conexión. 22. Seleccionamos nuestro proveedor. 23. Seleccionamos nuestro servidor. 24. Seleccionamos la base de datos que creamos en SQL Server. 25. Probamos que en realidad se haya establecido la conexión y damos aceptar. 26. Damos aceptar. 27. Creamos un nueva tabla en donde van a guardarse los datos de la salida de la transformación. 28. La seleccionamos y damos aceptar. 29. Probamos una vista previa para demostrar que en realidad se ha creado la tabla. 30. Realizamos el mapeo de las tablas correspondientes y damos aceptar. 31. Ahora si nuestro proyecto esta listo para ser ejecutado después de todo damos ejecutar. 32. Si todo nos aparece en color verde quiere decir que nuestro proyecto es satisfactoriamente ejecutable y ha sido realizado con éxito. 33. Para demostrarlo nos vamos a SQL Server y damos en la BD, después en la tabla que creamos y Le damos en mostrar las primeras 1000 filas y vemos como nos muestra los datos juntos eso demuestra que la transformación de datos se ha realizado. 3. Elabore ejemplo basado en el mundo real de una empresa (tema libre tema libre diferente a los vistos en clases) ejemplificando sus dimensiones, atributos, elementos, relaciones, jerarquía e indicadores. Atributo A (Valor 1) Atributo B (Valor 2) Prestamos para toda persona mayor de 25 años que cumpla con los requisitos Atributo C (Valor 1) Jerarquía Atributo A Prestamos Dimensión 3 Dimensión 1 Relación Dimensión 2 Atributo D Año Atributo B Sucursales Acatlán de Osorio Puebla 4. Genera una exposición en equipo donde se expliquen proyectos ETL con Oracle, Postgres, DB2 o Mysql bajo previa asignación de tema por el profesor, la expo debe tener: Breve descripción de los SGBD a utilizar. Redacción del problema ETL Una transformación interesante y diferente a las que se trataron en clase Una conclusión Un tiempo máximo de 15 minutos Etl con pentaho data integration Transformación ¿Que es Excel? Excel es una herramienta ofimática perteneciente al conjunto de programas denominados hoja de cálculo electrónica, en la cual se puede escribir, almacenar, manipular, calcular y organizar todo tipo de información numérico o de texto. Un programa informático compuesto por columnas, filas y celdas, donde la intersección de las columnas y las filas son las celdas, en el interior de cada celda es el sitio donde podemos escribir cualquier tipo de información que posteriormente será tratada, siendo cada celda única en toda la hoja de cálculo. Características Microsoft Excel 2010 permite analizar, administrar y compartir información de más formas que nunca, lo que le ayuda a tomar decisiones mejores y más inteligentes. Las nuevas herramientas de análisis y visualización le ayudan a realizar un seguimiento y resaltar importantes tendencias de datos. Obtener acceso fácilmente a datos importantes dondequiera que vaya desde prácticamente cualquier explorador web o smartphone. 1 Incluso puede cargar sus archivos en Internet y trabajar simultáneamente con otras personas en línea. Tanto como si produce informes financieros o administra sus gastos personales, Excel 2010 le brinda más eficiencia y flexibilidad para lograr sus objetivos. Bases de Datos en Excel Bases de Datos en Excel Microsoft Excel aporta al usuario la posibilidad de trabajar con tablas de información: nombres, direcciones, teléfonos, zonas, etc. Nos permiten incluir datos, consultarlos y modificarlos siempre que se necesite. Al trabajar bases de datos en Excel las filas reciben la denominación de registros y las columnas serían los campos de los registros. Para trabajar de manera correcta los datos, es recomendable que la primera fila sirva para poner el encabezado a cada campo de la tabla. Excel para el manejo de bases de datos son mucho más limitadas que las de Microsoft Access, ya que Access es una aplicación diseñada específicamente para gestionar bases de datos. Sin embargo, si las necesidades de gestión de la base de datos son sencillas, a menudo Excel puede servir perfectamente. ¿Que es Pentaho? PENTAHO es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e Implantación. Estas soluciones al igual que su ambiente de implantación están basados en JAVA, haciéndolo flexible en cubrir amplias necesidades empresariales. A través de la integración funcional de diversos proyectos de OpenSource permite ofrecer soluciones en áreas como: Análisis de información, Reportes, Tableros de mando conocido como “DashBoards”, Flujos de Trabajo y Minería de Datos. Ventajas de usar Pentaho Pentaho es un software libre bajo varias licencias, entre ellas la licencia GPLv2. Esta licencia implica que se puede usar, copiar, distribuir y modificar gratuitamente. Pentaho ha sido creado bajo las plataformas libres de Java y MySQL. Ambas plataformas están en auge Son fáciles de usar, compilar y programar, lo que posibilita un fácil desarrollo e integración en otros sistemas ya creados o a desarrollar. Según el ranking de los lenguajes de programación de 2011 elaborada por el portal de tecnología Eweek , el lenguaje de programación JAVA es el lenguaje más usado en la actualidad. Funciones Informes: permite crear a los usuarios y personalizar informes además de exportar en multitud de formatos. Análisis: a través de las potentes herramientas ayuda al usuario a ampliar la perspectiva y mejorar la toma de decisiones en el negocio. Cuadros de mando: ofrece al usuario final opciones de visualización en tiempo real de los datos, gestiónados por 'displays' interactivos y últimas tecnologías multimedia para facilitar la interacción con la herramienta y manejo de datos. Integración de datos: dispone de aplicaciones potentes para la extracción, transformación y carga de datos en diversas plataformas de bases de datos. MySQL • MySQL es un sistema de gestión de bases de datos relacional, multihilo y multiusuario con más de seis millones de instalaciones. • MySQL es una base de datos muy rápida en la lectura cuando utiliza el motor no transaccional MyISAM, pero puede provocar problemas de integridad en entornos de alta concurrencia en la modificación. En aplicaciones web hay baja concurrencia en la modificación de datos y en cambio el entorno es intensivo en lectura de datos, lo que hace a MySQL ideal para este tipo de aplicaciones. Sea cual sea el entorno en el que va a utilizar MySQL, es importante monitorizar de antemano el rendimiento para detectar y corregir errores tanto de SQL como de programación Paquetes de MySQL En la mayoría de los casos, sólo será necesario instalar los paquetes MySQL-server y MySQL-client para conseguir una instalación de MySQL en funcionamiento. Los otros paquetes no se necesitan para una instalación estándar. Si se deseara ejecutar un servidor MySQL-Max, el cual posee capacidades adicionales, se debería instalar también el RPM MySQL-Max. Ejemplo: La Gerente de la Buitique “Ropa” para ti y toda la familia cuenta con dos tiendas, por lo cual debe conocer cuanta mercancía tiene en total por las dos tiendas, dado que tiene su inventario en una tabla de Excel, la gerente requiere transformar sus datos a otro programa o Sistema Gestor de Base de Datos en que pueda administrar mejor su información, así como también obtener la cantidad total de mercancía que tiene por las dos tiendas.