Manual ETL Pentho
Enviado por REGNIER CALAMBAS ERAZO • 13 de Octubre de 2022 • Tarea • 15.687 Palabras (63 Páginas) • 35 Visitas
[pic 1]
Taller 2 - Datos cirugías
Corporación universitaria de comfacauca Unicomfacauca Facultad de ingeniería
Inteligencia de negocios
2022
Proceso de ETL (Extracción, transformación y carga) para las dimensiones.
- Dimensión paciente: el proceso que se realiza para la dimensión dim_paciente es el siguiente:
- Inicialmente se necesita el documento de Excel (datos_cirugias.xlsx), el cual contiene la información necesaria para el proceso ETL con pentaho.
- Luego buscamos el control Microsoft Excel input, que se encuentra en la pestaña Design de la aplicación Pentaho.
[pic 2]
- Ahora vamos a la configuración del control y procedemos a cargar el archivo Excel (datos_cirugias.xlsx) desde la pestaña Files.
[pic 3]
- Una vez en la pestaña Files en el campo Spread sheet type(engine) realizamos el cambio a la opción Excel 2007 XLSX (Apache POI).
[pic 4]
NOTA: este cambio se debe realizar para que sea posible visualizar el archivo de Excel (datos_cirugias.xlsx).
- Ahora seleccionamos el botón Browse, se abre una ventana emergente en la cual buscamos la ruta del documento Excel (datos_cirugias.xlsx), lo seleccionamos y le damos Abrir.
[pic 5]
- La ruta del archivo seleccionado debe aparecer en el campo File or directory,
luego damos clic en el botón Add.
[pic 6]
- Ahora en el campo Selected files aparece el archivo cargado.
[pic 7]
- Luego en el mismo control Microsoft Excel input, en la pestaña Sheets damos clic en el botón Get sheetname(s).
[pic 8]
- Se abre la ventana “Enter list”, en el campo Available items aparece la opción CIRUGIA, esta opción debe pasar al campo de la derecha llamado Your selection.
[pic 9]
- Una vez seleccionada la opción “CIRUGÍA”, se procede a dar clic en el botón con el símbolo “mayor que” (>).
[pic 10]
- Luego “CIRUGIA” pasa a la parte derecha del campo Your selection y damos clic en el botón OK.
- Seguimos en el control Microsoft Excel input, ahora en la pestaña Content y verificamos que el campo Header esté seleccionado.[pic 11]
- Ahora en la pestaña Fields del control Microsoft Excel input, damos clic el botón Get fields from header now.[pic 12]
- Este proceso carga los campos del archivo Excel (datos_cirugias.xlsx), damos clic en el botón ok y se finaliza la configuración del control.
[pic 13]
- En el siguiente paso se utiliza el control Table output, que se encuentra en la pestaña Design de la aplicación Pentaho.
[pic 14]
- Se realiza la conexión de los dos controles anteriormente mencionados, ponemos el cursor sobre el control Microsoft Excel input, nos muestra sus opciones y escogemos la opcion marcada en amarillo de la siguiente imagen.
[pic 15]
La deslizamos de un control a otro y queda lista la conexión.
[pic 16]
- Ingresamos al control Table output, en el campo Connection y damos clic en el botón Wizard.
- Se abre una ventana nueva, en el campo Name of the database le damos nombre a la conexión, posteriormente seleccionamos el motor de base de datos MySQL, y damos clic en el botón Next.[pic 17]
[pic 18]
- En la ventana siguiente configuramos el campo Host name of database server: con el dato “localhost”, y en el campo the name of databases, agregamos el nombre de la base de datos, en este caso “cirugiasdw”.
[pic 19]
Después de realizar el proceso anterior damos clic en el botón next.
- En la ventana siguiente ingresamos el usuario y contraseña en los campos the username y the password y posteriormente seleccionamos el botón Test database connection.
[pic 20]
Si el proceso se ejecuta correctamente se muestra una ventana emergente informando que la conexión es exitosa.
[pic 21]
Cerramos la ventana emergente y en la ventana set the username and password, se selecciona el botón finish.
- Al finalizar el proceso anterior se mostrará la ventana Table output, en esta ventana se ubica el campo Target table, damos clic en el botón Browse.., y seleccionamos la tabla dimensión que vamos a modificar, en este caso “paciente”.
[pic 22]
Una vez realizado este proceso damos clic en el botón ok.
- De nuevo en la configuración del control Table output,
marcamos el campo Specify database fields.
[pic 23]
- Ingresamos en la pestaña Database fields y damos clic en el botón
Enter field mapping.
[pic 24]
- En la ventana Enter mapping añadimos los campos que serán modificados y damos clic en el botón OK.
[pic 25]
El proceso anterior nos lleva a la ventana principal del control Table output donde damos clic en el botón OK para finalizar su configuración.
...