Laboratorio No. V Uso de Herramienta Hadoop a través de Cloudera QuickStart VMs
Enviado por Katherine Rosario • 21 de Abril de 2019 • Práctica o problema • 2.547 Palabras (11 Páginas) • 165 Visitas
Universidad Tecnológica de Panamá
Facultad de Ingeniería de Sistemas Computacionales
Coordinación de Postgrado
Curso: Tópicos Especiales
Laboratorio No. V Uso de Herramienta Hadoop a través de Cloudera QuickStart VMs
Objetivos:
- Instalar y manipular la herramienta hadoop.
- Familiarizarse con el ambiente y comandos básicos para trabajar con Hadoop.
- Aplicar y hacer uso de hadoop para el procesamiento y análisis de datos.
- Comprender el funcionamiento de herramientas YARN, MapReduce, Hive, Spark y HDFS
- Describir las características de Cloudera Manager para el manejo y gestión de datos.
Introducción:
Hadoop MapReduce es un framework de software para procesar grandes conjuntos de datos. Utiliza muchas computadoras en paralelo que se ejecutan en un clúster. Los hosts de la computadora funcionan como si fueran una computadora grande.
MapReduce está basada en una variedad de criterios. Un ejemplo clásico es la clase JavaWordCount. WordCount mapea (extrae) palabras de una fuente de entrada y la reduce (resume) los resultados, devolviendo un conteo de cada palabra. Las versiones de WordCount en esta práctica esta implementada en base a las características de MRv2 API.
Los argumentos de la línea de comandos para compilar (build) y ejecutar WordCount, es la que presentamos para este ejemplo. Dichos comandos están en un script Makefile.
Este lo veremos en la práctica dos de este laboratorio.
Práctica No. 1: Lanzando trabajos MapReduce
En esta práctica lanzaremos nuestro primer trabajo MapReduce usando uno de los trabajos de ejemplo que vienen con la propia distribución de Hadoop. Este trabajo se denomina wordcount y básicamente cuenta el número de ocurrencias de cada palabra de un fichero. En posteriores prácticas veremos más detalles de cómo funciona este programa MapReduce.
1. Lo primero descargaremos, descomprimiremos los ficheros necesarios para las prácticas y entraremos en el directorio practicas:
https://drive.google.com/open?id=1ri0KWsloUR867vRYAidSAm8Yx5awPkRi/practicas.tar .gz
[pic 1][pic 2]
[cloudera@quickstart ~]$ tar xzvf practicas.tar.gz [cloudera@quickstart ~]$ cd practicas [cloudera@quickstart practicas]$
2. Subiremos el fichero de entrada (wordcount/entrada.txt) al HDFS:
[pic 3]
[cloudera@quickstart practicas]$ cd wordcount/ [cloudera@quickstart wordcount]$ hadoop fs -mkdir input [cloudera@quickstart wordcount]$ hadoop fs -put entrada.txt input/
File Output Format Counters Bytes Written=1311
FileSystemCounters
Launched map tasks=1 Data-local map tasks=1 SLOTS_MILLIS_REDUCES=10733
Total time spent by all maps
Total time spent by all reduces
Job Counters
Launched reduce tasks=1 SLOTS_MILLIS_MAPS=10895
- Lanzaremos el trabajo MapReduce de ejemplo:
[pic 4]
[cloudera@quickstart wordcount]$ hadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output-1
20/02/1818:45:17 INFO mapred.JobClient: | FILE_BYTES_READ=1860 |
20/02/1818:45:17 INFO mapred.JobClient: | HDFS_BYTES_READ=1394 |
20/02/1818:45:17 INFO mapred.JobClient: | FILE_BYTES_WRITTEN=116324 |
20/02/1818:45:17 INFO mapred.JobClient: | HDFS_BYTES_WRITTEN=1311 |
20/02/1818:45:17 INFO mapred.JobClient: | File Input Format Counters |
20/02/1818:45:17 INFO mapred.JobClient: | Bytes Read=1273 |
20/02/1818:45:17 INFO mapred.JobClient: | Map-Reduce Framework |
20/02/1818:45:17 INFO mapred.JobClient: | Map output materialized bytes=1860 |
20/02/1818:45:17 INFO mapred.JobClient: | Map input records=19 |
20/02/1818:45:17 INFO mapred.JobClient: | Reduce shuffle bytes=1860 |
20/02/1818:45:17 INFO mapred.JobClient: | Spilled Records=272 |
20/02/1818:45:17 INFO mapred.JobClient: | Map output bytes=2028 |
20/02/1818:45:17 INFO mapred.JobClient: | Total committed heap usage |
(bytes)=176230400 | |
20/02/1818:45:17 INFO mapred.JobClient: | CPU time spent (ms)=1750 |
20/02/1818:45:17 INFO mapred.JobClient: | Combine input records=189 |
20/02/1818:45:17 INFO mapred.JobClient: | SPLIT_RAW_BYTES=121 |
20/02/1818:45:17 INFO mapred.JobClient: | Reduce input records=136 |
20/02/1818:45:17 INFO mapred.JobClient: | Reduce input groups=136 |
20/02/1818:45:17 INFO mapred.JobClient: | Combine output records=136 |
20/02/1818:45:17 INFO mapred.JobClient: | Physical memory (bytes) |
snapshot=253415424 | |
20/02/1818:45:17 INFO mapred.JobClient: | Reduce output records=136 |
20/02/1818:45:17 INFO mapred.JobClient: | Virtual memory (bytes) |
snapshot=1461096448 | |
20/02/1818:45:17 INFO mapred.JobClient: | Map output records=189 |
20/02/1818:44:51 INFO input.FileInputFormat: Total input paths to process : 1
...