
· ¿Qué es Apache Hadoop?
· ¿Cuáles son sus beneficios?
· ¿Cuáles son sus componentes?
¿Qué es Apache Hadoop?
Conocido también como simplemente Hadoop, es un Framework de software que nos ayudará a enfrentar el mundo del Big Data en el almacenamiento y procesamiento distribuido de cualquier tipo de datos a gran escala y más importante a entenderlos y convertirlos en una ventaja competitiva, siendo una de las herramientas más representativas e importantes para el campo.

¿Cuáles son sus beneficios?
· Capacidad para almacenar toda clase de datos: estructurados, no estructurados y semiestructurados.
· Almacenaje escalable a bajo costo, al ser una herramienta Open Source.
· Asegura la alta disponibilidad y recuperación de datos.
· Exploración y descubrimiento en DataLakes para
formular preguntas nuevas o difíciles sin
restricciones.
· Plataforma computacional y caja de arena para
analítica avanzada
· Extensión Complementaria de un DataWarehouse.
¿Cuáles son sus componentes?
Los módulos principales en la estructura básica de Hadoop son:
HDFS:
HDFS (Hadoop Distributed File System) es el sistema de ficheros distribuido de Hadoop. Teniendo la capacidad para almacenar los archivos en un clúster de varias máquinas. Las diferencias con otros sistemas de archivos distribuidos son significativas. HDFS es altamente tolerante a fallas y está diseñado para implementarse en hardware de bajo costo. HDFS proporciona acceso de alto rendimiento a los datos de la aplicación y es adecuado para aplicaciones que tienen grandes conjuntos de datos.

Tu compañía podría ser
el próximo caso de éxito con
la transformación digital
En Bisolution latam te
brindaremos asesoría profesional.
Hadoop MapReduce:
Paradigma de procesamiento de grandes cantidades de datos(multi-terabyte) en paralelo que toma una especificación de como los datos será ingresados y como saldrán de sus dos etapas (Map y Reduce). El paso del mapeo es un nodo maestro que toma entradas y las divide en subproblemas de menor tamaño y luego las distribuye a nodos trabajadores.
Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Hadoop YARN
Yarn es un framework encargado de la programación de los trabajos en un clúster y gestionar los recursos hardware de los que se disponen para ejecutar las aplicaciones Big Data.
¿En que se diferencian MapReduce y Yarn?
Yarn es el componente de Apache Hadoop responsable de gestionar los recursos y planificar los trabajos. MapReduce es el componente que indica la forma en la que ejecutar los trabajos distribuidos por medio de las fases Map y Reduce.
Hadoop Common
Las utilidades comunes que admiten los otros módulos de Hadoop.