¿Que es Hadoop? - Big data componentes y beneficios



· ¿Qué es Apache Hadoop?

· ¿Cuáles son sus beneficios?

· ¿Cuáles son sus componentes?



¿Qué es Apache Hadoop?


Conocido también como simplemente Hadoop, es un Framework de software que nos ayudará a enfrentar el mundo del Big Data en el almacenamiento y procesamiento distribuido de cualquier tipo de datos a gran escala y más importante a entenderlos y convertirlos en una ventaja competitiva, siendo una de las herramientas más representativas e importantes para el campo.


Big data

¿Cuáles son sus beneficios?


· Capacidad para almacenar toda clase de datos: estructurados, no estructurados y semiestructurados.

· Almacenaje escalable a bajo costo, al ser una herramienta Open Source.

· Asegura la alta disponibilidad y recuperación de datos.

· Exploración y descubrimiento en DataLakes para

formular preguntas nuevas o difíciles sin

restricciones.

· Plataforma computacional y caja de arena para

analítica avanzada

· Extensión Complementaria de un DataWarehouse.



¿Cuáles son sus componentes?


Los módulos principales en la estructura básica de Hadoop son:


HDFS:

HDFS (Hadoop Distributed File System) es el sistema de ficheros distribuido de Hadoop. Teniendo la capacidad para almacenar los archivos en un clúster de varias máquinas. Las diferencias con otros sistemas de archivos distribuidos son significativas. HDFS es altamente tolerante a fallas y está diseñado para implementarse en hardware de bajo costo. HDFS proporciona acceso de alto rendimiento a los datos de la aplicación y es adecuado para aplicaciones que tienen grandes conjuntos de datos.



Hadoop MapReduce:


Paradigma de procesamiento de grandes cantidades de datos(multi-terabyte) en paralelo que toma una especificación de como los datos será ingresados y como saldrán de sus dos etapas (Map y Reduce). El paso del mapeo es un nodo maestro que toma entradas y las divide en subproblemas de menor tamaño y luego las distribuye a nodos trabajadores.

Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, monitorearlas y volver a ejecutar las tareas fallidas.





Hadoop YARN


Yarn es un framework encargado de la programación de los trabajos en un clúster y gestionar los recursos hardware de los que se disponen para ejecutar las aplicaciones Big Data.


¿En que se diferencian MapReduce y Yarn?


Yarn es el componente de Apache Hadoop responsable de gestionar los recursos y planificar los trabajos. MapReduce es el componente que indica la forma en la que ejecutar los trabajos distribuidos por medio de las fases Map y Reduce.


Hadoop Common

Las utilidades comunes que admiten los otros módulos de Hadoop.

142 visualizaciones0 comentarios

Entradas Recientes

Ver todo

Create a blog post subtitle that summarizes your post in a few short, punchy sentences and entices your audience to continue reading. Welcome to your blog post. Use this space to connect with your rea

  • youtube-
  • linkeding-
  • youtube-