NameNode y DataNode

NameNode y DataNode

En esta publicación, hablemos de los 2 tipos importantes de nodos y sus funciones en su clúster de Hadoop: NameNode y DataNode.

¿Qué es HDFS?

Cubrimos una gran cantidad de información sobre HDFS en » HDFS – ¿Por qué otro sistema de archivos?»capítulo del curso de Kit de iniciación de Hadoop. Si es nuevo en Hadoop, le sugerimos que tome el curso gratuito.

Namenode

  1. NameNode es la pieza central de HDFS.
  2. El código de nombre también se conoce como el código de nombre maestro
  3. solo almacena los metadatos de HDFS, el árbol de directorios de todos los archivos del sistema de archivos, y realiza un seguimiento de los archivos en todo el clúster.
  4. NameNode no almacena los datos reales ni el conjunto de datos. Los datos se almacenan en los DataNodes.
  5. NameNode conoce la lista de bloques y su ubicación para cualquier archivo en HDFS. Con esta información, NameNode sabe cómo construir el archivo a partir de bloques.
  6. El NameNode es tan crítico para HDFS y cuando el NameNode está inactivo, el clúster HDFS/Hadoop es inaccesible y se considera inactivo.
  7. NameNode es un único punto de error en el clúster de Hadoop.
  8. El NameNode se configura normalmente con mucha memoria (RAM). Porque las ubicaciones de bloque son de ayuda en la memoria principal.

DataNode

  1. DataNode es responsable de almacenar los datos en HDFS.
  2. DataNode también se conoce como el esclavo
  3. NameNode y DataNode están en comunicación constante.
  4. Cuando un DataNode se inicia, se anuncia al NameNode junto con la lista de bloques de los que es responsable.
  5. Cuando un código de datos está inactivo, no afecta a la disponibilidad de los datos ni al clúster. NameNode se encargará de la replicación de los bloques administrados por el DataNode que no esté disponible.
  6. El DataNode generalmente se configura con mucho espacio en el disco duro. Porque los datos reales se almacenan en el DataNode.

Configuración de hardware

La configuración de hardware de los nodos varía de un clúster a otro y depende del uso del clúster. En algunos clústeres de Hadoop, la velocidad de crecimiento de los datos es alta, en ese caso se da más importancia a la capacidad de almacenamiento. Si los SLA para las ejecuciones de trabajos son importantes y no se pueden pasar por alto, entonces se da más importancia a la potencia de procesamiento de los nodos.

A menudo, el término «Computadoras de productos básicos» se malinterpreta. Las computadoras o nodos básicos no significan hardware barato o menos potente, solo significa computadora costosa y restan importancia a la necesidad de hardware especializado.

Aquí hay una configuración de ejemplo para la configuración de hardware de código de nombre y código de datos.

Configuración de nodo de nombre

Procesadores: 2 CPU de cuatro núcleos que funcionan a 2 GHz
RAM: 128 GB
Disco: 6 x 1 TB SATA
Red: 10 Gigabit Ethernet

Configuración de nodo de datos

Procesadores: 2 CPU de cuatro núcleos que funcionan a 2 GHz
RAM: 64 GB
Disco: 12-24 x 1 TB SATA
Red: 10 Gigabit Ethernet

¿Te gusta lo que estás leyendo? Inscríbase en nuestro curso gratuito de Kit de inicio de Hadoop & explore Hadoop en profundidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.