¿Qué es HDFS y diseño y reglas?

Fuente: Introducción a HDFS | Características de HDFS

El sistema de archivos distribuido de Hadoop o HDFS es un sistema de archivos distribuido basado en Java que le permite almacenar grandes datos en múltiples nodos en un clúster de Hadoop. Entonces, si instala Hadoop, obtiene HDFS como un sistema de almacenamiento subyacente para almacenar los datos en el entorno distribuido.

Fuente: Guía de Arquitectura HDFS

Supongo que al decir diseño y reglas, te estás refiriendo a la arquitectura de HDFS. Bueno, HDFS sigue la topología Master Slave donde el nodo maestro gestiona los otros nodos esclavos o daemon (proceso). El nodo maestro se llama NameNode y los nodos esclavos se llaman nodos de datos. Los datos se almacenan solo en los nodos de datos (esclavos).

Ahora, HDFS almacena datos como bloques (por defecto, 128 MB de tamaño). Entonces, si tiene un archivo de 1 GB, se almacenará en HDFS en términos de bloques (1 GB / 128 MB = 8 bloques) en diferentes nodos de datos. También estos bloques serán replicados. Entonces, uno puede recuperar el bloque de archivo de otro nodo de datos si falla un nodo de datos.

Escritura HDFS:

Supongamos que un cliente quiere almacenar un archivo en HDFS. Entonces, el cliente le pedirá al nodo de nombre la ubicación del nodo de datos y luego realizará el proceso de escritura. El diagrama a continuación da una idea básica del proceso de escritura HDFS en el que un bloque se escribe en HDFS y se replica por los nodos de datos. En realidad, todo el proceso ocurre en tres etapas: configuración de canalización, escritura HDFS (transmisión de datos a nodos de datos) y reconocimiento. La siguiente imagen muestra solo la segunda etapa (escritura HDFS).

Fuente: Guía de Arquitectura HDFS

Aquí, cada bloque se ha replicado tres veces (3 copias de un bloque) en diferentes nodos de datos.

La arquitectura de lectura es bastante simple en comparación con la escritura HDFS. Puede consultar la figura a continuación para tener una idea básica de la escritura HDFS. En la imagen a continuación, un cliente HDFS quiere leer un archivo que ha sido almacenado como bloques (bloque A y B) en HDFS:

Fuente: Guía de Arquitectura HDFS

Finalmente, el cliente combinará los dos bloques para formar el archivo completo.

Para comprender HDFS y su arquitectura en detalle, puede consultar el Tutorial de HDFS. El contenido de los blogs son:

  • Arquitectura HDFS – NameNode, DatNode y Secondary NameNode
  • ¿Cómo se crean los bloques?
  • ¿Cómo se colocan los bloques?
  • ¿Cómo se gestionan las réplicas?
  • Proceso de escritura HDFS
  • Proceso de lectura de HDFS

Espero que la respuesta te haya ayudado y puedes preguntarme en caso de dudas.

El sistema de archivos distribuido de Hadoop o HDFS es un sistema de archivos distribuido basado en Java que le permite almacenar grandes datos en múltiples nodos en un clúster de Hadoop . … Supongo que al decir diseño y reglas , te estás refiriendo a la arquitectura de HDFS

HDFS no tiene idea (y no le importa) lo que está almacenado dentro del archivo, por lo que los archivos sin formato no se dividen de acuerdo con las reglas que los humanos entenderíamos. Los humanos, por ejemplo, querrían que se respeten los límites de los registros , las líneas que muestran dónde comienza y termina un registro.

HDFS a menudo desconoce que el registro final en un bloque puede ser solo un registro parcial, con el resto de su contenido desviado al siguiente bloque. HDFS solo quiere asegurarse de que los archivos se dividan en bloques de tamaño uniforme que coincidan con el tamaño de bloque predefinido para la instancia de Hadoop (a menos que se haya ingresado un valor personalizado para el archivo que se está almacenando). En la figura anterior, ese tamaño de bloque es de 128 MB.

Intellipaat es un proveedor líder de capacitación en certificación a nivel mundial. Crean cursos académicos y profesionales de primer nivel en línea para principiantes y profesionales experimentados con el objetivo de ofrecer un conocimiento profundo de materias y prácticas de instructores expertos de la industria. Los dos modos de capacitación incluyen: capacitación en línea dirigida por un instructor o aprendizaje electrónico a su propio ritmo. Si quieres tomar el curso puedes ir con Intellipaat

Espero que sea realmente útil para usted …