Fuente: Introducción a HDFS | Características de HDFS
El sistema de archivos distribuido de Hadoop o HDFS es un sistema de archivos distribuido basado en Java que le permite almacenar grandes datos en múltiples nodos en un clúster de Hadoop. Entonces, si instala Hadoop, obtiene HDFS como un sistema de almacenamiento subyacente para almacenar los datos en el entorno distribuido.
- Cómo diseñar y comercializar un dispositivo electrónico
- ¿Qué es un icono de interfaz?
- ¿Qué software debo aprender para el diseño automotriz?
- ¿Qué habilidades transferibles o ventajas obtienes de un IGCSE de Tecnología de Historia y Diseño?
- ¿Cuáles son todas las consideraciones de diseño para la selección de bombas?
Fuente: Guía de Arquitectura HDFS
Supongo que al decir diseño y reglas, te estás refiriendo a la arquitectura de HDFS. Bueno, HDFS sigue la topología Master Slave donde el nodo maestro gestiona los otros nodos esclavos o daemon (proceso). El nodo maestro se llama NameNode y los nodos esclavos se llaman nodos de datos. Los datos se almacenan solo en los nodos de datos (esclavos).
Ahora, HDFS almacena datos como bloques (por defecto, 128 MB de tamaño). Entonces, si tiene un archivo de 1 GB, se almacenará en HDFS en términos de bloques (1 GB / 128 MB = 8 bloques) en diferentes nodos de datos. También estos bloques serán replicados. Entonces, uno puede recuperar el bloque de archivo de otro nodo de datos si falla un nodo de datos.
Escritura HDFS:
Supongamos que un cliente quiere almacenar un archivo en HDFS. Entonces, el cliente le pedirá al nodo de nombre la ubicación del nodo de datos y luego realizará el proceso de escritura. El diagrama a continuación da una idea básica del proceso de escritura HDFS en el que un bloque se escribe en HDFS y se replica por los nodos de datos. En realidad, todo el proceso ocurre en tres etapas: configuración de canalización, escritura HDFS (transmisión de datos a nodos de datos) y reconocimiento. La siguiente imagen muestra solo la segunda etapa (escritura HDFS).
Fuente: Guía de Arquitectura HDFS
Aquí, cada bloque se ha replicado tres veces (3 copias de un bloque) en diferentes nodos de datos.
La arquitectura de lectura es bastante simple en comparación con la escritura HDFS. Puede consultar la figura a continuación para tener una idea básica de la escritura HDFS. En la imagen a continuación, un cliente HDFS quiere leer un archivo que ha sido almacenado como bloques (bloque A y B) en HDFS:
Fuente: Guía de Arquitectura HDFS
Finalmente, el cliente combinará los dos bloques para formar el archivo completo.
Para comprender HDFS y su arquitectura en detalle, puede consultar el Tutorial de HDFS. El contenido de los blogs son:
- Arquitectura HDFS – NameNode, DatNode y Secondary NameNode
- ¿Cómo se crean los bloques?
- ¿Cómo se colocan los bloques?
- ¿Cómo se gestionan las réplicas?
- Proceso de escritura HDFS
- Proceso de lectura de HDFS
Espero que la respuesta te haya ayudado y puedes preguntarme en caso de dudas.