¿Cuáles son algunas cosas en la intersección de Big Data y Diseño?

  1. Elección de la pila tecnológica para satisfacer los requisitos. Esto es extremadamente amplio hoy en día.
  2. El dimensionamiento del clúster hadoop es muy importante. Factor de replicación, compresión, compactación Hbase, tamaño de memoria de nodos de datos, instancias separadas de zookeeper, configuración de instancia de nombre de nodo, resolución de problemas de archivos de tamaño pequeño: todo esto es importante.
  3. Estrategia ETL, y qué tan rápido necesita que estén listos los informes, qué tan interactivo necesita que sean los informes.
  4. Formatos de almacenamiento para IO optimizado. Esto puede tener una gran influencia en tu velocidad. AVRO cuando necesite procesamiento de MR y parquet para su mesa final expuesta para el análisis de tipo OLAP debería estar bien.
  5. Modelo de datos para su aplicación particular. Por ejemplo, si HBase, ¿qué es el diseño de clave de fila? ¿Necesitas un índice secundario? ¿Puedes beneficiarte de los coprocesadores?
  6. Compromiso entre el cálculo dinámico y el almacenamiento de variables derivadas. En los escenarios frecuentes de actualización de parámetros, puede elegir calcular salidas en función de la entrada y los parámetros en lugar de mantener la salida y optar por mecanismos de actualización complejos. La arquitectura Lambda es un buen ejemplo de este enfoque funcional de los datos. Por el contrario, las funciones constantes se pueden insertar en los campos de datos.
  7. ACID comprometido para la escala. Por ejemplo, HBase WAL flush delay para aumentar la escritura y comprometer la durabilidad.
  8. IO asíncrono: muchas veces esto se ignora. Pero esto puede cargar mucho los subsistemas de E / S. Piense en cómo NodeJs es eficiente para una analogía.
  9. Cuando utilice el almacenamiento políglota para su aplicación, será un desafío mantener la coherencia entre estos dispositivos. Una forma parece ser ejecutar una aplicación de tipo fsck, que se ejecutará todas las noches para encontrar y corregir inconsistencias. No es posible aplicar ACID cuando se utilizan múltiples esquemas de almacenamiento. Entonces, tienes un desastre que manejar. No puedo pensar en ninguna buena manera de manejar esto aparte de la aplicación de tipo fsck.
  10. Es importante la plataforma de aplicaciones para implementar sus servicios web impulsados ​​por inteligencia extraída de datos. Me encanta la plataforma de análisis de confianza TAP de Intel, ya que proporciona una forma de manejar datos, algoritmos y aplicaciones.

Big Data Hadoop está en todas partes. La mayoría de las empresas ya están invertidas en Hadoop y las cosas solo pueden mejorar en el futuro. El mercado laboral de hadoop está en llamas y los salarios están por las nubes. Hadoop es el marco de elección de software que se utiliza para trabajar con Big Data y dar sentido a todo para obtener valiosos conocimientos empresariales.

Hadoop comenzó como un proyecto para distribuir datos y poder de procesamiento en diferentes equipos informáticos con el fin de realizar el trabajo de manera más rápida y eficiente. Lleva el nombre del elefante de juguete del hijo de uno de los fundadores de Hadoop: Doug Cutting.

Actualmente, el conjunto de tecnologías y ecosistemas de Hadoop está siendo administrado por una organización global sin fines de lucro llamada Apache Software Foundation. La Fundación Apache dicta los estándares y normas y regularmente presenta nuevas fuentes abiertas, herramientas y plataformas que pueden funcionar perfectamente con Hadoop. Esta Fundación está siendo mantenida por un grupo exclusivo de programadores y colaboradores de software que trabajan por amor a la tecnología y con el objetivo de cambiar el mundo para siempre.

  • El salario promedio de los desarrolladores de Hadoop en los EE. UU. Es de alrededor de $ 112,000, que es un 95% más alto que los salarios promedio para todas las ofertas de trabajo en todo el país.
  • El mejor salario de Hadoop va para el administrador de Hadoop a $ 123,000 por año. Obtenga más información sobre el curso de capacitación de hadoop Big Data de Intellipaat y vea crecer su carrera.