¿Cómo comenzar a aprender sobre big data? ¿Qué sitio ofrece el mejor tutorial para Big Data?

Primero, comprenda Big Data y los desafíos asociados con Big Data. Entonces, puede entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog Qué es Hadoop y Hadoop Tuorial te presentará eso.

Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.

Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es el Big Data?

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre información sobre los datos y aproveche al máximo.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NameNode

Es el demonio maestro que mantiene

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos según las decisiones tomadas por NameNode.

Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y ordenar. Mientras que la función Reduce agrega y resume el resultado producido por la función map. El resultado generado por la función Map es par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede leer este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.

También puede leer este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , el idioma y el tiempo de ejecución de Pig , para el entorno de ejecución. Puede entenderlo mejor como Java y JVM. Es compatible con el lenguaje latino porcino .

Como no todos pertenecen a un fondo de programación. Entonces, Apache PIG los alivia. ¿Puede ser curioso saber cómo?

Bueno, te diré un hecho interesante:

10 líneas de latín de cerdo = aprox. 200 líneas de código Java Map-Reduce

Pero no se sorprenda cuando digo que al final del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como un cuadro negro). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesar y analizar grandes conjuntos de datos.

Colmena

Facebook creó HIVE para personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza lectura, escritura y gestión de grandes conjuntos de datos en un entorno distribuido utilizando una interfaz similar a SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar al SQL. La colmena es altamente escalable. Como, puede servir tanto para los propósitos, es decir, el procesamiento de grandes conjuntos de datos (es decir, el procesamiento de consultas por lotes) y el procesamiento en tiempo real (es decir, el procesamiento de consultas interactivas). La colmena se convierte internamente en programas MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede utilizar funciones predefinidas o escribir funciones definidas por el usuario (UDF) personalizadas también para cumplir con sus necesidades específicas.

Puede almacenar datos en HBase según sus requisitos.

HBase

HBase es una base de datos distribuida no relacional de código abierto. En otras palabras, es una base de datos NoSQL. Admite todo tipo de datos y es por eso que es capaz de manejar cualquier cosa y todo dentro de un ecosistema de Hadoop. Se basa en BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante a fallas de almacenar datos dispersos, lo cual es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones de HBase pueden escribirse en las API REST, Avro y Thrift.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que ha utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Puede revisar esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop .

Fuera de los cursos de Big Data, completé este curso de análisis de datos de B ig con ejercicios del mundo real y creo que son los mejores disponibles en línea.

Le proporciona capacitación práctica con Hadoop, Hive, Pig y R y práctica en proyectos del mundo real. Tomé este y está dirigido a personas que recién comienzan con Big Data.

Del mismo modo, si desea aprender Big Data Hadoop y desea profundizar en el uso del mundo real de Hadoop y las API y herramientas relacionadas, entonces hay un Curso de capacitación para desarrolladores de Hadoop

Este curso lo lleva a cabo un instructor con 21 años de experiencia práctica en arquitecturas que van desde sistemas integrados hasta supercomputadoras y brindó liderazgo técnico a líderes del mercado como CSC, General Dynamics, AAA, Daimler-Benz y Hearst.

Le ayudaría a dominar todos los detalles relevantes de las API de Hadoop y completar tareas rigurosas y desafiantes en el contexto de un estudio de caso de agregador de datos.

No te aconsejaré para la capacitación en la sala de clase porque lleva mucho tiempo y es menos efectiva e incluso costosa. Incluso no te aconsejaré que vayas con servicios gratuitos si tienes menos tiempo porque no obtendrás todo en un solo lugar. Hay más de 100 jugadores en el mercado que pueden educarlo, pero el costo depende de la marca. Pocos son demasiado caros (aproximadamente 3000 usd) para clases de 5 días. Puede ir a los cursos de aprendizaje a su propio ritmo porque puede aprender a su propio ritmo y puede aprender cuando tenga tiempo. Para la capacitación en el aula, tendrá que dedicar un tiempo extra a los viajes. Incluso si se perdió una clase, ya terminó, no puede entender la próxima clase. Incluso las clases de aprendizaje a su propio ritmo son muy baratas y mantienen el contenido de alta calidad para el curso.5 días atrás también estaba en su condición y de repente encontré una publicación en linkedin para un gran curso con descuento en KloudMagica. Visité el sitio web y no sé por qué, pero simplemente compré el curso de aprendizaje a su propio ritmo “** Big Data Hadoop Certification Training **” KloudMagica @ 105 usd (después de aplicar el cupón). Puede usar mi código de referencia KMSNE83255 durante el registro para obtener un descuento adicional. He completado 4 módulos hasta ahora y ahora tengo una buena idea y puedo hablar sobre big data y hadoop. Están agregando continuamente las preguntas del cuestionario. La explicación es extremadamente buena pero la voz es baja. En general, estoy muy satisfecho con el contenido del curso.

Así que creo que es un trato de robo a este precio. El descanso depende de usted, si tiene tiempo, puede explorar más y puede optar por los cursos gratuitos y durante 4 a 5 horas todos los días, entonces puede ir a la capacitación en el aula

Se espera que en 2015 haya 4.4 millones de empleos en Big Data en los gobiernos y en todos los sectores de la industria. Combine esto con la escasez de personas capacitadas para llevar a cabo el análisis necesario (se pronostica que será de casi 200,000 para 2018) y, según su punto de vista, tiene muchas vacantes vacantes o una carrera lucrativa por delante.

¿Pero no necesitarás un título y experiencia relevante? Bueno, posiblemente. No todos pueden permitirse el lujo de pasar años volviendo a la universidad y volver a capacitarse, pero hay alternativas.

Cada vez más colegios y universidades están poniendo cursos en línea donde se pueden estudiar de forma gratuita. Es posible que no obtenga un título al final, pero eso puede no ser importante. El evangelista de big data de IBM James Kobielus dijo en 2013 que “las credenciales académicas son importantes pero no necesarias para la ciencia de datos de alta calidad. Las aptitudes centrales (curiosidad, agilidad intelectual, fluidez estadística, resistencia de investigación, rigor científico, naturaleza escéptica) que distinguen los mejores datos científicos están ampliamente distribuidos en toda la población “.

Algunos de los cursos ofrecen certificados de finalización u otras formas de acreditación, que ciertamente pueden ir en su CV para impresionar a los posibles empleadores.

Por supuesto, si no está en el mercado laboral, digamos que dirige su propio negocio, estos son valiosos únicamente por el conocimiento que pueden brindarle. No hay razón para que una persona razonablemente competente no pueda usar ese conocimiento para lanzar su propia estrategia de datos y obtener información, sea cual sea su negocio. Me encantaría saber en la sección de comentarios si alguien ha hecho esto. Si desea más información, puede visitar BlueTalon: la mejor seguridad centrada en datos

SI está interesado en aprender y saber más sobre Big Data, entonces tiene múltiples fuentes disponibles: artículos, blogs, libros blancos, etc.
Pero si está interesado en hacer un cambio profesional de decir JAVA, desarrollador de J2EEE a desarrollador de Big Data Hadoop, entonces es recomendable hacer un curso de desarrollador de Hadoop que le proporcionará un conocimiento profundo de conceptos como (Hadoop, es un componente del sistema ecológico, etc.) y, lo que es más importante, el curso le proporcionará experiencia práctica en la implementación de proyectos de desarrollo de Hadoop.
Hay pocas opciones realmente buenas disponibles, como Cloudera, Howrtonworks, Simplilearn.
Algunos de ellos también le brindan la opción de un aula virtual en línea donde puede asistir a un aula en vivo de Hadoop Instructor a través de la web y los instructores también lo ayudarán durante la duración del curso a resolver sus consultas, dudas y dificultades prácticas en la implementación de proyectos.
He encontrado Big Data y Hadoop Training con certificación de expertos certificados | El curso Simplilearn de Simplilearn es muy impresionante en términos de conceptos, temas cubiertos, se centra en proyectos y una opción de asistir al aula virtual en línea.
¡Espero que esto ayude!

Big Data y Hadoop es fácil de aprender, pero hay que trabajar muy duro. Es un muy buen momento para comenzar a aprender Hadoop porque la mayoría de las empresas comenzaron a usar Big Data Hadoop y necesitan buenos candidatos calificados.

Las empresas están buscando candidatos calificados de Hadoop. Puede obtener un pago suficiente según sus requisitos, pero para esto debe seguir la dirección correcta.

Comience a aprender desde el principio y luego avance lentamente hacia partes complejas. Comience a partir de lo que es Big Data, por qué deberíamos aprender Big Data, cómo Big Data entró en escena y cómo Hadoop le proporcionó una solución.

¿Qué es el Big Data?

Big Data es un conjunto de datos extremadamente grande. Big data es un gran volumen , velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 ​​grados de los clientes y comprender mejor sus necesidades.

Consulte el siguiente enlace para conocer los conceptos detallados de Big Data: guía completa de Big Data

Si desea conocer la historia de Big Data, consulte el siguiente enlace:

Historia de Big Data

También puede ver el video a continuación para obtener una introducción a Big Data:

Si está interesado en conocer las aplicaciones de Big Data en tiempo real, puede consultar el siguiente enlace.

Aplicaciones de Big Data en tiempo real

Después de Big Data, avance hacia Hadoop.

¿Qué es Apache Hadoop?

Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible gratuitamente e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con sus requisitos, puede cambiarla según sus necesidades. La mayoría del código de Hadoop está escrito por Yahoo, IBM, Facebook, cloudera.it proporciona un marco eficiente para ejecutar trabajos en múltiples nodos de clústeres. Clúster significa un grupo de sistemas conectados a través de LAN. Hadoop proporciona procesamiento paralelo de datos a medida que funciona en varias máquinas simultáneamente.

Para más detalles, consulte el siguiente enlace: Guía completa de Hadoop

Después de la introducción, aprenda el características de Hadoop y sus componentes de ecosistema de Hadoop.

También puede consultar el siguiente video para obtener una introducción a Hadoop:

Los enlaces anteriores son suficientes para aprender las características y el ecosistema de Hadoop. Ahora avance hacia HDFS, MapReduce y Yarn.

HDFS

Introducción a Hadoop HDFS

El sistema de archivos distribuidos Hadoop-HDFS es el sistema de almacenamiento más confiable del mundo. HDFS almacena archivos muy grandes que se ejecutan en un grupo de hardware básico. Funciona según el principio de almacenamiento de una menor cantidad de archivos grandes en lugar de la gran cantidad de archivos pequeños. HDFS almacena datos de manera confiable incluso en caso de falla de hardware. Proporciona un alto rendimiento al proporcionar el acceso a los datos en paralelo.

Para más detalles: Introducción a HDFS

Consulte el enlace a continuación para ver la arquitectura HDFS y sus características.

HDFS – Arquitectura

HDFS – Características

Ahora aprendamos la operación de lectura y escritura de HDFS

Consulte el siguiente video para la operación de escritura:

Puede ver el video a continuación para la Operación de lectura:

También puedes referir este GIF. Es muy fácil aprender la operación de lectura y escritura de este GIf y también es bastante interesante.

Para más detalles: operación de lectura y escritura HDFS

Ahora, después de HDFS, avance hacia MapReduce

Mapa reducido

MapReduce es la capa de procesamiento de Hadoop . MapReduce es un modelo de programación diseñado para procesar grandes volúmenes de datos en paralelo al dividir el trabajo en un conjunto de tareas independientes. Solo necesita poner la lógica de negocios en la forma en que MapReduce funciona y el resto se ocupará del marco. El trabajo (trabajo completo) que el usuario envía al maestro se divide en pequeños trabajos (tareas) y se asigna a los esclavos.

Obtenga más información sobre MapReduce: guía completa de MapReduce

MapReduce es la parte más compleja de Hadoop. Por el enlace de arriba puedes aprender MapReduce fácilmente. Si desea comenzar su carrera como desarrollador de Hadoop, enfóquese principalmente en MapReduce, ya que contiene una parte de programación.

Ahora, después de MapReduce, aprende Yarn. El hilo es un tema fácil y pequeño de Hadoop.

HILO

YARN proporciona la gestión de recursos. YARN se llama como el sistema operativo de hadoop, ya que es responsable de administrar y monitorear las cargas de trabajo. Permite que múltiples motores de procesamiento de datos, como la transmisión en tiempo real y el procesamiento por lotes, manejen los datos almacenados en una sola plataforma. YARN se ha proyectado como un sistema operativo de datos para Hadoop2.

Las características principales de YARN son:

Flexibilidad: permite otros modelos de procesamiento de datos especialmente diseñados más allá de MapReduce (lote), como el interactivo y la transmisión. Debido a esta característica de YARN, otras aplicaciones también se pueden ejecutar junto con los programas Map Reduce en hadoop2.

Para más detalles: guía completa de hilos

Después de aprender Hadoop. Siga adelante con las preguntas de la entrevista.

Preguntas principales de la entrevista para Hadoop

Espero que esto te ayude a aprender Hadoop

Tendrá que comenzar familiarizándose con herramientas y lenguajes de programación como la programación Hadoop basada en Java de Apache Software Foundation. Comience aprendiendo el marco del software MapReduce (función de mapa que distribuye el trabajo a diferentes nodos y una función de reducción que reúne resultados y los resuelve en un solo valor). Últimamente, el conocimiento sobre el componente de almacenamiento de datos de Apache Hive también se ha convertido en un conjunto de habilidades muy solicitado. Además, desarrolle la comprensión de los conectores SQL Server-Hadoop de Microsoft que intentan entrar en acción Hadoop. He enumerado algunos cursos en línea sobre big data, puede comenzar con estos cursos gratuitos para principiantes;

  • Jigsaw Acaddemy – Cursos gratuitos de análisis de datos Prueba y capacitación de Jigsaw Academy
  • Coursera – https://www.coursera.org/learn/d
  • Big Data University – Aprende Big Data
  • EDX – Análisis de datos: visualización y diseño de paneles
  • Futurelearn – Aprenda a codificar para el análisis de datos – The Open University
  • INOMICS – Estadísticas y análisis de datos: cursos gratuitos en línea
  • Udacity – Introducción a Hadoop y MapReduce para principiantes | Udacity

Big Data, o datos totales, y cómo recopilarlos y llevarlos al lago de datos puede sonar aterrador, pero se vuelve menos si divide el problema de recopilación de datos en subconjuntos.

  • Datos de fuentes tradicionales: sus sistemas de contabilidad de transacciones, sistemas de recursos humanos, etc., ya se están utilizando como fuentes de datos para análisis. Los procesos ETL ya están implementados para Big Data, Data Science – Clases de capacitación de cursos combinados en línea | Big Data, Data Science: los cursos combinados de cursos en línea recopilan estos datos. Básicamente terminas con dos opciones. Duplique estos procesos ETL, intercambie el objetivo del EDW al lago de datos, o replique su EDW en el lago de datos, copiando físicamente los datos o abrazando virtualmente la arquitectura del lago de datos virtual (una variación del almacén de datos virtual) .
  • Datos estructurados de Internet de las cosas: la principal complejidad con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingestión adecuada y oportuna. Pero estos datos suelen estar muy estandarizados y los requisitos de transformación de datos anteriores no son inmensos.
  • Datos no estructurados: la recopilación de archivos multimedia, los datos textuales es una cosa que facilitan las plataformas de big data como Hadoop. Debido a que su almacenamiento no tiene esquemas, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.

Dadas las herramientas ETL adecuadas y las API / conectores, así como el rendimiento correcto, la recopilación de grandes datos no es la parte más difícil de la ecuación de grandes datos.

Almacenamiento de datos

Las plataformas de Big Data son polimorfos: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a ellos a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos No-SQL de consistencia relajada hasta las bases de datos relacionales de tercera forma normal e incluso de quinta norma, desde la lectura directa hasta el acceso de estilo columnar a SQL transaccional, hay una respuesta para cada almacenamiento y acceso a datos necesitar.

Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Al aprovisionarlo en la nube, se vuelve elástico. Conceptualmente, al menos, almacenar big data es la parte más fácil de la ecuación de big data.

Puede probar nuestra Capacitación de certificación de Big Data Hadoop https://www.kloudmagica.com/cour… . Actualmente estamos dando un gran descuento en el festival.

——————————————————————————————————–

EQUIPO DE DESARROLLO EMPRESARIAL

KloudMagica Infotech Private Limited
Correo electrónico: [correo electrónico protegido] / [correo electrónico protegido]

Sitio web: https://www.kloudmagica.com/

Facebook: https://www.facebook.com/kloudma

Linkedin: https://www.linkedin.com/in/klou

Youtube: https://www.youtube.com/c/kloudm

twitter: https://twitter.com/KloudMagica

¿Qué son los datos?

Los datos son básicamente información en bruto que se puede recopilar y analizar para crear información adecuada para tomar decisiones correctas.

Los datos pueden ser

  • datos no estructurados
  • datos semiestructurados y
  • datos estructurados

datos no estructurados

Los datos no estructurados son básicamente información que no se encuentra en una base de datos tradicional de filas y columnas. Como podemos entender por nombre, los datos no estructurados son algo opuesto a los datos estructurados.

Podemos considerar

  • Documentos de Word,
  • Presentaciones de PowerPoint,
  • boletines informativos,
  • código fuente,
  • documentos impresos
  • Imágenes y gráficos

como datos no estructurados

datos estructurados

El término datos estructurados generalmente se refiere a datos que tienen una longitud y un formato definidos para big data. Los datos estructurados tienen la ventaja de ser fácilmente ingresados, almacenados, consultados y analizados. Los datos estructurados se refieren a los datos que tienen un modelo de datos predefinido o que tienen un esquema o una estructura. Los datos estructurados son fácilmente manejables y se pueden consumir utilizando las herramientas / técnicas tradicionales.

El mejor ejemplo es su base de datos relacional MySQL u Oracle. En un modelo relacional, la base de datos contendría un esquema y los datos se almacenan en una tabla. – es decir, una representación estructural de datos. Por ejemplo, en una base de datos relacional, el esquema define las tablas, los campos en las tablas y las relaciones entre las tablas y los datos se almacenan en columnas.

datos semiestructurados

Además de los datos estructurados y no estructurados, también tenemos una tercera categoría: datos semiestructurados. Los datos semiestructurados son básicamente información que no se encuentra en una base de datos relacional, pero que tiene algunas propiedades organizativas que facilitan su análisis. Los ejemplos de datos semiestructurados pueden incluir documentos XML y bases de datos NoSQL.

¿Qué es Big Data?

  • En los últimos 5 años, hemos generado la mayoría de los datos y, exponencialmente, la generación de datos está aumentando debido a los dispositivos más recientes y de alta tecnología. Podemos decir que hace 10-15 años, Hadoop no era necesario, porque la generación de datos estaba bajo control. Pero en los últimos 5-7 años todo ha cambiado. Todos tenemos teléfonos inteligentes, con conectividad a Internet de alta velocidad y sabemos que los teléfonos inteligentes tienen múltiples sensores, para conectar la llamada, para conectarse con el GPS fuera de línea o en línea. Solo quería decir que no importa que su teléfono inteligente tenga conectividad a Internet o no, pero todos esos sensores están generando los datos al mismo tiempo. Supongamos que 5 mil millones de personas usan teléfonos inteligentes y todos los sensores de teléfonos inteligentes están produciendo datos las 24 horas del día, los 7 días de la semana, por lo tanto, solo asuma lo rápido que crecen los datos. supongamos que medio billón de personas están realmente activas en Internet y continuamente chatean en WhatsApp, o envían correos electrónicos o hacen llamadas en Skype, suben videos en YouTube, suben fotos en Facebook y Picasa, envían tweets y realizan búsquedas en Google. Lo que quería decir es que sabes o no, pero desde los últimos 5 años eres parte de la producción de datos tremendos. Puede ser que cuando solicite la tarjeta de crédito o el préstamo hipotecario, esté completando la copia impresa del formulario, pero el banco guarda sus datos en la computadora y eso produce datos. Si realiza una transacción en línea o retira dinero de un cajero automático que produce datos porque el banco debe mantener los detalles de su transacción.
  • Continuamente, millones de personas envían correos electrónicos, realizan chats de video, conferencias de voz, videoconferencias, suben videos e imágenes, buscan en Google, hablan por teléfono, todo genera una gran cantidad de datos o podemos decir que todos estos eventos están contribuyendo crecimiento de datos. En términos simples, estos datos tremendos que se generan a muy alta velocidad en diferentes formatos son en realidad bigdata
  • Y el mayor problema es que todos estos datos no están en formato estructurado. Principalmente estamos tratando con datos semi o no estructurados. Ahora, estos datos son producidos de alguna manera por humanos, pero los datos producidos por dispositivos de alta tecnología son mucho más que esto. Es el mejor momento para conocer Hadoop, porque millones de trabajos se producirán en los próximos 2-3 años en el mundo de Big Data. Y muchas compañías ya están utilizando Big Data

Estadísticas de Big Data

  • Según un blog en A Wiki para compartir tecnología y conocimiento empresarial

  • La mayoría de los datos entre ahora y 2020 no serán producidos por humanos sino por máquinas mientras se comunican entre sí a través de redes de datos. Eso incluiría, por ejemplo, sensores de máquinas y dispositivos inteligentes que se comunican con otros dispositivos.
  • En 2008, Google procesaba 20,000 terabytes de datos (20 petabytes) por día. 2.7 Zetabytes de datos existen en el universo digital hoy y
  • Durante los próximos cinco años, la cantidad de datos digitales producidos superará los 40 zettabytes, lo que equivale a 5,200 GB de datos para cada hombre, mujer y niño en la Tierra, según un estudio actualizado del Universo Digital publicado hoy.
  • IDC estima que para 2020, las transacciones comerciales en Internet, de empresa a empresa y de empresa a consumidor, alcanzarán los 450 mil millones por día y hasta el 33% de todos los datos contendrán información que podría ser valiosa si se analiza.

En otras palabras, la cantidad de datos en el mundo actual es igual a:

  • Cada persona en los Estados Unidos tuiteó tres tuits por minuto durante 26,976 años.
  • Cada persona en el mundo que tiene más de 215m de imágenes de resonancia magnética de alta resolución al día.
  • Más de 200 mil millones de películas HD, lo que llevaría a una persona 47 millones de años para ver.

Fuentes de big data

Estamos obteniendo datos en diferentes formatos y en la mayoría de los casos tenemos que almacenar los datos en su formato original. Los datos están aumentando exponencialmente debido a la evolución de la tecnología avanzada. Estamos obteniendo datos de diferentes fuentes y estas fuentes de datos se dividen en dos categorías:

Generado por humanos:

Estos son datos que los humanos generaron cuando interactúa con las computadoras.

Datos generados por máquina

generalmente se refiere a datos creados por una máquina sin intervención humana.

Si agrupamos tanto los datos generados por humanos como los generados por máquinas, podemos categorizar así

Datos de entrada

Esta es cualquier información que un humano pueda ingresar en una computadora, como el nombre, la edad, el ingreso, las respuestas de encuestas que no son de forma libre, etc. Estos datos pueden ser útiles para comprender el comportamiento básico del cliente.

Medios de comunicación social

Como las redes sociales son fuente de grandes datos, espero que no tenga que explicar esto porque esto se explica por sí mismo. Se está generando una enorme cantidad de datos en redes sociales como Facebook, Twitter. Y el problema es que las redes sociales producen principalmente formatos de datos no estructurados que incluyen audio, videos, texto, imágenes, etc. Esta categoría de fuente de datos se conoce como Social Media. Los datos se generan cada vez que hace clic en un enlace de un sitio web. Estos datos pueden analizarse para determinar el comportamiento del cliente y los patrones de compra.

Datos empresariales

Las empresas que tienen grandes volúmenes de datos y el problema es que todo en diferentes formatos. Básicamente, los datos de las empresas pueden ser archivos planos, pueden ser correos electrónicos, pueden ser documentos de Word, pueden ser hojas de cálculo, pueden ser presentaciones, pueden ser páginas / documentos HTML, pueden ser documentos PDF, XML, algunos formatos heredados. Los datos que se distribuyen, dispersan o distribuyen por la organización en diferentes formatos se pueden denominar datos empresariales .

Archivo

En el pasado, el hardware era costoso, por lo que las organizaciones archivaban solo datos muy útiles, pero ahora el hardware se está volviendo más barato, por lo que las organizaciones archivan una gran cantidad de datos que ya no se requieren o que rara vez se requieren. En el mundo actual, ninguna organización quiere eliminar o descartar ningún dato, generalmente capturan y almacenan la mayor cantidad de datos posible. Otros datos que se archivan incluyen registros de ex empleados / proyectos completados, copias escaneadas de acuerdos, documentos escaneados, transacciones bancarias anteriores a las normas de cumplimiento. Puede haber datos en sus organizaciones, a los que se accede con menos frecuencia o incluso a los que nunca se accede, se denominan datos de archivo .

Datos transaccionales

En el mundo empresarial, muchas aplicaciones realizan diferentes conjuntos de transacciones, por ejemplo, sistema erp, aplicaciones web, sistemas crm, aplicaciones móviles, etc. Para admitir las transacciones en estas aplicaciones, puede haber una o varias bases de datos relacionales como infraestructura de back-end. Se trata principalmente de datos estructurados, pero aún así genera grandes datos y contribuye en el mundo de Big Data y se conoce como datos transaccionales.

Datos financieros

Muchos sistemas financieros son ahora programáticos; se operan en base a reglas predefinidas que automatizan procesos. Los datos de comercio de acciones son un buen ejemplo de esto. Contiene datos estructurados como el símbolo de la empresa y el valor en dólares. Algunos de estos datos son generados por máquina, y algunos son generados por humanos.

Actividad generada

En realidad, las máquinas de alta tecnología están produciendo una gran cantidad de datos que supera el volumen de datos generado por los humanos. Estos incluyen datos de maquinaria industrial, videos de vigilancia, datos de censura, dispositivos médicos, satélites, torres de teléfonos celulares y otros datos generados principalmente por máquinas y se conocen como datos generados por actividad .

Datos públicos

Estos datos incluyen los datos que están disponibles públicamente, como los datos publicados por los gobiernos, los datos de los departamentos meteorológicos y meteorológicos, los datos de investigación publicados por los institutos de investigación, los datos del censo, las muestras de fuentes de datos de código abierto y otros datos que están disponibles de forma gratuita y fácil en Internet. o a través de algún otro medio para el público. Este tipo de datos de acceso público se conoce como datos públicos .

Datos de punto de venta

Cuando el cajero desliza el código de barras de cualquier producto que está comprando, se generan todos los datos asociados con el producto.

datos de registro web

Cuando los servidores, las aplicaciones y las redes funcionan, capturan todo tipo de datos sobre su actividad. Esto puede suponer un gran volumen de datos que pueden ser útiles, por ejemplo, para tratar acuerdos de nivel de servicio o para predecir violaciones de seguridad.

Datos del sensor

Los datos del sensor pueden ser etiquetas de identificación de radiofrecuencia, medidores inteligentes, dispositivos médicos y datos del Sistema de posicionamiento global.

Características de big data

No podemos simplemente decir que big data es la cantidad de datos que una máquina no será capaz de procesar. Para un desarrollador normal como usted o yo, los datos de 1 GB pueden ser grandes porque nuestro programa Java se bloquea cuando intentamos procesar datos de 1 GB utilizando nuestro código Java. Supongamos que ha escrito algo de clasificación y luego intenta ordenar un archivo de 1 gb y su programa se bloqueó, entonces esos datos pueden ser una gran información para usted. Puede ser para otra persona Los datos de 1 TB pueden ser grandes porque su capacidad de almacenamiento de la computadora portátil es de 500 GB . Por lo tanto, debemos tener ciertos parámetros con la ayuda de que podemos definir big data. Ahora veremos esos parámetros en detalle.

Tenemos algunas V con la ayuda de que podemos definir big data. Si busca en Internet, obtendrá más de 16v, pero discutiremos los 7 v que son más importantes. Así que no te preocupes por estos V. Discutiremos sobre esto. En general, se acepta que los grandes datos se pueden explicar con tres V: velocidad, variedad y volumen.

Nadie puede cambiar la importancia de la definición de 3 V, pero creo que los grandes datos pueden explicarse mejor agregando algunos V más. Estas V explican aspectos importantes de Big Data. Veamos estas V e intentemos comprender con la ayuda de ejemplos.

Volumen

Volumen significa la cantidad de datos grandes disponibles en todo el mundo en este momento

A nivel empresarial, es muy común tener Terabytes y Petabytes del sistema de almacenamiento. Como ya hemos visto en la sección Big Data y fuente de Big Data, se generó el 80-90% de todos los datos creados en los últimos 3 años. De ahora en adelante, la cantidad de datos en el mundo se duplicará cada dos años.

Volumen significa la cantidad de datos grandes disponibles en todo el mundo en este momento. Aún tienes confusión, bien, hazlo más simple y te mostraré con un ejemplo

Cuando ve los detalles de almacenamiento de su computadora portátil o de escritorio y se muestra

capacidad del disco duro = 1 tb

el espacio utilizado es de 500 gb y

el espacio disponible es de 500 gb

ese espacio utilizado es básicamente volumen.

Velocidad

La velocidad es la velocidad a la que se crean, almacenan, analizan y visualizan los datos.

  • En el mundo de Big Data, la velocidad es la velocidad a la que se crean, almacenan, analizan y visualizan los datos. En el mundo de Big Data, los datos se crean en tiempo real o casi en tiempo real. Con la disponibilidad de dispositivos conectados a Internet, inalámbricos o con cable, las máquinas y dispositivos pueden transmitir sus datos en el momento en que se crean.
    En 1999, el almacén de datos de Wal-Mart almacenó 1,000 terabytes de datos. En 2012, tenía más de 2.5 petabytes de datos.

Velocidad significa qué tan rápido se generan los datos

Hazlo simple con un ejemplo

Suponga que ayer verificó los detalles de almacenamiento de su computadora portátil o de escritorio

capacidad del disco duro = 1 tb

el espacio utilizado es de 500 gb y

el espacio disponible es de 500 gb

y después de eso agregaste datos de 50 gb a tu disco duro y ahora

capacidad del disco duro = 1 tb

el espacio utilizado es de 550 gb

los datos agregados son 50 gb

y

El espacio disponible es de 450 gb

por lo que agrega datos de 50 gb por día en un día se denomina velocidad y ahora el volumen es de 550 gb.

Variedad

Los diversos tipos de datos como estructurados, semiestructurados y no estructurados.

  • Hay muchos tipos diferentes de datos y cada uno de esos tipos de datos requiere diferentes tipos de análisis o diferentes herramientas para usar. Estos diferentes tipos de datos son básicamente variedad.

Hacer es más simple

Variedad: los diversos tipos de datos como estructurados, semiestructurados y no estructurados

Hazlo más simple

En su disco duro está almacenando código java, películas en formato mpeg, mp4, si tiene imágenes en formato jpeg, jpg, gif, tiene archivos de texto, tiene registros generados por el sistema, que son básicamente una variedad de datos.

Veracidad

Veracidad: la calidad de los datos capturados puede variar. La precisión del análisis depende de la veracidad de los datos de origen. La precisión en los datos puede conducir a una toma de decisiones más segura.

Estamos teniendo un

  • Muchos datos en diferentes volúmenes que ingresan a alta velocidad son completamente inútiles si esos datos son incorrectos.
  • Los datos incorrectos pueden generar muchos problemas para una organización y para los consumidores. Por lo tanto, las organizaciones deben asegurarse de que los datos sean correctos, así como los análisis realizados en los datos son correctos. Especialmente en la toma de decisiones automatizada, donde los humanos ya no se involucran o alimentan los datos en un algoritmo de aprendizaje automático sin supervisión, porque los resultados de dichos programas son tan buenos como los datos con los que están trabajando.
  • La precisión del análisis depende de la veracidad de los datos de origen. La precisión en los datos puede conducir a una toma de decisiones más segura.
  • Siempre debe asegurarse de que tanto los datos como los análisis sean correctos. Tenemos que entender que
  • Big Data es de naturaleza desordenada y ruidosa, por lo que el conjunto de datos producido debe ser preciso antes de que el análisis pueda comenzar.

Variabilidad

  • Variabilidad: la variabilidad se refiere a datos cuyo significado cambia constantemente. Este es un factor que puede ser un problema para quienes analizan los datos.
  • Esto se refiere a la inconsistencia que los datos pueden mostrar a veces, lo que dificulta el proceso de poder manejar y administrar los datos de manera efectiva. Los datos grandes son extremadamente variables. Supongamos que hay una supercomputadora y le vamos a enviar una pregunta, luego la supercomputadora primero tiene que descubrir el significado de la pregunta y luego, sobre la base de eso, puede responder y eso es extremadamente difícil porque las palabras tienen diferentes significados y todo Depende del contexto. Para la respuesta correcta, la supercomputadora debe comprender el contexto de las preguntas.
  • La variabilidad no es variedad. La variabilidad a menudo se confunde con la variedad.

Digamos que tengo una pizzería que vende 10 tipos diferentes de pizza. Eso es variedad. Ahora imagine que va a esa pizzería tres días seguidos y todos los días compra el mismo tipo de pizza, pero cada día sabe y huele diferente. Esa es la variabilidad, por lo tanto, la variabilidad es muy relevante para realizar análisis de sentimientos. La variabilidad significa que el significado está cambiando (rápidamente). En (casi) los mismos tweets, una palabra puede tener un significado totalmente diferente. Para realizar un análisis de sentimientos adecuado, los algoritmos deben ser capaces de comprender el contexto y poder descifrar el significado exacto de una palabra en ese contexto. Esto sigue siendo muy difícil.

Valor

  • Big Data = Datos + Valor?
  • Por supuesto, los datos en sí mismos no son valiosos en absoluto. El valor está en los análisis realizados sobre esos datos y cómo los datos se convierten en información y, finalmente, en conocimiento. El valor está en cómo las organizaciones usarán esos datos y convertirán su organización en una empresa centrada en la información. Sin embargo, el costo de los datos deficientes es realmente enorme. Entonces, ¿qué nos dice todo esto sobre la naturaleza de Big Data? Bueno, es masivo y se expande rápidamente, pero también es ruidoso, desordenado, cambia constantemente, en cientos de formatos y es prácticamente inútil sin análisis y visualización.

En el mundo de Big Data, los datos y el análisis son totalmente interdependientes: uno sin el otro es prácticamente inútil, pero su poder combinado es prácticamente ilimitado.

Visualización

Una vez que los datos han sido procesados, usted

  • necesita una forma de presentar los datos de forma legible y accesible, aquí es donde entra la visualización.
  • Las visualizaciones pueden contener docenas de variables y parámetros: pueden ser las variables x e y de su gráfico de barras estándar y encontrar una manera de presentar esta información que aclare los hallazgos es uno de los desafíos de Big Data.

Comience con lo básico

Si está buscando desarrollar una carrera en big data, puede comenzar desarrollando las aptitudes básicas, tales como curiosidad, agilidad, fluidez estadística, investigación, rigor científico y naturaleza escéptica. Debe decidir qué faceta de la investigación de datos (discusión de datos, gestión, análisis exploratorio, predicción) está buscando adquirir. El primer paso para aprender big data es desarrollar un nivel básico de familiaridad con los lenguajes de programación. Hay muchos recursos disponibles en línea para aprender big data. Es difícil elegir un recurso si no está seguro de lo que quiere aprender. Si recién está comenzando a explorar el dominio de big data, es mejor comenzar con lo básico.

Experiencia en lenguajes de programación.

Comience con el desarrollo de conocimientos básicos de datos y una mentalidad analítica construyendo conocimiento de lenguajes de programación como Java, C ++, Pig Latin y HiveQL. Averigüe dónde desea aplicar sus habilidades de análisis de datos para describir, predecir e informar las decisiones comerciales en las áreas específicas de marketing, recursos humanos, finanzas y operaciones.

Experiencia en Hadoop

Desarrollar conocimiento sobre Hadoop Map-Reduce y Java es esencial si está buscando ser un ingeniero de software de datos de alto rendimiento. Pero si está interesado en explorar el área de análisis de marketing para una agencia de publicidad, es posible que necesite comprender SAS.

¿Qué estás buscando?

Si está buscando un cambio de carrera a big data, comience desarrollando las habilidades necesarias para trabajar con Hadoop. Una comprensión completa de Hadoop requiere experiencia en sistemas distribuidos a gran escala y conocimiento de lenguajes de programación.

Habilidades de análisis de datos

Si desea aprender los fundamentos y obtener una comprensión profunda de cada aspecto de Big Data, el material de recursos proporcionado por la biblioteca de Apache es muy útil. El programa Hadoop ofrecido por Apache es un software de código abierto para computación distribuida, escalable y confiable. Algunos de los otros programas ofrecidos son Ambari: Avro: Cassandra Chukwa HBase Hive, Mahout, Pig ZooKeeper. Pluralsight es otra plataforma emprendedora que ofrece increíbles cursos de video sobre los fundamentos del big data.

Hortonworks

Sandbox y Tutoriales ofrecidos por Hortonworks proporcionan un excelente entorno de aprendizaje para los usuarios iniciales de Big Data que especulan sobre los recursos necesarios para configurar el marco. Sandbox lo guía a través de los conceptos básicos de Hadoop y ofrece un tutorial práctico sobre datos. SAS (Sistema de análisis estadístico) es un paquete de software desarrollado por SAS Institute. Ofrece sesiones sobre análisis avanzado, análisis multivariados, inteligencia empresarial, gestión de datos y análisis predictivo.

Cursos online

El universo de big data todavía es muy joven, para obtener una experiencia completa en big data es importante aprender y perfeccionar las habilidades relacionadas con el tema. Decida el curso en función del conjunto de habilidades que desea obtener. Con solo dedicar un poco de tiempo y energía, puede abordar el aprendizaje de big data con estas clases gratuitas en línea.

15.071x: La ventaja analítica – La ventaja analítica | MITx en edX | Curso sobre video

Gestión y visualización de datos – Gestión y visualización de datos – Wesleyan University | Coursera

Introducción a Big Data Analytics – https://www.coursera.org/learn/b

EX102x: Análisis de datos: visualización y diseño de paneles – Análisis de datos: visualización y diseño de paneles

Big Data: inferencia estadística y aprendizaje automático – Big Data: inferencia estadística y aprendizaje automático – Queensland University of Technology

Impulsar resultados empresariales con Big Data – Impulsar resultados empresariales con Big Data

Aprenda a codificar para el análisis de datos – Aprenda a codificar para el análisis de datos – The Open University

Coursera, udacity, MOOC y muchos más proporcionan contenido fantástico en línea. Y han revolucionado el ecosistema de muchas maneras más. Pero todavía hay un vacío que debe llenarse para garantizar que sea lucrativo en cualquier mercado laboral.

Cuando su enfoque es la habilidad única, aprender de los cursos en línea funciona mejor. Pero el dominio que exige habilidades donde uno tiene que orquestar herramientas, técnicas, procesos en múltiples niveles (matemático, computacional, algorítmico), aprender en línea sin tutoría activa sería un desafío. Los programas basados ​​en persona sin conexión son más adecuados.

En GreyAtom ponemos énfasis en el aprendizaje inmersivo que en realidad significaría:

  • Replicando posibles escenarios de trabajo
  • Aprendizaje interactivo
  • Enseñar habilidades o técnicas particulares
  • aprender = hacer trabajo real
  • Aprendizaje práctico
  • Trabajando en equipo, aprendiendo del instructor
  • Menos basado en el aula
  • Más proyecto / estudio de caso basado
  • Manejo de problemas reales, datos reales, escenarios reales, flujo de trabajo real
  • Herramientas que reflejan la industria, herramientas y estructuras alineadas a la industria.
  • Imitando una situación o escenario que enfrentan la industria / empresas
  • O llevar a cabo proyectos basados ​​en escenarios reales de trabajo.
  • Juego de roles y realización de una tarea como se hace en el lugar de trabajo.
  • Capacitación para la industria antes de ser contratado.
  • Buscando alternativas para la gestión tradicional de proyectos / escenarios / problemas
  • Fases cortas de trabajo, reevaluación frecuente, adaptación de planes.
  • Scrum sprints: evaluación colaborativa, agradable y rápida, entrega de productos en ciclos cortos, retroalimentación rápida, mejora continua,
  • Scrum sprints: creación de lugares de trabajo alegres y sostenibles
  • Los sprints ágiles mejoran la comunicación, el trabajo en equipo y la velocidad.

Full Stack Data Science Engineer es uno de los trabajos más solicitados en este momento. GreyAtom se enfoca en crear ingenieros de ciencia de datos de Full Stack y le brinda todas las herramientas, técnicas y conceptos básicos necesarios para lograr un impacto. En solo 14 semanas, aplicará la resolución de problemas y el pensamiento creativo a conjuntos de datos del mundo real, ganando experiencia en toda la pila de ciencia de datos.

Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar).

Puede consultar los detalles del curso haciendo clic en este enlace Full Stack Data Science Engineering | Greyatom

Los datos realmente impulsan todo lo que hacemos. Si eres un apasionado de la ciencia de datos y quieres redefinir tu carrera, visítanos en el programa in situ de GreyAtom: ciencia de datos, aprendizaje automático, Big Data

Creemos que “Aprender = hacer trabajo real”

Aprenda y practique tecnologías del futuro con datos REALES: programa desarrollado por académicos de clase mundial en colaboración con profesionales de la industria.

Dé el primer paso hacia su viaje en Data Science, programe una sesión de asesoramiento en persona o en video en su momento conveniente, haga clic aquí https://calendly.com/greyatom/co

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Siendo desarrollador de Java, no será un gran problema aprenderlo. Mira el siguiente para referencia,

1) Universidad Big Data
2) Academia Khan
3) Guía definitiva de Hadoop – versión actualizada
4) Cualquier blog hadoop para mantenerte actualizado sobre los acontecimientos
5) ¡Estudios de casos, tanto como puedas!

Estoy interesado en I + D en tecnología de Big Data y te sugiero que te pongas en contacto con alguien que trabaje en paralelo en tiempo real, ya que las cosas serían un poco diferentes de lo que aprendes.

¡Espero que esto ayude! Todo lo mejor 🙂

Big Data es de hecho el campo más prometedor y de más rápido crecimiento en el dominio tecnológico. A través del análisis más cuidadoso de las tendencias actuales y el potencial futuro, nos hemos dado cuenta y determinamos que el curso más relevante en el dominio de Big Data será el que cubra tanto Hadoop como Spark, y dicho curso debe ir acompañado de la facilidad de acceso a un laboratorio en la nube de grupo de computadoras donde los estudiantes pueden obtener experiencia práctica práctica para todas las tecnologías.

Recomendaría CloudxLab.com para cursos en línea sobre Big Data.

CloudxLab ofrece dos tipos de cursos sobre Big Data con Hadoop y Spark:

1. Aprendizaje a su propio ritmo (videos de aprendizaje con laboratorio, soporte y certificado). ¡Enlístate ahora!

2. Aprendizaje dirigido por un instructor (videos de aprendizaje con laboratorio, soporte, certificado y más de 40 horas de sesiones en vivo dirigidas por un instructor ). ¡Enlístate ahora!

Lo que incluye

  1. Videos de aprendizaje
  2. Evaluaciones instantáneas, cuestionarios, tareas
  3. 90 días de acceso a CloudxLab
  4. Proyecto de vida real
  5. Certificado compatible con redes sociales
  6. Soporte experto en línea 24 × 7
  7. Acceso de por vida al material del curso
  8. Opcional : Mentoría 1: 1

Hola !

Sugeriría revisar esta publicación perfectamente escrita. Seguramente tendrá una idea de cómo debería dar el siguiente paso: ¿Qué es Hadoop? – Simplificado!

Además, en caso de cualquier consulta relacionada con Big Data, puede consultar a profesionales analíticos experimentados que han estado trabajando durante más de una década en este campo aquí en las discusiones de Data Science, Analytics y Big Data.

Espero que estos sean de alguna ayuda para usted!
¡Aprender! ¡Vivir! ¡Esperanza!

Hola amigo,

Para aprender Big Data solo necesita seguir una dirección correcta. Si sigue la dirección correcta, puede comenzar fácilmente su carrera en esta tecnología en auge.

Primero, diré que tomaste una decisión correcta porque hoy es la generación de Big Data. El 50% de los datos del mundo ya se ha cambiado en Hadoop y se estima que a finales de 2017 el porcentaje alcance hasta el 75%. Ahora, puede estimar las vacantes de empleo y las oportunidades de carrera en Big Data Hadoop. Las empresas están buscando buenos candidatos y hay una gran escasez de buenos candidatos a Big Data Hadoop.

Hoy todos están aprendiendo Big Data Hadoop y debes sobresalir de ellos. Trabaja duro y también trabaja inteligentemente porque en el mundo de hoy hay una gran competencia, por lo que debes trabajar de manera inteligente con el trabajo duro.

Entonces, comience a aprender desde el principio. Para aprender Hadoop Big Data, debe revisar los conjuntos de blogs y videos gratuitos. Me refiero a algunos buenos enlaces con los que estoy familiarizado. Comencemos con Big data.

Big Data

Big Data es una colección de conjuntos de datos extremadamente grandes que no se pueden procesar con el método tradicional. Según el Gartner:

Big data es de alta velocidad, diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones

Puede consultar los enlaces a continuación para Big Data:

Big Data define

Introducción a Big Data

Después de Big Data, debes moverte hacia Hadoop.

Como por su descripción tiene experiencia en Java, entonces es su ventaja adicional porque el marco Hadoop está escrito en Java. Te ayudará principalmente cuando quieras comenzar tu carrera como desarrollador de Hadoop.

Como Hadoop Developer, el rol es codificar y escribir programas.

Entonces, comencemos con Hadoop.

Hadoop

Hadoop es una herramienta de código abierto de Apache software Foundation. Proporciona almacenamiento masivo para cualquier tipo de datos y una enorme potencia de procesamiento. Hadoop proporciona escalabilidad, tolerancia a fallas y flexibilidad, que son sus principales ventajas.

Para saber más sobre Hadoop, consulte los mejores enlaces a continuación para Hadoop:

Guía de Hadoop

Referencia completa de Hadoop

También puede consultar a continuación los libros de Hadoop:

1-Hadoop la guía definitiva de Tom white

Este es el mejor libro para que los principiantes aprendan a Hadoop a ser desarrolladores de Hadoop y administradores de Hadoop. El lenguaje es bastante fácil y cubre conceptos de Hadoop y su ecosistema junto con características de Hadoop2.x como YARN, HA, etc.

2-Hadoop para Dummies por Derk Deroos

Este libro es fácil de leer y entender. Hace que los lectores comprendan el valor de Big data y cubre conceptos como el origen de Hadoop.

Para más libros, haga clic en el enlace: Mejores libros para aprender Hadoop

Espero que mi respuesta te ayude a aprender Hadoop.

¡¡Buena suerte!!

Hay muchas fuentes gratuitas para aprender Hadoop y tecnologías relacionadas.
He mencionado algunos enlaces de los que estoy familiarizado.

Sitio web oficial de Hadoop

¡Bienvenido a Apache ™ Hadoop®!

Luego lea la guía definitiva de Hadoop

Hadoop: la guía definitiva

Hadoop Eco System – Tutoriales en línea de Hadoop
Cursos de video
Aprenda de los mejores de la industria – Big Data University
Página en mapr.com
Página en udacity.com
itversidad
Para tecnologías relacionadas con Nosql como Cassandra
Tutoriales y capacitación gratuitos de Cassandra

El mundo de Big Data ha crecido enormemente en los últimos años. Esto ha impulsado la demanda de profesionales de Big Data en la industria. Los profesionales de Big Data capacitados con precisión pueden manejar volúmenes masivos de datos de manera eficiente y contribuir a la maximización de ganancias.

Para obtener los mejores Tutoriales en línea en Big Data, recomiendo CosoIT, una firma de consultoría global de Big Data que ha estado trabajando en el sector de TI desde 2008. Ahora, han comenzado los servicios de capacitación para compartir su experiencia en la industria de Big Data a lo largo de los años.

Estas razones por las que recomiendo este sitio se enumeran a continuación:

1) Las capacitaciones de CosoIT están en clústeres en tiempo real , lo que le brinda experiencia en el mundo real en maquinaria real en un entorno de producción real, obviamente valorado más por el mundo de Big Data que por la maquinaria virtual.

2) Obtiene el 100% de asistencia de colocación de CosoIT.

3) Puede acceder al propio Data Center de CosoIT para sus proyectos.

4) Obtiene un proyecto de transmisión de datos en tiempo real para escribir en su currículum.

5) Obtiene acceso de por vida a los videos de la sesión a través de LMS.

6) Puede aprovechar el soporte en vivo 24 * 7 para todas sus consultas.

Yo trabajo para COSO IT . Somos consultores y formadores de Data Science, Big Data, Inteligencia Artificial, Aprendizaje automático y análisis. Después de trabajar con varios proyectos en varias tecnologías más recientes, también compartimos nuestro conocimiento a través de la capacitación en varias tecnologías más recientes. Nuestra capacitación es casi en tiempo real con desafíos reales que enfrentamos mientras trabajamos en el proyecto.

¡La mejor de las suertes!

¿Qué es Big data?

Big data es el término utilizado para denotar el gran volumen de archivos y estos Big data pueden denominarse con 3 V. Ahora también se ha agregado una cuarta V y las V son las siguientes:

1. Volumen
2 variedad
3.Velocidad
4.Veracidad

El volumen es el personaje principal de Big Data por el cual podemos entender ese enorme conjunto de datos que va desde petabytes a zettabytes. La variedad representa los tipos de datos, ya sean datos estructurados, no estructurados o semiestructurados. La velocidad representa la velocidad o frecuencia de los datos entrantes que se procesarán.
Veracidad significa cuán seguros son los datos que hemos recopilado. A veces se genera gran cantidad de datos basura y la gente no los usa.
Así que esto fue sobre lo que es Big Data en resumen. Ahora veamos quién está generando estos datos y para qué sirve.

Fuentes de Big Data?
¡Los datos están en todas partes! En estos días todo está en línea. Entonces, los datos estarán presentes en todas partes. Todo es un record. Alguna información útil se puede obtener de un registro.
Estas son las pocas fuentes más importantes de Big Data.

Los sitios de redes sociales son una de las mayores fuentes de generación de datos. La actividad es rastrear los datos de personas, empresas o cualquier otro dato del sector público, como datos bancarios, como sus registros de transacciones diarias, aplicaciones de almacenamiento de datos y mucho más.
Anteriormente se mencionan algunas fuentes muy pocas de Big Data. ¿Pero qué obtenemos de estos datos?
¡Nada es un desperdicio en este mundo! Todo tiene su propio uso de alguna manera. Big data es útil para realizar análisis. La analítica obtendrá ideas más importantes que podrían ser útiles para futuros procedimientos.

Y esta idea puede ser la siguiente.
Si considera los sitios de redes sociales, estos son un medio poderoso. Actualmente, la presencia de una empresa y su seguimiento decide el valor de la empresa.
El seguimiento de la actividad de una persona en los bancos puede evitar detecciones de fraude.
El procesamiento de datos en el almacén de datos será más fácil con la introducción de los marcos de Big Data.
Big data también es útil en la salud y la atención para el tratamiento de muchas enfermedades, incluido el cáncer.
Estos son muy pocos usos de Big Data.
Ahora veamos cuáles son los marcos que se pueden usar para procesar big data.

El marco de Big Data más importante disponible es Hadoop.
¿Qué es el Hadoop?

Hadoop es un marco de computación en clúster desarrollado para resolver el problema de Big Data. Es una plataforma de código abierto basada en Java para manejar Big Data. Es una combinación de dos componentes, HDFS y MapReduce. HDFS es para almacenar los datos, mientras que MapReduce es para procesar los datos.

HDFS es como un sistema de archivos Linux que puede almacenar cualquier tipo de datos que pueden ser estructurados, semiestructurados o no estructurados.

Hadoop es un marco robusto basado en Java que puede manejar cualquier tipo de datos que pueden ser estructurados o semiestructurados o incluso datos no estructurados. HDFS, que es un sistema de archivos distribuido en Hadoop, es el ecosistema que almacena los datos de manera distribuida. Existe otro término llamado MapReduce que se utiliza para procesar los datos recopilados en HDFS en pares clave-valor.

Pero Hadoop solo puede hacer procesamiento por lotes, lo que significa que Hadoop solo puede procesar datos que se recopilaron anteriormente.

Entonces, Hadoop es eficiente en la definición de dos V’s 1st V, es decir, Volumen y 2nd V, es decir, Variedad. Ahora, la pregunta, ¿qué pasa con el 3er V?

Hadoop no puede procesar la transmisión de datos. El procesamiento de flujo no está allí en Hadoop. Para realizar el procesamiento de flujo, apareció otro marco llamado Apache Storm, que está desarrollado para procesar datos de flujo.

Para agregar potencia al marco Hadoop, este marco externo también se agrega a la familia Hadoop al presentar un nuevo administrador de clúster llamado YARN.

Hay principalmente dos versiones en Hadoop que se conocen popularmente como Hadoop1.xy Hadoop 2.x

Hadoop1.x

Es la primera versión de Hadoop creada para manejar Big Data.

HDFS y MapReduce son los dos pasos involucrados en el procesamiento de los datos en la arquitectura Hadoop1.x.

Procesa datos en lotes que pueden denominarse procesamiento por lotes.

Hadoop2.x

Para mejorar las características de Hadoop1.x y superar los problemas de la versión anterior, se introduce Hadoop2.x.

Se introdujo un nuevo término llamado YARN (negociador de otro recurso) en Hadoop2.x.

HDFS + YARN se utiliza para procesar los datos.

Con la introducción de YARN, Hadoop puede incluir algunas herramientas más para procesar los datos, como Map reduce, hive, pig, Storm, Spark, etc.
Acadgild ofrece un excelente curso sobre datos de ofertas.

También puede consultar el código aquí: Big Data Hadoop y Spark Developer Certification Training | Acadgild

Diría que depende de cuáles sean sus objetivos y requisitos.
Hay muchos recursos realmente buenos, pero si su compañía actual (o futura) no está usando esa tecnología / componente, entonces no serán muy útiles para usted. Yo personalmente recomendaría que aprendas Spark en lugar de Hadoop, ya que es 10-100 veces más rápido (dependiendo de la implementación) y ciertamente es el futuro para muchas organizaciones.

Algunos ejemplos / recursos que me parecieron útiles:

Datastax ofrece un excelente curso gratuito de Cassandra
DS201: Conceptos básicos de Cassandra

y DS también proporciona documentos técnicos: ejemplo de tema de búsqueda a continuación:
Gracias | DataStax

Cloudera
Entrenamiento y certificación de Hadoop

Elastic (organización fantástica) ofrece muchos seminarios web de recursos de capacitación para ayudarlo a comprender sus datos.
Videos · Siéntate, relájate y disfruta
Elastic es la compañía detrás de los tres proyectos de código abierto: Elasticsearch, Logstash y Kibana, diseñados para tomar datos de cualquier fuente y buscarlos, analizarlos y visualizarlos en tiempo real. Estas son herramientas increíblemente poderosas y útiles.

También hay Safari.

Si insiste en Hadoop, quizás esto funcione:
Cursos gratuitos de capacitación a pedido de Hadoop

Antes de contestar cómo aprender big data, respondería ¿Qué aprender en Big Data?

Para la ruta de aprendizaje de Big Data, aquí hay algunos requisitos previos para aprender Big Data y también algunas de las particularidades que pueden ofrecer dicha ayuda. APRENDIZAJE DE:

  • Información sobre datos y métodos de aprendizaje de máquinas
  • Información sobre visualización
  • Información que se utiliza
  • ETL (Contraseña, descifrador, lodo)
  • (HODOOP es un Apache que se esfuerza por dar un uso de código abierto de las armas de fuego para el procesamiento y la distribución dispersos, adaptados y distribuidos).
  • Presciente demostrando
  • MOSTRABLEMENTE SE MUESTRA CON INSTRUMENTOS, POR EJEMPLO, R, SAS O SPSS
  • Bases de datos organizadas y no estructuradas

Volviendo a su pregunta de cómo aprender big data : la única forma de aprender y convertirse en un experto es aprender prácticamente. Muchas universidades ofrecen varios títulos de maestría, pero sugeriría inscribirse en un curso de certificación en línea en lugar de obtener un título.

Me gustaría compartir Cursos de ciencia de datos diseñados por Digital Vidya donde puede aprender ciencia de datos en función de su nivel de conocimiento y habilidades.

Veamos las especializaciones de Big Data que ofrece Digital Vidya:

i) Ingeniero de Big Data: si ha estado trabajando con datos, en roles como especialista en modelado de bases de datos, ingeniero de ETL (extracción, carga, transformación), analista de datos, experto en SQL, administración de sistemas de transacciones. Este es el siguiente paso para mejorar las habilidades para trabajar con las tecnologías de Big Data para ETL, que incluye la especialización en Pig, Hive, Sqoop, Flume.

ii) Ingeniero de aplicaciones de Big Data: como programador, ha estado creando, creando y manteniendo aplicaciones a escala empresarial. Y ahora desea mejorar la plataforma de tecnología Big Data y trabajar con el marco de procesamiento en tiempo real más utilizado, Apache Spark. Este es un curso muy completo que lo ayudará a desarrollar un conjunto profundo de habilidades para trabajar con el marco de procesamiento en tiempo real y su ecosistema.

¿Qué tipo de experiencia práctica obtendré en este curso?

Los Class Labs, Home Assignments y Capstone Projects están diseñados con mucho pensamiento que les permite a los alumnos experimentar un aprendizaje profundo y confianza para posicionarse en el papel del analista en la industria.

También tendrá la oportunidad de realizar prácticas con nuestros socios / clientes según la disponibilidad y los requisitos.

Espero que esto ayude.