Puede probar nuestra Capacitación de certificación de Big Data Hadoop https://www.kloudmagica.com/cour… . Actualmente estamos dando un gran descuento en el festival.
——————————————————————————————————–
EQUIPO DE DESARROLLO EMPRESARIAL
KloudMagica Infotech Private Limited
Correo electrónico: [correo electrónico protegido] / [correo electrónico protegido]
Sitio web: https://www.kloudmagica.com/
Facebook: https://www.facebook.com/kloudma …
Linkedin: https://www.linkedin.com/in/klou …
Youtube: https://www.youtube.com/c/kloudm …
twitter: https://twitter.com/KloudMagica
¿Qué son los datos?
Los datos son básicamente información en bruto que se puede recopilar y analizar para crear información adecuada para tomar decisiones correctas.
Los datos pueden ser
- datos no estructurados
- datos semiestructurados y
- datos estructurados

datos no estructurados
Los datos no estructurados son básicamente información que no se encuentra en una base de datos tradicional de filas y columnas. Como podemos entender por nombre, los datos no estructurados son algo opuesto a los datos estructurados.

Podemos considerar
- Documentos de Word,
- Presentaciones de PowerPoint,
- boletines informativos,
- código fuente,
- documentos impresos
- Imágenes y gráficos
como datos no estructurados
datos estructurados
El término datos estructurados generalmente se refiere a datos que tienen una longitud y un formato definidos para big data. Los datos estructurados tienen la ventaja de ser fácilmente ingresados, almacenados, consultados y analizados. Los datos estructurados se refieren a los datos que tienen un modelo de datos predefinido o que tienen un esquema o una estructura. Los datos estructurados son fácilmente manejables y se pueden consumir utilizando las herramientas / técnicas tradicionales.
El mejor ejemplo es su base de datos relacional MySQL u Oracle. En un modelo relacional, la base de datos contendría un esquema y los datos se almacenan en una tabla. – es decir, una representación estructural de datos. Por ejemplo, en una base de datos relacional, el esquema define las tablas, los campos en las tablas y las relaciones entre las tablas y los datos se almacenan en columnas.
datos semiestructurados
Además de los datos estructurados y no estructurados, también tenemos una tercera categoría: datos semiestructurados. Los datos semiestructurados son básicamente información que no se encuentra en una base de datos relacional, pero que tiene algunas propiedades organizativas que facilitan su análisis. Los ejemplos de datos semiestructurados pueden incluir documentos XML y bases de datos NoSQL.
¿Qué es Big Data?

- En los últimos 5 años, hemos generado la mayoría de los datos y, exponencialmente, la generación de datos está aumentando debido a los dispositivos más recientes y de alta tecnología. Podemos decir que hace 10-15 años, Hadoop no era necesario, porque la generación de datos estaba bajo control. Pero en los últimos 5-7 años todo ha cambiado. Todos tenemos teléfonos inteligentes, con conectividad a Internet de alta velocidad y sabemos que los teléfonos inteligentes tienen múltiples sensores, para conectar la llamada, para conectarse con el GPS fuera de línea o en línea. Solo quería decir que no importa que su teléfono inteligente tenga conectividad a Internet o no, pero todos esos sensores están generando los datos al mismo tiempo. Supongamos que 5 mil millones de personas usan teléfonos inteligentes y todos los sensores de teléfonos inteligentes están produciendo datos las 24 horas del día, los 7 días de la semana, por lo tanto, solo asuma lo rápido que crecen los datos. supongamos que medio billón de personas están realmente activas en Internet y continuamente chatean en WhatsApp, o envían correos electrónicos o hacen llamadas en Skype, suben videos en YouTube, suben fotos en Facebook y Picasa, envían tweets y realizan búsquedas en Google. Lo que quería decir es que sabes o no, pero desde los últimos 5 años eres parte de la producción de datos tremendos. Puede ser que cuando solicite la tarjeta de crédito o el préstamo hipotecario, esté completando la copia impresa del formulario, pero el banco guarda sus datos en la computadora y eso produce datos. Si realiza una transacción en línea o retira dinero de un cajero automático que produce datos porque el banco debe mantener los detalles de su transacción.
- Continuamente, millones de personas envían correos electrónicos, realizan chats de video, conferencias de voz, videoconferencias, suben videos e imágenes, buscan en Google, hablan por teléfono, todo genera una gran cantidad de datos o podemos decir que todos estos eventos están contribuyendo crecimiento de datos. En términos simples, estos datos tremendos que se generan a muy alta velocidad en diferentes formatos son en realidad bigdata
- Y el mayor problema es que todos estos datos no están en formato estructurado. Principalmente estamos tratando con datos semi o no estructurados. Ahora, estos datos son producidos de alguna manera por humanos, pero los datos producidos por dispositivos de alta tecnología son mucho más que esto. Es el mejor momento para conocer Hadoop, porque millones de trabajos se producirán en los próximos 2-3 años en el mundo de Big Data. Y muchas compañías ya están utilizando Big Data
Estadísticas de Big Data
- Según un blog en A Wiki para compartir tecnología y conocimiento empresarial

- La mayoría de los datos entre ahora y 2020 no serán producidos por humanos sino por máquinas mientras se comunican entre sí a través de redes de datos. Eso incluiría, por ejemplo, sensores de máquinas y dispositivos inteligentes que se comunican con otros dispositivos.
- En 2008, Google procesaba 20,000 terabytes de datos (20 petabytes) por día. 2.7 Zetabytes de datos existen en el universo digital hoy y
- Durante los próximos cinco años, la cantidad de datos digitales producidos superará los 40 zettabytes, lo que equivale a 5,200 GB de datos para cada hombre, mujer y niño en la Tierra, según un estudio actualizado del Universo Digital publicado hoy.
- IDC estima que para 2020, las transacciones comerciales en Internet, de empresa a empresa y de empresa a consumidor, alcanzarán los 450 mil millones por día y hasta el 33% de todos los datos contendrán información que podría ser valiosa si se analiza.
En otras palabras, la cantidad de datos en el mundo actual es igual a:
- Cada persona en los Estados Unidos tuiteó tres tuits por minuto durante 26,976 años.
- Cada persona en el mundo que tiene más de 215m de imágenes de resonancia magnética de alta resolución al día.
- Más de 200 mil millones de películas HD, lo que llevaría a una persona 47 millones de años para ver.
Fuentes de big data

Estamos obteniendo datos en diferentes formatos y en la mayoría de los casos tenemos que almacenar los datos en su formato original. Los datos están aumentando exponencialmente debido a la evolución de la tecnología avanzada. Estamos obteniendo datos de diferentes fuentes y estas fuentes de datos se dividen en dos categorías:
Generado por humanos:
Estos son datos que los humanos generaron cuando interactúa con las computadoras.
Datos generados por máquina
generalmente se refiere a datos creados por una máquina sin intervención humana.
Si agrupamos tanto los datos generados por humanos como los generados por máquinas, podemos categorizar así
Datos de entrada
Esta es cualquier información que un humano pueda ingresar en una computadora, como el nombre, la edad, el ingreso, las respuestas de encuestas que no son de forma libre, etc. Estos datos pueden ser útiles para comprender el comportamiento básico del cliente.
Medios de comunicación social
Como las redes sociales son fuente de grandes datos, espero que no tenga que explicar esto porque esto se explica por sí mismo. Se está generando una enorme cantidad de datos en redes sociales como Facebook, Twitter. Y el problema es que las redes sociales producen principalmente formatos de datos no estructurados que incluyen audio, videos, texto, imágenes, etc. Esta categoría de fuente de datos se conoce como Social Media. Los datos se generan cada vez que hace clic en un enlace de un sitio web. Estos datos pueden analizarse para determinar el comportamiento del cliente y los patrones de compra.
Datos empresariales
Las empresas que tienen grandes volúmenes de datos y el problema es que todo en diferentes formatos. Básicamente, los datos de las empresas pueden ser archivos planos, pueden ser correos electrónicos, pueden ser documentos de Word, pueden ser hojas de cálculo, pueden ser presentaciones, pueden ser páginas / documentos HTML, pueden ser documentos PDF, XML, algunos formatos heredados. Los datos que se distribuyen, dispersan o distribuyen por la organización en diferentes formatos se pueden denominar datos empresariales .
Archivo
En el pasado, el hardware era costoso, por lo que las organizaciones archivaban solo datos muy útiles, pero ahora el hardware se está volviendo más barato, por lo que las organizaciones archivan una gran cantidad de datos que ya no se requieren o que rara vez se requieren. En el mundo actual, ninguna organización quiere eliminar o descartar ningún dato, generalmente capturan y almacenan la mayor cantidad de datos posible. Otros datos que se archivan incluyen registros de ex empleados / proyectos completados, copias escaneadas de acuerdos, documentos escaneados, transacciones bancarias anteriores a las normas de cumplimiento. Puede haber datos en sus organizaciones, a los que se accede con menos frecuencia o incluso a los que nunca se accede, se denominan datos de archivo .
Datos transaccionales
En el mundo empresarial, muchas aplicaciones realizan diferentes conjuntos de transacciones, por ejemplo, sistema erp, aplicaciones web, sistemas crm, aplicaciones móviles, etc. Para admitir las transacciones en estas aplicaciones, puede haber una o varias bases de datos relacionales como infraestructura de back-end. Se trata principalmente de datos estructurados, pero aún así genera grandes datos y contribuye en el mundo de Big Data y se conoce como datos transaccionales.
Datos financieros
Muchos sistemas financieros son ahora programáticos; se operan en base a reglas predefinidas que automatizan procesos. Los datos de comercio de acciones son un buen ejemplo de esto. Contiene datos estructurados como el símbolo de la empresa y el valor en dólares. Algunos de estos datos son generados por máquina, y algunos son generados por humanos.
Actividad generada
En realidad, las máquinas de alta tecnología están produciendo una gran cantidad de datos que supera el volumen de datos generado por los humanos. Estos incluyen datos de maquinaria industrial, videos de vigilancia, datos de censura, dispositivos médicos, satélites, torres de teléfonos celulares y otros datos generados principalmente por máquinas y se conocen como datos generados por actividad .
Datos públicos
Estos datos incluyen los datos que están disponibles públicamente, como los datos publicados por los gobiernos, los datos de los departamentos meteorológicos y meteorológicos, los datos de investigación publicados por los institutos de investigación, los datos del censo, las muestras de fuentes de datos de código abierto y otros datos que están disponibles de forma gratuita y fácil en Internet. o a través de algún otro medio para el público. Este tipo de datos de acceso público se conoce como datos públicos .
Datos de punto de venta
Cuando el cajero desliza el código de barras de cualquier producto que está comprando, se generan todos los datos asociados con el producto.
datos de registro web
Cuando los servidores, las aplicaciones y las redes funcionan, capturan todo tipo de datos sobre su actividad. Esto puede suponer un gran volumen de datos que pueden ser útiles, por ejemplo, para tratar acuerdos de nivel de servicio o para predecir violaciones de seguridad.
Datos del sensor
Los datos del sensor pueden ser etiquetas de identificación de radiofrecuencia, medidores inteligentes, dispositivos médicos y datos del Sistema de posicionamiento global.
Características de big data

No podemos simplemente decir que big data es la cantidad de datos que una máquina no será capaz de procesar. Para un desarrollador normal como usted o yo, los datos de 1 GB pueden ser grandes porque nuestro programa Java se bloquea cuando intentamos procesar datos de 1 GB utilizando nuestro código Java. Supongamos que ha escrito algo de clasificación y luego intenta ordenar un archivo de 1 gb y su programa se bloqueó, entonces esos datos pueden ser una gran información para usted. Puede ser para otra persona Los datos de 1 TB pueden ser grandes porque su capacidad de almacenamiento de la computadora portátil es de 500 GB . Por lo tanto, debemos tener ciertos parámetros con la ayuda de que podemos definir big data. Ahora veremos esos parámetros en detalle.
Tenemos algunas V con la ayuda de que podemos definir big data. Si busca en Internet, obtendrá más de 16v, pero discutiremos los 7 v que son más importantes. Así que no te preocupes por estos V. Discutiremos sobre esto. En general, se acepta que los grandes datos se pueden explicar con tres V: velocidad, variedad y volumen.
Nadie puede cambiar la importancia de la definición de 3 V, pero creo que los grandes datos pueden explicarse mejor agregando algunos V más. Estas V explican aspectos importantes de Big Data. Veamos estas V e intentemos comprender con la ayuda de ejemplos.
Volumen
Volumen significa la cantidad de datos grandes disponibles en todo el mundo en este momento
A nivel empresarial, es muy común tener Terabytes y Petabytes del sistema de almacenamiento. Como ya hemos visto en la sección Big Data y fuente de Big Data, se generó el 80-90% de todos los datos creados en los últimos 3 años. De ahora en adelante, la cantidad de datos en el mundo se duplicará cada dos años.
Volumen significa la cantidad de datos grandes disponibles en todo el mundo en este momento. Aún tienes confusión, bien, hazlo más simple y te mostraré con un ejemplo
Cuando ve los detalles de almacenamiento de su computadora portátil o de escritorio y se muestra
capacidad del disco duro = 1 tb
el espacio utilizado es de 500 gb y
el espacio disponible es de 500 gb
ese espacio utilizado es básicamente volumen.
Velocidad
La velocidad es la velocidad a la que se crean, almacenan, analizan y visualizan los datos.
- En el mundo de Big Data, la velocidad es la velocidad a la que se crean, almacenan, analizan y visualizan los datos. En el mundo de Big Data, los datos se crean en tiempo real o casi en tiempo real. Con la disponibilidad de dispositivos conectados a Internet, inalámbricos o con cable, las máquinas y dispositivos pueden transmitir sus datos en el momento en que se crean.
En 1999, el almacén de datos de Wal-Mart almacenó 1,000 terabytes de datos. En 2012, tenía más de 2.5 petabytes de datos.
Velocidad significa qué tan rápido se generan los datos
Hazlo simple con un ejemplo
Suponga que ayer verificó los detalles de almacenamiento de su computadora portátil o de escritorio
capacidad del disco duro = 1 tb
el espacio utilizado es de 500 gb y
el espacio disponible es de 500 gb
y después de eso agregaste datos de 50 gb a tu disco duro y ahora
capacidad del disco duro = 1 tb
el espacio utilizado es de 550 gb
los datos agregados son 50 gb
y
El espacio disponible es de 450 gb
por lo que agrega datos de 50 gb por día en un día se denomina velocidad y ahora el volumen es de 550 gb.
Variedad
Los diversos tipos de datos como estructurados, semiestructurados y no estructurados.
- Hay muchos tipos diferentes de datos y cada uno de esos tipos de datos requiere diferentes tipos de análisis o diferentes herramientas para usar. Estos diferentes tipos de datos son básicamente variedad.
Hacer es más simple
Variedad: los diversos tipos de datos como estructurados, semiestructurados y no estructurados
Hazlo más simple
En su disco duro está almacenando código java, películas en formato mpeg, mp4, si tiene imágenes en formato jpeg, jpg, gif, tiene archivos de texto, tiene registros generados por el sistema, que son básicamente una variedad de datos.
Veracidad
Veracidad: la calidad de los datos capturados puede variar. La precisión del análisis depende de la veracidad de los datos de origen. La precisión en los datos puede conducir a una toma de decisiones más segura.
Estamos teniendo un
- Muchos datos en diferentes volúmenes que ingresan a alta velocidad son completamente inútiles si esos datos son incorrectos.
- Los datos incorrectos pueden generar muchos problemas para una organización y para los consumidores. Por lo tanto, las organizaciones deben asegurarse de que los datos sean correctos, así como los análisis realizados en los datos son correctos. Especialmente en la toma de decisiones automatizada, donde los humanos ya no se involucran o alimentan los datos en un algoritmo de aprendizaje automático sin supervisión, porque los resultados de dichos programas son tan buenos como los datos con los que están trabajando.
- La precisión del análisis depende de la veracidad de los datos de origen. La precisión en los datos puede conducir a una toma de decisiones más segura.
- Siempre debe asegurarse de que tanto los datos como los análisis sean correctos. Tenemos que entender que
- Big Data es de naturaleza desordenada y ruidosa, por lo que el conjunto de datos producido debe ser preciso antes de que el análisis pueda comenzar.
Variabilidad
- Variabilidad: la variabilidad se refiere a datos cuyo significado cambia constantemente. Este es un factor que puede ser un problema para quienes analizan los datos.
- Esto se refiere a la inconsistencia que los datos pueden mostrar a veces, lo que dificulta el proceso de poder manejar y administrar los datos de manera efectiva. Los datos grandes son extremadamente variables. Supongamos que hay una supercomputadora y le vamos a enviar una pregunta, luego la supercomputadora primero tiene que descubrir el significado de la pregunta y luego, sobre la base de eso, puede responder y eso es extremadamente difícil porque las palabras tienen diferentes significados y todo Depende del contexto. Para la respuesta correcta, la supercomputadora debe comprender el contexto de las preguntas.
- La variabilidad no es variedad. La variabilidad a menudo se confunde con la variedad.
Digamos que tengo una pizzería que vende 10 tipos diferentes de pizza. Eso es variedad. Ahora imagine que va a esa pizzería tres días seguidos y todos los días compra el mismo tipo de pizza, pero cada día sabe y huele diferente. Esa es la variabilidad, por lo tanto, la variabilidad es muy relevante para realizar análisis de sentimientos. La variabilidad significa que el significado está cambiando (rápidamente). En (casi) los mismos tweets, una palabra puede tener un significado totalmente diferente. Para realizar un análisis de sentimientos adecuado, los algoritmos deben ser capaces de comprender el contexto y poder descifrar el significado exacto de una palabra en ese contexto. Esto sigue siendo muy difícil.
Valor
- Big Data = Datos + Valor?
- Por supuesto, los datos en sí mismos no son valiosos en absoluto. El valor está en los análisis realizados sobre esos datos y cómo los datos se convierten en información y, finalmente, en conocimiento. El valor está en cómo las organizaciones usarán esos datos y convertirán su organización en una empresa centrada en la información. Sin embargo, el costo de los datos deficientes es realmente enorme. Entonces, ¿qué nos dice todo esto sobre la naturaleza de Big Data? Bueno, es masivo y se expande rápidamente, pero también es ruidoso, desordenado, cambia constantemente, en cientos de formatos y es prácticamente inútil sin análisis y visualización.
En el mundo de Big Data, los datos y el análisis son totalmente interdependientes: uno sin el otro es prácticamente inútil, pero su poder combinado es prácticamente ilimitado.
Visualización
Una vez que los datos han sido procesados, usted
- necesita una forma de presentar los datos de forma legible y accesible, aquí es donde entra la visualización.
- Las visualizaciones pueden contener docenas de variables y parámetros: pueden ser las variables x e y de su gráfico de barras estándar y encontrar una manera de presentar esta información que aclare los hallazgos es uno de los desafíos de Big Data.