Aula de Conti » Eso y Bachillerato » CyR 1º ESO » Tema 7. Datos masivos

Tabla de contenidos

Vivimos en un mundo donde la cantidad de información generada por segundo es inabarcable. Desde sensores en dispositivos IoT hasta interacciones en redes sociales y compras online, cada acción deja una huella digital que, si se analiza correctamente, puede desvelar patrones y tendencias que de otro modo pasarían desapercibidos. Esta capacidad para decodificar la complejidad de nuestro mundo es lo que hace del Big Data una herramienta indispensable para mejorar nuestra calidad de vida.

En este tema comenzaremos a entender algunos de los mecanismos que lo hacen posible.

7.1. Introducción al Big Data

El Big Data es un concepto fundamental en la actualidad. Se refiere a la gestión y análisis de grandes volúmenes de datos que superan las capacidades de las herramientas tradicionales de procesamiento. 

Para que entiendas de qué estamos hablando, veamos un ejemplo de helados, ahora que empieza el buen tiempo.

Supongamos que quisieras saber cuáles son los sabores de helado más populares entre los clientes de tu heladería preferida. Así podrías hacerlo:

Te sientas frente a la tienda y anotas cada vez que alguien compra un helado y qué sabor elige. Registras esa información en una hoja de papel o en un ordenador. Miras tus datos y haces preguntas como: «¿Cuál es el sabor más común?» o «¿Cuántas personas prefieren el chocolate?» Puedes crear gráficos o tablas para mostrar esta información. Utilizas tus datos para predecir cosas. Por ejemplo, podrías decir: «Basado en las tendencias, creo que el próximo verano el helado de fresa será muy popular». Con toda esta información, puedes decidir qué sabores de helado ofrecer más o cuándo hacer promociones especiales.

El análisis de datos es como resolver acertijos con números y hechos, un poco como ser un detective de la información.

Si ahora, en vez de capturar, registrar y analizar los datos de una heladería, lo intentas hacer de todas las heladerías de Europa en tiempo real, estaríamos hablando de Big Data, pero el proceso, aunque automatizado, sería el mismo.

A continuación, veremos algunos aspectos clave de esta forma de trabajar.

Como ya sabes, el Big Data surge debido al crecimiento exponencial de la cantidad de datos generados por sistemas informáticos, sensores, redes sociales y otras fuentes.

La necesidad de extraer información valiosa de esos datos llevó al desarrollo de técnicas y herramientas específicas.

El Big Data, por tanto, no se trata solo de la cantidad de datos –volumen-, sino también de su variedad -los datos provienen de diversas fuentes y formatos (texto, imágenes, vídeos,…)-, velocidad -los datos se generan y actualizan rápidamente- y veracidad -la confianza y la precisión de los mismos-.

Más allá de las magnitudes, consideramos el Big Data como un cambio de forma de trabajo en la toma de decisiones. Implica la capacidad de procesar y analizar datos masivos para obtener conocimientos significativos.

Existen, además, estándares y prácticas recomendadas para el manejo eficiente de datos masivos, que abordan aspectos como la seguridad, la privacidad y la interoperabilidad.

7.2. Visualización, transporte y almacenaje de datos generados

Para que los datos estén disponibles y podamos trabajar con ellos, primero debemos completar una serie de tareas muy importantes que nos garanticen que los datos no han sufrido alteraciones. Por eso, estos tres aspectos del trabajo con datos masivos también desempeñan un papel protagonista.

Cuando hablamos de visualización de datos nos referimos a representar los datos de manera gráfica o visual para que podamos identificar patrones, tendencias y relaciones. Esto ayuda mucho a comprender la información contenida en grandes conjuntos de datos.

Algunas técnicas comunes de visualización incluyen gráficos, diagramas, mapas de calor y tablas.

Además de eso, el transporte de datos, nos permite poder moverlos de un lugar a otro. Esto puede implicar transferir datos desde sensores, dispositivos o sistemas de almacenamiento a centros de procesamiento o bases de datos. Las redes de comunicación, como Internet, juegan un papel fundamental en el transporte eficiente de datos.

Si esto no fuera así, tareas tan comunes que haces a diario, como poder escuchar una canción en Spotify o ver un directo de Twitch, no serían posibles.

Por último, el almacenaje de datos, hace referencia a dónde y cómo se guardan los datos. En el mundo del Big Data, necesitamos sistemas de almacenamiento escalables y eficientes.

Algunas opciones comunes incluyen bases de datos relacionales, sistemas de archivos distribuidos y almacenamiento en la nube. La elección del método de almacenamiento depende de factores como la cantidad de datos, la velocidad de acceso y los requisitos de seguridad.

7.3. Entrada y salida de datos

Cuando trabajamos en el sector del Big Data es fundamental entender que el modelo de trabajo es del tipo «entrada-proceso-salida», que además, es común a todos los sistemas informáticos.

La entrada de datos es el primer paso del modelo. Aquí, los datos se introducen en dispositivos de procesamiento, como ordenadores, a través de dispositivos de entrada adecuados -llamados periféricos de entrada-, como teclados, escáneres, lectores de códigos de barra, cámaras de vídeo, micrófonos, etc.

Además, a esos periféricos la entrada puede venirles de distintas fuentes, como sensores, bases de datos, archivos, redes sociales o cualquier otra fuente de datos. 

Por ejemplo, sensores de temperatura registrando datos ambientales o una aplicación web recopilando comentarios de usuarios.

El procesamiento de los datos, por su parte, es la etapa intermedia. Los datos se procesan de acuerdo con reglas predefinidas. Este procesamiento puede implicar análisis, transformación, agregación o cualquier otro cálculo necesario para extraer información significativa.

Por ejemplo, aplicar algoritmos de aprendizaje automático para predecir tendencias o filtrar datos irrelevantes.

La salida de datos es el último paso. Aquí, los datos procesados se muestran o envían a los usuarios finales a través de distintos dispositivos -los periféricos de salida-, como pantallas, impresoras, altavoces, proyectores, archivos, etc.

Esta salida puede ser en forma de informes, gráficos, visualizaciones, alertas, notificaciones o incluso otras acciones automatizadas.

Por ejemplo, un panel de control que muestra estadísticas de ventas, o un sistema de recomendación que sugiere productos a los usuarios, o un sistema que envía notificaciones de alertas.