Diferencias entre Big Data y Small Data

En entradas anteriores del blog se ha definido Big Data como grandes conjuntos de datos caracterizados por un gran volumen de datos, a mucha velocidad y de mucha variedad.

big-data-volumen-velocidad-variedad

Big Data viene a representar los datos en bruto que se deben procesar para obtener información útil o relevante.

De forma opuesta, Small Data se podría definir como un conjunto de datos manejables, que se pueden tratar de forma sencilla y permiten obtener resultados concretos en contextos definidos.

“El Small Data o las bases de datos pequeñas conectan a las personas con perspectivas oportunas y reveladoras (derivadas del Big Data o de fuentes “locales”), organizadas y empaquetadas, a menudo visualmente, de forma que son accesibles, entendibles y procesables en las tareas de cada día”.

Grupo Small Data

Esta definición es aplicable a los datos que ya se tienen, así como a los datos que provienen de las aplicaciones de usuario final y a los datamart de los analistas para convertir los conjuntos de Big Data en conjuntos de datos procesables. Las palabras clave de “acción” son conectar, organizar y empaquetar y el valor (cuarta V de Big Data) se fundamenta en la democratización de la información, es decir, que este disponibles para todos (accesibles por roles), y que sean fáciles de aplicar (entendibles) y que se centren en el apoyo de las necesidades de trabajo. El término Small Data contrasta con el de Big Data, que normalmente hace referencia a una combinación de datos estructurados y no estructurados que se pueden medir en Petabytes o Exabytes. En la siguiente tabla se puede observar una comparación inicial entre Small Data y Big Data.

tabla-comparativa-small-data-vs-big-data

Con Small Data el análisis de los datos se podría hacer de forma manual (únicamente con ayuda de sencillas herramientas informáticas como una hoja de cálculo), en el caso de Big Data va a ser indispensable el uso de herramientas mucho más sofisticadas (como Hadoop) y también algoritmos de aprendizaje automático (comúnmente llamados por su nombre en inglés: Machine Learning Algorithms).

El mundo se está moviendo hacia Big Data, hacia las nuevas tecnologías y métodos de procesamiento, pero, estos métodos son utilizados para traducir los Big Data y devolverlos en formatos de Small Data (estructurados)  de manera que los analistas pueden utilizarlos.

En el libro titulado Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information, de Jules Berman, se listan 10 diferencias entre Small Data y Big Data.  A continuación, se detallaran cada una:

  1. Objetivo
    • Con los Small Data, por lo general, se buscan respuestas específicas a objetivos concretos.
    • En Big Data, los objetivos son abiertos. A menudo, los resultados pueden ser sorprendentes o inesperados, o incluso responder preguntas que ni tan siquiera nos habíamos planteado.
  2. Localización
    • Generalmente, la información referente a Small Data, puede estar almacenada en un solo lugar o en un solo archivo del computador.
    • Ahora bien, Big Data puede estar en varios archivos. Es más, puede estar en diferentes computadoras y en diferentes ubicaciones geográficas, dando paso a lo que se conoce como cloud computing.
  3. Estructura de los datos y  contenido.
    • Con Small Data Los datos suelen estar estructurados. Es común almacenar y estructurar la data en una hoja de cálculo: con filas y columnas de datos ó en bases de relacionales.
    • Big Data puede ser estructurado  como no-estructurado (registros de log, IoT, redes sociales)  y puede contener diferentes formatos de archivo.
  4. Preparación de los datos.
    • Habitualmente, un usuario final puede preparar su propio Small Data con los que va a trabajar sus análisis.
    • Por el contrario, en Big Data, la data es preparada primero por un grupo de especialistas que trabajan con la manipulación de los datos; posteriormente, debe ser analizado por otro grupo de personas; y, finalmente, utilizado por un tercer grupo de personas, las cuales pueden tener diferentes propósitos y disciplinas.
  5. La vida útil de los datos.
    • Por lo general, Small Data es  utilizada durante un período específico de tiempo y ocasionalmente son archivados o eliminados al terminar su utilización en un trabajo o en un proyecto.
    • En cambio, si se dispone de Big Data, estos datos son acumulativos en el tiempo, lo cual se puede aprovechar para ser utilizados en diferentes proyectos o diferentes investigaciones. Big Data generalmente permanece por períodos más largos y los nuevos datos se agregan al conjunto de datos existente con lo que se persigue tener mejores proyecciones y representaciones en función del tiempo.
  6. Mediciones.
    • Los análisis con Small Data se realizan típicamente con un conjunto de unidades de medidas establecidas y los ajustes se hacen generalmente al mismo tiempo.
    • Al contrario, con Big Data, estos datos pueden ser medidos con diferentes protocolos o unidades de medida, y también puede implicar algunas conversiones para que las unidades de medidas sean coherentes para su análisis. Esto sucede porque se pueden tener equipos de trabajos ubicados en lugares muy diferentes, en tiempos muy diferentes, de diferentes organizaciones y países.
  7. La reproducibilidad.
    • Los proyectos con Small Data pueden ser reproducidos en su totalidad. En caso de duda acerca de la calidad de los datos analizados, se puede repetir el proyecto para obtener nuevos datos.
    • En cambio, Big Data son expresados en diferentes formatos, e incluso, son de diferentes fuentes, por lo tanto no puede ser capaz de reproducir en su totalidad, en consecuencia, no se podrá repetir si algo ha salido mal en ese proceso. Por lo general, lo recomendable es identificar las partes del proyecto que son complejas para tenerlas en cuenta a medida que se trabaje en torno a ellas.
  8. El costo en los negocios.
    • En Small Data, si las cosas van mal, los costos son limitados. En otras palabras, el costo no es un problema de gran importancia con este tipo de conjuntos.
    • Pero con Big Data, los proyectos pueden costar mucho más en función de la infraestructura y personal calificado para tal fin. La no entrega de información o resultados a tiempo o la pérdida de datos o la poca experiencia del personal que los manipule puede condenar el proyecto.
  9. La introspección.
    • Al estar los datos estructurados (supongamos en una hoja de cálculo) podremos saber qué es lo que nos está definiendo este dato a partir de la cabecera de la fila y la columna en la que se encuentre.
    • Ahora, con Big Data, al no estar los datos estructurados, deberemos utilizar técnicas de introspección para saber qué información nos está dando un dato concreto.
  10. Análisis.
    • Con Small Data, en la mayoría de casos, todos los datos de un mismo proyecto se podrán analizar conjuntamente.
    • Con Big Data, los datos se acostumbran a analizar en distintas fases incrementales. Los datos se extraen, revisan, reducen, normalizan, transforman, visualizan, interpretan y re-analizan utilizando distintos métodos. En algunos casos, se pueden llegar a analizar todos los datos en una única fase con la ayuda de procesamiento en paralelo.

Los Small Data son necesarios para resolver muchos problemas y responder a muchas preguntas. Todo lo que se procesa en hojas de calculo es un pequeño conjunto de datos. La idea del Big Data es convincente: ¿quiere descubrir patrones ocultos acerca del comportamiento de los clientes, predecir la siguiente elección o ver dónde se debe centrar el gasto en publicidad? Hay una aplicación para ello, por lo cual todas las empresas necesitarán contratar profesionales de Big Data para aprovechar las oportunidades de la Era Digital. En la siguiente tabla se muestran un conjunto más completo de características diferenciadoras entre ambos términos.

 

tabla-comparativa-completa-small-data-vs-big-data

En conclusión,  hay una serie de características que contrastan Big Data con  Small Data. Quizás lo más importante es: “La tecnología “Big Data” existe para convertir Datos no estructurados en datos estructurados”; es decir, en un formato que los humanos pueden entender y trabajar.

Share this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *