Comúnmente se relaciona el término Big Data solo para referirse a los grandes volúmenes de información que no pueden ser manejados por los gestores de bases de datos tradicionales. El término también envuelve muchas otras características entre las que se encuentran la velocidad, la variedad y la veracidad.
Hoy en día los datos son generados por computadoras, redes e interacciones humanas, como el social data. Es el tamaño o escala de los datos expresado en cantidades de miles de Gigabytes, o en Terabytes, Pentabytes, Exabytes o en Zetabytes.
Se refiere a la velocidad en que se generan los datos. Por ejemplo 10 TB por hora. También se refiere a la velocidad con que se pueden analizar los datos. Para ser un poco más precisos es la información generada en Tiempo Real o Real Time. Los datos en tiempo real pueden ayudar a las organizaciones a tomar decisiones valiosas que proporcionan ventajas competitivas estratégicas y tener un mejor retorno de la inversión ROI, si se es capaz de manejar la velocidad.
Desde datos estructurados hasta datos no estructurados, como por ejemplo, audio, vídeo, texto, imágenes, sensores, etc. También se refiere a la variedad de fuentes de datos que se encuentran ya sea interna o externa, como internet a una organización.
Esta dimensión es la más importante para obtener un resultado más preciso y confiable, dado que se refiere a la fuente u origen de los datos, pues esta debe de ser un fuente real de información y no una fuente ficticia. No es lo mismo decir que se extrajo la información de las cuentas de twitter de unos personajes sin relevancia, Trolls o hasta de “robots”, que decir que la fuente fue de las cuentas oficiales de un producto o servicio y de sus respectivos “gurus”.
Siempre que hablemos de Big Data, estamos hablando implícitamente de sus 4 dimensiones. Para ilustrar un poco mejor, en la siguiente imagen se puede entender de una mejor forma las 4 V’s del Big Data y de sus escalas.
Todo esto representa para el sector de las Tecnologías de la Información nuevos retos. En primer lugar el entendimiento y el conocimiento de los datos que se manejan. En segundo lugar la capacidad de administrar y gestionar tanto la información generada como la extraída de otras fuentes, es decir, las organizaciones ganan encontrando el valor de la información desde los datos, pero sin la capacidad de realizar acciones reales y concretas basadas en los datos no hay un aprovechamiento real de la información.
Para los investigadores y para los negocios tomar decisiones en tiempo real, con información verídica y basada en análisis puede ser la diferencia entre ganar o perder una gran oportunidad de negocio.
Actualmente y apartándonos un poco más ya se están concibiendo otras dos dimensiones las cuales son: la validez y la volatilidad. Con la validez nos referimos si los datos son los correctos y exactos para el uso que definamos; y la volatilidad se refiere a la cantidad de tiempo en que los datos son válidos y por cuanto tiempo deben ser estos almacenados.