Desde hace un par de años el término de Big Data es utilizado para designar los grandes volúmenes de datos, tanto estructurados como no estructurados, que se están generando en la sociedad de la información y el conocimiento, y que por su tamaño y heterogeneidad, plantean grandes dificultades para ser procesados por el software y los sistemas de gestión de bases de datos tradicionales.
Una definición más actual sería: El conjunto de procesos, tecnologías y modelos de negocio que están basados en datos y en capturar el valor que poseen.
En general, cuando hablamos de datos estructurados, lo asociamos directamente con una base de datos relacional, por ejemplo, una base de datos de clientes o proveedores; en donde los datos se encuentran organizados de manera relacional; que están fuertemente tipados (ej: números reales, enteros, fechas, etc.), y poseen un estilo o estructura rígida (Ej: tablas y relaciones).
Bueno, para que se entienda de una manera más clara, nos referimos a datos no estructurados como: los textos, documentos, fotografías y vídeos que circulan por Internet; los grafos sociales (social networks); los contenidos sociales aportados por los usuarios (social data); los datos de los dispositivos móviles, los datos de los diferentes tipos de satélites (GPS, Glonass, Galileo, etc), los datos de las redes de sensores y los RFID (Identificación por radiofrecuencia); los registros de las actividades de los sitios Web y la indexación de las búsquedas en Internet; la información científica en temas como la astronomía, meteorología, genómica, bioquímica, biológica y otros datos complejos de la investigación científica interdisciplinaria; los registros médicos; la vigilancia militar y policial; los datos generados por las administraciones públicas (open data); los datos de las transacciones en los mercados financieros; o los datos de la actividad relacionada con el comercio electrónico, entre otros.
Así mismo, el tratamiento de los grandes volúmenes de datos y contenidos plantea nuevos retos tecnológicos para procesarlos de forma eficiente en un tiempo razonable. Esto va a requerir avanzar en las tecnologías para el procesamiento paralelo masivo de bases de datos (MPP); en la computación en la nube (Cloud computing); en los sistemas escalables de almacenamiento; y en otros campos relacionados con los sistemas de archivos y bases de datos distribuidas o en los sistemas de minería de datos (Data mining).
Hay cinco formas generales en que el uso de grandes volúmenes de datos puede crear valor: