En alguna reunión un expositor realizó una pregunta al auditorio sobre ¿qué es el big data para ustedes? La mayoría respondió que se refería a un gran volumen de información; sin embargo, aunque esta es una de las características del big data, no es la única para considerar un grupo de información como un big data. El expositor al mencionar este punto logró que el auditorio se quedara anonadado y tuvieran su atención. El término se ha utilizado desde la década de 1980 y algunos otorgan el crédito a John Mashey por divulgarlo. Fue hasta la década de 2010 donde tomó mayor fuerza el término debido principalmente al avance tecnológico donde ya se podría tener acceso a bases de datos de algunos terabytes y en algunos casos petabytes. Las características principales del big data se pueden describir con 5Vs: Volumen, variedad, veracidad, velocidad y valor. Algunos autores agregan la visualización y viabilidad.

#1
El volumen de los datos es debido a las nuevas tecnologías, dando como resultado que no puedan almacenarse en un simple ordenador. Las cifras son abrumadoras. Y es que los datos que se producen en el mundo durante dos días equivalen a todos los generados antes del año 2003.
#2
La velocidad se refiere a que se generan datos nuevos constantemente. El reto consiste en almacenar y tratar los datos lo antes posible antes de que pierdan valor por obsolescencia. Así como también almacenar y gestionar los nuevos datos que se generan continuamente.
#3
La variedad se refiere a las distintas tipologías formatos y estructuras de los datos procedentes de fuentes muy diversas. La clasificación más tradicional divide los datos en: estructurados, no estructurados y semi estructurados. Los primeros se almacenan en bases de datos relacionales donde su longitud, denominación y formato han sido predefinidos. Ejemplos: ERP, CRM, etc. Los no estructurados, apuntan a no tener estructura alguna predefinida y lo encontramos en imágenes, vídeos, archivos logs, audios. Y los últimos, los semiestructurados señalan a documentos con lenguaje HTML, XML o SGML es decir,no tienen estructura fija pero contienen etiquetas y otros marcadores que ayudan a su comprensión.
#4
La veracidad, dado que el volumen es muy grande se genera cierta incertidumbre sobre el grado de veracidad de los datos. Puede haber muchos factores entre la procedencia, calidad de información etc. Puede haber datos incorrectos o incompletos, de ahí la importancia de la limpieza y tratamiento de información para cumplir con la veracidad.
#5
El valor se refiere a la información útil que se obtiene de los datos que se convierte en conocimiento y/o en alguna acción o decisión. Para que se cumpla este punto se deben cumplir las cuatro V anteriores.
La viabilidad de la información se refiere a la relación costo beneficio de obtener y analizar la información para una organización. La visualización es la forma en que se presenta la información, generalmente es un tablero con gráficas y tablas conocidos como dashboards.
En definitiva, el Big Data es una combinación de estas características donde las empresas pueden obtener una ventaja competitiva frente a sus competidores. No todas las compañías optarán por la misma metodología con respecto al desarrollo y la creación de sus capacidades con tecnologías Big Data. Sin embargo, en todos los sectores existe la posibilidad de recurrir a estas nuevas tecnologías y analíticas para mejorar la toma de decisiones y el rendimiento, tanto a nivel interno como en el mercado.