Los términos Big Data y Data Science se asocian con los grandes volúmenes de datos que caracterizan la nueva era tecnológica. En particular, con la recogida, análisis y, como objetivo último, extracción de valor de esos datos para ayudar en la toma de decisiones.
Conceptualmente ambos están muy relacionados, pero en ningún caso son términos sinónimos. En este post vamos a ver las diferencias principales entre ambos conceptos a partir de una aproximación conceptual, que los defina someramente y sitúe en sus respectivas coordenadas.
¿Qué es Big Data?
El concepto se refiere a la eficiente recogida de un gran volumen de datos heterogéneos (no almacenados en una base de datos tradicional) que pueden ser estructurados semiestructurados o no estructurados, a su almacenamiento y análisis en un corto periodo de tiempo, la mayoría de veces en real time.
Aunque resulta claro a rasgos generales, se trata de un concepto novedoso que abarca un ámbito mucho más amplio del estrictamente tecnológico -el término fue introducido en el Oxford Dictionary en 2013-, convirtiéndose en una palabra de moda.
Además de ser una palabra de moda, si pasados los años sigue siendo tendencia es porque la ciencia de los datos permite sacarle un gran partido. No en vano, se ha convertido en un área de gran interés para organizaciones de todo tipo, sector y tamaño. Pero, ¿qué significa realmente?
Uno de los principales problemas a la hora de encontrar una definición única radica en dónde ponemos el acento. Por un lado, suelen citarse como elementos distintivos las tres V: volumen, velocidad y variedad, pero por mucho que el tamaño de los datos cuente, es posible señalar como características definitorias las herramientas que se utilizan para su análisis, o centrar todo el protagonismo en éstos.
Ante la ausencia de una definición universal, puesto que no hay acuerdo sobre lo que son los “grandes datos”, se han propuesto muy distintas definiciones que, a tenor del interés que despierta todo lo relacionado con Big Data, ni mucho menos han agotado todas las posibilidades.
A rasgos generales, podemos convenir que “Big Data” normalmente se refiere a los grandes datos, básicamente de la escala de terabytes y petabytes (un petabyte es un millón de gigabytes), así como a su potencial para profundizar nuestra comprensión de los fenómenos que concitan nuestro interés.
Desde los “sistemas físicos y biológicos de la conducta social y económica humana”, como apunta en su página web la UC Berkeley Scool of Information, hasta objetivos científicos, empresariales, relativos a la administración pública o, cómo no, a cualquier otro ámbito susceptible de análisis.
Tampoco cabe duda de que los análisis requeridos para procesar la enorme cantidad de datos requieren recursos técnicos y de TI específicos, así como de algoritmos que aporta la ciencia de datos (en inglés Data Science), una disciplina que está en pleno desarrollo, y que no deja de crecer bajo el paraguas del Big Data.
Del mismo modo que ocurre a la inversa, puesto que gracias a la ciencia de los datos y a las nuevas tecnologías, caracterizadas por una gran eficiencia, Big Data trasciende el fenómeno de los grandes datos para alcanzar un nivel superior.
Aquí encontramos la conexión entre ambos conceptos, y al mismo tiempo su diferenciación. Gracias a su suma, obtenemos sinergias insospechadas. Por primera vez en la historia es factible extraer valor de los mismos a bajo coste, poniéndolo al alcance de las organizaciones del sector privado, público o científico como nunca antes lo había estado.
La funcionalidad práctica del Big Data la obtenemos, por lo tanto, trabajando con los datos para así abrir infinitas posibilidades de avance para obtener ventajas competitivas, en función de las necesidades que vayan surgiendo. Y, como ha quedado apuntado, este valor solo nos lo proporciona la ciencia de los datos.
Data Science, la llave del Big Data
Partiendo del concepto de Big Data hemos llegado al de Data Science. Una visión holística nos permitiría afirmar que éste forma parte del universo de aquél, pero no por ello deja de ser un concepto diferente.
La figura del data scientist es clave dentro de Data Science. Como su propio nombre indica, es el científico de datos el que la aplica apoyándose en ideas, herramientas matemáticas, estadísticas e informáticas con las que trabajan para hacer análisis inteligentes de los grandes datos.
Siempre alineando los objetivos de la organización o del equipo científico de que se trate con el uso de la tecnología para buscar soluciones, realizar pronósticos, proporcionar información en tiempo real accesible a través de distintos canales, mediante una fácil visualización de los resultados.
Dentro del contexto actual, la ciencia de los datos es un impulsor del Big Data, dotándolo de un potencial inédito. Como llave maestra que es, nos ayuda a sacar partido de Big Data de un modo versátil, y a pesar de su amplitud como concepto y casuística su fin último es dar un paso adelante en clave de avance.
Tanto hacia el establecimiento de ventajas comparativas como a la obtención de conocimiento en general dentro del nuevo marco de análisis que brindan los grandes datos, presentados no en las típicas columnas y filas, sino en cientos de billones de filas y millones de variables.
Supone, así pues, un cambio de paradigma con respecto al tradicional análisis de datos, que representa un punto y a parte con respecto a las bases de datos y BI tradicionales. Aún así, los sistemas híbridos siguen siendo una alternativa interesante.
Así lo refleja McKinsey Global Institute (MGI) cuando define Big Data como “conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de bases de datos”.
A pesar de sus diferencias, en definitiva, ambos conceptos están estrechamente relacionados y son interdependientes. Así es, al menos, en el actual contexto que vivimos, dominado por la era digital, en el que los grandes datos y su aprovechamiento van inextricablemente unidos cuando de Big Data y Data Science se trata.