Data

19 junio, 2013

Como argumenta Stephen Few en su artículo “Big Data, Big Deal”, el concepto de Big Data se presenta como un gran hype, una etiqueta aprovechada por los departamentos de marketing de compañías de Business Intelligence para vender soluciones tecnológicas.

Ni el volumen de datos se ha incrementado repentinamente, ni las técnicas de análisis y explotación son sustancialmente innovadoras o diferentes a las que se han venido utilizando desde hace años.

En la misma línea, Francis Gouillart firma un interesante y recomendable artículo titulado “Big data NSA spying is not even an effective strategy”, en el que defiende que el trabajo con inmensos volúmenes de datos es generalmente inútil, mientras que los conjuntos pequeños de datos altamente contextualizados son una gran fuente de conocimiento. El autor ilustra su argumento con la siguiente experiencia:

You need local knowledge to glean insights from any data. I once ran a data-mining project with Wal-Mart (WMT) where we tried to figure out sales patterns in New England. One of the questions was, «Why are our gun sales lower in Massachusetts than in other states, even accounting for the liberal bias of the state?» The answer: There were city ordinances prohibiting the sale of guns in many towns. I still remember the disappointed look of my client when he realized the answer had come from a few phone calls to store managers rather than from a multivariate regression model.

En mi opinión, no se trata de que disponer de grandes cantidades de datos no implique nuevas oportunidades. La clave está en la calidad de esos datos, y en la capacidad para explotar el conocimiento subyacente. Como afirma Few:

Big data is built on the unquestioned premise that more is better. More of the right data can be useful, but more for the sake of more does nothing but complicate our lives. In the words of the 21st Century Information Fluency Project, we live in a time of “infowhelm.” Just because we can generate and collect more and more data doesn’t mean that we should. We certainly shouldn’t until we figure out how to make sense and use of the data we already have. This seems obvious, but almost no attention is being given to building the skills and technologies that help us use data more effectively.

Hablar de Big Data es hablar de Minería de Datos, un concepto menos “trendy” pero que creo denota una característica inherente a trabajar con estos volúmenes de datos: esfuerzo.

Entre las cosas que he aprendido trabajando en proyectos en los que manejábamos enormes bases de datos es que su explotación requiere tiempo. No existen procedimientos, técnicas o algoritmos mágicos que desvelen automáticamente conocimiento oculto. Además, que el volumen de datos con el que trabajemos sea muy grande no significa que sea completo; en muchísimas ocasiones la única forma de extraer algún valor de esos datos es cruzándolos con otras fuentes. Y por último, si hay algo omnipresente en los grandes volúmenes de datos es el ruido, datos de los que se puede y debe prescindir.

Para finalizar, aunque son varias las fantasías que se venden bajo el emblema del big data, creo que la mayor de todas es la promesa de que esos datos o las soluciones tecnológicas asociadas nos van a permitir predecir cisnes negros.

Actualización 14/08/2013. Al hilo de este tema, Mario (sopadebits.com) publica una interesante reflexión: Transparencia, claridad y Big Data

Data

Si has llegado hasta aquí...