Big Data: No sin Personotecnia (II)

8 02 2013

Pasamos a analizar en detalle uno por uno los puntos premisa de nuestro post anterior:

Big Data está sometida a NINO y GIGO (Nothing in, Nothing Out, Gargabe in, Garbage Out)

Siempre suelo decir que en la facultad no sé si fue el primer día o el segundo, pero rápidamente capté la idea de NINO y GIGO. Nothing in, Nothing Out (Si nada entra, nada sale) y Garbage in, Garbage Out (Si lo que entra es basura, lo que sale es basura)

Hay un mito muy común: “Las compañías tienden a saber quienes son sus Clientes”

Tengo experiencia tratando las bases de datos de grandes compañías (Posiblemente la mitad del Ibex 35 haya pasado por mis manos en algún momento de mi carrera profesional) y la realidad es otra:

  • Las bases de datos de las compañías oscilan entre lo patético y lo lamentable.
  • La horquilla tradicional de datos relevantes / datos totales se mueve entre el 10% y el 15%
  • El problema mina todo el Business Intelligence que se pueda realizar sobre ello

O como dice la gente de Athena It en su paper “A Better Way to Fuel Analytical Needs“:

Despite the marketing hype, selecting self-service oriented BI tools is only part of the solution. All the easy-to-use and powerful BI tools such as data discovery, data visualization and dashboards will not do a thing if the data needed for the analysis is not there. IT worries about GIGO (garbage in, garbage out), but business people worry about NINA (no information, no analysis).

(A pesar del bombo de Marketing, la selección de herramientas de BI orientadas al autoservicio  es sólo parte de la solución. Todas la fácil de usar y potentes herramientas de BI, tales como el descubrimiento de datos, visualización de datos y cuadros de mando no va a hacer nada si los datos necesarios para el análisis no está allí. IT se preocupa por gigo (basura entra, basura hacia fuera), pero a los hombres de negocios les preocupa NINA (sin información, no hay análisis).)

Da igual la ingente cantidad de dinero que echemos en nuestro cloud, nuestro Hadoop, nuestra solución de Big Data… Si no hay un esfuerzo personotecnico claro de identificación y captura de la información necesaria, todo será en vano.

Para ver todo esto en más detalle recomiendo que se lea despacio la presentación que hice para Innosfera sobre profiling avanzado y Personotecnia.

Big Data “per se” no conoce información relevante, y la capacidad de generar información relevante partiendo de la transaccionalidad está sometida a la regla del 20% que mencionamos en su momento.

Voy a hacer uso aquí de un artículo de Jonathan McDonald, que viene a refutar mis tesis. El es un poco más dramático, lo llama “The Big Data Disaster”.

It is commonly thought by instigators of research in big data that most companies seek to use big data to understand customers/consumers better, and most have misunderstood the stark difference between personal data and non-personal data. Data that is generated from activities and events taking place are different from personal information that we may willingly or unwittingly share. Either way, the basic fact is that the most accurate personal data is the most valuable, and (here’s the key) that data happens to be the most private.
The fact that some companies think they can access or aggregate this now (without public concern), is no more valid than thinking you won’t have a car crash in the future as you haven’t had one in the past.

( Comúnmente se piensa por parte de los instigadores de la investigación en Big Data que la mayoría de las empresas tratan de utilizar Big Data para comprender mejor los clientes / consumidores, y la mayoría ha entendido mal la gran diferencia entre los datos personales y datos no personales. Los datos que se generan a partir de las actividades y eventos que tienen lugar son diferentes de la información personal que podemos voluntaria o involuntariamente compartir. De cualquier manera, el hecho básico es que los datos personales más precisos son los más valiosos, y (aquí está la clave) ocurre que esos datos son los más privados.

El hecho de que algunas empresas crean que pueden acceder o agregar esta información ahora (sin que haya un problema de opinión pública ), no es más válido que pensar que no se va a tener un accidente de tráfico en el futuro dado que no se lo ha tenido en el pasado.)
Spot on. Los datos que son más importantes no quedan recogidos en las operaciones diarias. Por no mencionar que por las buenas no
En realidad este segundo apartado es una derivada del primero: Si no somos capaces de inferir conocimiento cierto vía las trazas observables y cómodamente recogibles (Entiendo que es algo muy bonito de creer, pero es intrínsecamente falso) tenemos un bonito GIGO sobre el mantel.
Somos muy aficionados a poner enormes cantidades de dinero y esfuerzo tecnológico sobre la nada, lo que nos ayuda a fracasar mucho más rápidamente y más caro que de cualquier otro modo.
Soy un fundamentalista del Number Crunching.  SuperCrunchers siempre está en mi Kindle Fire. El problema está que los datos que hay que tener para sacarle todo el jugo a Big Data, normalmente no se poseen. Sad but true.  Y he atacado ya el problema del Overhype en otros aspectos, como por ejemplo en en Neuromarketing como para no percibir que Big Data sin Personotecnia tiene mucho menos recorrido del que se piensa.
Terminaré la serie en el siguiente post haciendo una recopilación de las conclusiones.
Anuncios

Acciones

Information

One response

1 07 2013
Big Data: No sin personotecnia ( y III): Morozov comes to the rescue | Personotecnia - The Blog

[…] a la primera parte y segunda parte de esta […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




A %d blogueros les gusta esto: