Big Data: No sin personotecnia ( y III): Morozov comes to the rescue

1 07 2013

(Enlace a la primera parte y segunda parte de esta serie)

La tercera parte de esta serie de artículos pretendía ser, como comentamos, una especie de resumen de las conclusiones. Pero gracias al amigo @Enferevidente que me llama la atención sobre un post de nuestro amigo común Morozov (Por lo menos de Gonzalo Martín y mío) que tiene un mazo de miga, que diría Camilo Sesto. Vamos con ello:

Morozov_TweetEl artículo en cuestión de Morozov es éste.

Vamos a sacar unas cuantas perlas del artículo en cuestión:

La buena noticia —al menos para los partidarios del Big Data— es que no necesitamos comprender lo que significan cada uno de esos clics o de esos vídeos. Solamente necesitamos establecer cierta relación entre los desconocidos terroristas de mañana y los verificados terroristas de hoy. Si los terroristas que conocemos tienen una inclinación por, digamos, el hummus, entonces podríamos querer aplicar una estrecha vigilancia sobre cualquiera que lo haya comprado alguna vez, sin desarrollar nunca una hipótesis sobre por qué el hummus gusta tanto. (De hecho, durante un breve período de tiempo en 2005 y 2006, el FBI, con la esperanza de encontrar unas células terroristas secretas iraníes, hizo precisamente eso: accedió a los datos de clientes en poder de los supermercados del área de San Francisco investigando en los registros de ventas de alimentos de Oriente Próximo.)

Mi mujer hace un hummus espectacular. Se compra ella todo, el Tahín incluido, y lo solemos llevar como appetizer junto a unas cuantas tiras de zanahoria. Un “tip” de cocinera de mi cuñada que de pronto me pone en las miras de la operativa antiterrorista internacional.

Si esto no es GIGO, yo soy Camarón de la Isla. Abstemio.

Y como dice Miguel del Fresno

La defensa de “comprender” estructura sin significados es un gran riesgo antidemocrático

Como comenté en un post posterior, ya estoy viendo a la NSA invocando a Morozov a diestro y siniestro. Sobre todo a siniestro.

Volvamos al ínclito

Gracias al Big Data podemos dejar de preocuparnos por la comprensión y en lugar de ello centrarnos en la acción preventiva. En vez de gastar los preciosos recursos públicos en tratar de entender los “porqués” —analizando las razones por las que los terroristas se hacen terroristas— uno se puede centrar en los “cuándos”, de manera que se pueda realizar una intervención a tiempo. Y una vez que alguien haya sido identificado como sospechoso, lo inteligente será conocer a todos los de su red social: atrapar con antelación solamente a uno de los hermanos Tsarnaev tal vez no hubiera impedido las bombas de Boston. Así que, sencillamente, uno está en mejores circunstancias grabándolo todo, nunca se sabe cuándo puede resultarte útil.

LA MADRE QUE ME PARIO.

No sólo se saca una legitimación “intelectual” de introducirnos sondas anales hasta el epigastrio, sino que vamos a legalizar la aplicación de la transitiva porque sí, porque yo lo valgo.

Hay varios fulaneos adicionales pseudointelectuales para intentar justificar la tesis, para luego al final, intentar enderezar un poco el naufragio

Podemos establecer una distinción a este propósito entre Big Data —un asunto de números que se alimenta de las correlaciones—y Big Narrative, una aproximación antropológica, impulsada por el relato, que intenta explicar porqué las cosas son como son. El Big Data es barato mientras que el Big Narrative es caro. El Big Data es claro mientras que el Big Narrative es borroso. El Big Data es factible mientras que el Big Narrative es paralizante.

La promesa del Big Data consiste en que nos va a permitir evitar los escollos del Big Narrative. Pero ese es también su mayor coste. Con un problema tan sumamente emocional como el del terrorismo es fácil creer que el Big Data va a hacer maravillas. Pero una vez que nos desplazamos a cuestiones más prosaicas, resulta obvio que la super-herramienta que se pretende que sea es un instrumento más bien débil que aborda los problemas de manera muy poco imaginativa y ambiciosa. Y, lo que es peor, nos impide que tengamos muchos debates públicos importantes. Si es cuestión de tiritas, el Big Data es excelente. Pero las tiritas son inútiles cuando lo que necesita el paciente es una operación quirúrgica. En ese caso, un amor desmedido por las tiritas resulta ser generalmente la etapa precursora de una amputación. Pero no tengo el modo de saberlo con certeza: eso es lo que el Big Data me dice.

Bueno, intentanto al menos poner un poco de sordina. Pero estoy seguro que la NSA hará grandes menciones a los argumentos protonazis de la primera parte e ignorará convenientemente la duda (Un poco Rajoyil y bizcochona) sobre las posibilidades reales del Big Data.

Sinceramente, sólo hay un escenario en el que abogo por oscurecer el funcionamiento subyacente de algo: Cuando según el Teorema de Roca Salvatella (Me gustaría saber donde está la formulación exacta, help Gonzalo Martín) que viene a decir que si sobre un determinado tema de discusión hay más de dos puntos de diferencia entre el nivel de un interlocutor y el de otro, no va a haber discusión. Si el conocimiento relativo sobre fútbol, toros o Personotecnia de un interlocutor es de 3 sobre 10 y el de otro 7, fin de la discusíon. El inferior te puede decir que sí con la cabeza, pero no tiene ni puta idea de lo que le estás hablando. Entonces es el momento de invocar a que lo haces con filiburcios inversos o invocando a Asmodeo con un pentáculo en el suelo. Todo lo demás va a ser un tour de frustración deluxe.

¿Pero la NSA invocando esto a la comunidad científica toda y Morozov haciéndoles de palanganero?  FUUUUUU-U-U-U-CK YOU, BUSTER!

Me pondría a dar una larga charla sobre cual es la aproximación correcta a este tema, pero gracias de nuevo a @EnferEvidente tengo acceso a este artículo por el autor de Numerati, Stephen Baker, con párrafos que lo petan. Disfrútenlo. Algunos tidbits para los perezosos:

Q: Do you believe that data mining is necessary to keep the US safe? What occured in Boston was just the last of a series of attacks and I have read that American public opinion is divided right now between the ones who favour safety and those who defend privacy.

A: Some degree of data mining is inevitable for a modern state to protect itself, not only from terrorists, but also from crime, traffic and industrial accidents and catastrophic weather. The question is not whether we sacrifice our privacy for safety, but instead how much the government can see, what the limits are and how they are enforced. Right now, it seems as though the government reserves the right to define all those limits for itself. It asks us to trust its judgment. I think the limits will have to be spelled out, and the citizens will demand and deserve some sort of oversight over these operations, perhaps by a congressional committee (even though confidence in Congress is at all-time lows).

The other important point is what the data can be used for, and what conclusions can be drawn from it. Imagine, for example, that in their hunt for terrorists dataminers find possible evidence of tax fraud, or perhaps a ring of pedophiles. Can we expect them to turn a blind eye to it? I don’t think so. In that case, what begins as an invasion of privacy to protect the nation turns into a surveillance state.

Si tuviera que escoger sólo una frase, sólo una, escogería esta maravilla que merecería que fuera a ponerle al señor Baker el friegaplatos tres días a la semana:

I should add that the data economy is full of hype, and that many of the promises turn out to be exaggerations, or false. In my book, I argue that the most problematic area is in data mining for terrorism. Companies like Amazon and Google, after all, can study the behavior of billions of shoppers, while anti-terrorism data miners have very little behavioral data about terrorists.

Resumiendo y cerrando el kiosko, damas y caballeros:

  • Big Data está sometido a NINO y GIGO. Big Time
  • La mayor parte de los esfuerzos Big Data se hacen sobre datos operacionales, los más débiles en términos de establecer perfiles valiosos
  • Big Data muchas veces se convierte en Data Mining sobre grandes sets de datos. Esto ya estaba inventado y no es que cambiara el mundo.
  • Un cluster es peligroso porque te proporciona una engañosa seguridad de que tienes “algo”. Sin interpretación y contexto, puedes tener algo matemáticamente con sentido, pero sin sentido de negocio.
  • Sin los datos correctos, todo el edificio se desmorona
  • El peor enemigo de Big Data es el overhype
  • Big Data sin Personotecnia y sus técnicas aparejadas tiene un alcance sumamente limitado

Espero que haya quedado claro. Me temo que este artículo lo voy a referenciar unas cincuenta veces. Al tiempo.

Anuncios

Acciones

Information

7 responses

1 07 2013
Juanjo Carmena (@juanjoc)

Los de Roca-Salvatella… ¿no le llamaban el Índice de Frikismo? Le pongo un tuit a Genís y que nos lo aclare.

2 07 2013
Gonzalo Martín

Es que lo del Teorema, yo no lo recuerdo. Pero mola.

2 07 2013
Miguel

“El Big Data es barato” no lo creo ya que las inversiones en tecnología son extraordinarias y con una vida muy limitada, “mientras que el Big Narrative es caro” no, se llama análisis inteligente, lo que demanda es capacidad analítica de alto nivel, es lo “malo” que tiene la investigación cualitativa que depende del investigador, es la ventaja y el límite. “El Big Data es claro” esto es otra memez, tan claro como las regresiones múltiples o los análisis multivariable, claro porque la máquina da numeritos basados en decisiones humana previas, “mientras que el Big Narrative es borroso” mala traducción de fuzzy logic o fuzzy Knowledge. “El Big Data es factible” mientras tengas ingentes cantidades de dinero y te saltes todas las normas democráticas (como ha mostrado Snowden) no hay problema, ¿verdad? “mientras que el Big Narrative es paralizante” bueno yo siento las piernas, lo juro.

2 07 2013
javiergrecuenco

Si, si, son espectaculares las piruetas mentales del colega. No se puede estar más vendido a la industria del Big Data, a la NSA, o a sus propias limitaciones intelectuales.

21 08 2013
Tomas de conciencia: El peligro de las cartas marcadas | Publicidad Singular

[…] Y volvemos a algo que ya mencioné, el teorema de Roca Salvatella. […]

26 02 2015
ZDP: El asesino silencioso | Personotecnia - The Blog

[…] que le guía. Hay una preformulación del asunto que recogí en su momento, lo qué llamé el Teorema de Roca Salvatella: El hecho de que no hay conversación posible entre gente que domina de un tema nivel 2 y otra que […]

26 02 2015
ZDP: El asesino silencioso | Publicidad Singular

[…] que le guía. Hay una preformulación del asunto que recogí en su momento, lo qué llamé el Teorema de Roca Salvatella: El hecho de que no hay conversación posible entre gente que domina de un tema nivel 2 y otra que […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




A %d blogueros les gusta esto: