Foto: Fernando Calzada.

Big data llegó para quedarse; invade y cambia para siempre nuestras vidas, aun en los aspectos más cotidianos, y a veces sin que lo advirtamos siquiera. Pero ¿de qué se trata exactamente?, ¿cómo podemos aprovechar todo su potencial? Y, sobre todo, ¿cómo debemos protegernos de las amenazas a la privacidad y a la seguridad que trae aparejadas?

Big data, el vocablo de moda, cada vez más presente en el discurso de consultores, empresarios, políticos y hasta deportistas, parece ofrecer un universo de posibilidades hasta ahora impensado, aunque al ojo no experto le resulta difícil terminar de dimensionar este fenómeno y sus consecuencias.

De acuerdo con UN Global Pulse –una división de Naciones Unidas que tiene como objetivo acelerar el descubrimiento, el desarrollo y la adopción a escala de big data para el desarrollo sustentable e iniciativas humanitarias– la humanidad se encuentra en medio de una “revolución industrial de los datos”, término acuñado por el científico informático Joe Hellerstein, que se caracteriza por un incremento exponencial en la cantidad y diversidad de datos digitales disponibles en tiempo real, producto de un mayor uso de equipos tecnológicos con más capacidad en la vida diaria, lo que permite obtener un profundo conocimiento del comportamiento humano.

Big data es el resultado de lo que se produce en el ámbito empresarial y administrativo, en las redes sociales y en la Internet de las Cosas (IoT, por sus siglas en inglés). La Comisión Económica de las Naciones Unidas para Europa (UNECE, por sus siglas en inglés) también incluye dentro de este concepto lo generado por los motores de búsqueda en Internet y por dispositivos móviles.

Aunque no hay una definición única para este fenómeno, la opción planteada por el informático norteamericano John Mashey en 1998 es una de las más utilizadas: “Big data es un término que se aplica a sets de datos cuyo tamaño está más allá de lo que las herramientas de software habitualmente utilizadas pueden capturar, administrar y procesar en un período de tiempo razonable”, aseguró en un artículo titulado “Big Data and the Next Wave of Infrastress Problems, Solutions Opportunities”.

Por otra parte, existe un amplio consenso en torno a las tres características que lo definen, las denominadas “3V” (volumen, velocidad, variedad): alto volumen de datos, transmitidos a gran velocidad y de una amplia variedad de fuentes. La tecnología permite que las personas estén hoy ultraconectadas; esta interconexión genera una cantidad de información nunca antes vista.

Todo lo que se comparte en redes sociales queda registrado y puede servir de insumo para análisis comerciales. Foto: AFP.

El incremento en el volumen de datos hace necesarias computadoras cada vez más poderosas para poder extraer valor de esos datos, el corazón mismo del fenómeno de big data. Además, la situación se vuelve más abrumadora al tener en cuenta la velocidad de las interconexiones. Los datos se generan más rápido de lo que los podemos procesar, y a mayor velocidad, más dificultad para extraer valor de ellos.

La amplia variedad de fuentes hace aún más difícil esta tarea. Los datos no solo están en documentos tradicionales y estructurados en bases, sino que, en general, se hallan fragmentados, lo que vuelve más difícil aún el trabajo. A estos documentos se les suman datos provenientes de GPS, de apps de redes sociales, entre muchos otros. Con esta variedad de formatos, resulta difícil extraer el verdadero valor de los datos, debido a que la extracción –para su posterior procesamiento– debe hacerse con distintos métodos.

Los datos, el “nuevo petróleo”

Ya en 2006, el matemático británico Clive Humby había señalado que los datos se convertirían en el “nuevo petróleo”. Una década más tarde, en el informe “Think Big: Britain’s Data Opportunity” publicado por el proveedor de software WANdisco, afirmó: “Tal como ocurre con el petróleo crudo, big data tiene el potencial de convertirse en un revolucionario instrumento para impulsar no solo el desarrollo de la industria sino de la sociedad en general”. Consideró, sin embargo, que su verdadero valor solo habría de surgir a partir de un “cuidadoso trabajo de refinación” de los datos, y advirtió que “la privacidad del consumidor y un uso leal de los datos son principios claves para que ‘el petróleo siga fluyendo de los pozos’”.

“El problema en la actualidad es que el aluvión cada vez mayor de información (de terabytes a petabytes y exabytes) amenaza con sumergirnos en una marea de datos sin filtrar, sin procesar, fragmentados y aparentemente inmanejables”, aseguran Bill Gerhardt, Kate Griffin y Roland Klemann, miembros del Grupo de Soluciones Empresariales para Internet (IBSG), de Cisco, en su trabajo “Descubrir el valor en el fragmentado mundo del análisis de los Big Data”. “Si los datos ‘crudos’ pueden extraerse, refinarse y canalizarse hasta los lugares en los que pueden influir en las decisiones en tiempo real, su valor se elevará. En el momento en que se puedan extraer de ellos ideas clave mediante un análisis (revelando complejos comportamientos, patrones y eventos a medida que ocurran, si no antes), los datos descubrirán su poder inherente. Y si los datos pueden compartirse a través de todo un ecosistema y ser accesibles en los lugares en los que el análisis tiene más utilidad, se convertirán en un elemento transformador que cambiará nuestra forma de vivir, trabajar, jugar, aprender, comprar, vender y viajar”, añaden.

Para refinar estos datos, se necesitan profesionales que diseñen una estrategia que permita volcar los resultados a productos concretos al servicio del público. En un informe titulado “Datos, inteligencia e innovación”, Elena Alfaro, la responsable de Data & Open Innovation, del BBVA, define a la “ciencia de datos” como ‘una disciplina que se encuentra en la intersección entre los dominios más cuantitativos, como son las matemáticas y la estadística, y la ingeniería informática, principalmente’. Para diseñar una buena estrategia a partir de big data se necesitan, a su juicio, “personas capaces de entender un problema, buscar su respuesta en conjuntos de datos sin importar su volumen o procedencia, y programar un algoritmo que automatiza la resolución de ese problema para resolverlo de forma masiva y con capacidad de aprender de su propio resultado”.

Si lo importante de big data no son los datos en sí mismos sino su análisis, y, sobre todo, la capacidad para poder llevar adelante dicho análisis, de acuerdo con el investigador Lev Manovich, esto se traduce en una nueva división de clases (data-classes) en la sociedad: los que generan los datos –es decir, la mayoría de la población–, los que tienen los medios para recolectarlos –que son muy pocos–, y por último, una élite con la capacidad para analizarlos.

Superservidores

Otro aspecto a considerar es el almacenamiento de datos y la necesidad cada vez más apremiante de contar con servidores muy potentes para hacerlo. Según estadísticas de 2016, existían más de 2200 centros de datos, o data centers, en el mundo, edificios de grandes dimensiones con los equipos necesarios para almacenar y procesar la información. Más de la mitad de ellos están ubicados en los EE. UU. Son instalaciones que abarcan entre 400.000 y 1,1 millón de m2, y el consumo energético ha alcanzado magnitudes alarmantes.

Según un análisis del investigador sueco Anders Andrae, para 2025, los data centers van a llegar a consumir hasta un 20 % de la electricidad disponible del mundo. Para la consultora Yole Développment, ese porcentaje era de 1,62 % en 2014 y de 3 % en 2016.

Según un relevamiento del portal especializado Data Center Knowledge, EE. UU., además de ser el país con la mayor cantidad de data centers, tiene los centros más grandes. El Lakeside Technology Center, ubicado en Chicago y con una superficie de 1,1 millón de m2, es considerado el más grande del mundo, y aloja datos para más de 70 clientes, principalmente del sector financiero. Es propiedad de Digital Realty Trust Inc., una compañía con 155 centros en América del Norte, 38 en Europa y 12 en Asia-Pacífico.

Microsoft tiene más de 100 data centers en el mundo solo para su servicio de alojamiento de datos en la nube. Cada uno de estos centros tiene el tamaño de una cancha de fútbol. Foto: Microsoft Azure.

El gigante Microsoft tiene más de 100 data centers en el mundo solo para su servicio de alojamiento de datos en la nube para la plataforma Microsoft Azure. Cada uno de estos centros tiene el tamaño de una cancha de fútbol. Además, en junio, instaló un nuevo centro bajo el agua, cerca de las costas de las islas Orkney, en Escocia, con 864 servidores. Se trata de un proyecto para volver más sustentables estos centros, ya que se alimenta de fuentes de energía renovables.

Por otro lado, según la información publicada por Google, ahora subsidiaria de Alphabet, creada en 2015, la empresa tiene 15 data centers 8 –de ellos, en EE. UU–. para procesar un promedio de 40 millones de búsquedas por segundo, conforme a las estadísticas de Internet Live Stats. Pryor Creek, en Oklahoma, es el más grande, con 980.000 m2, según el informe de 2014, “Overview of Largest Data Centers”, de Ali Ghiasi y Rich Baca. Sin embargo, se cree que hay más centros abocados exclusivamente a sus servicios de alojamiento de datos en la nube para empresas e individuos. Pero más allá de su ubicación y de algunas fotos y videos difundidos por la propia empresa, poco se conoce sobre sus características.
En 2017, los ejecutivos de la compañía revelaron que, en los tres años anteriores, se habían invertido casi 30.000 millones de dólares en data centers. El foco está puesto en desarrollar más en todo el mundo para poder mantener el servicio de almacenamiento en la nube a nivel global.

Privacidad y protección de datos personales

En este escenario, en donde son empresas privadas las que alojan los datos, la mayor dificultad que enfrentan los estados a la hora de hacer valer los derechos de sus conciudadanos frente al uso de sus datos personales es el uso que los gigantes de la tecnología hacen de la información suministrada, consciente o inconscientemente, por los usuarios. “Encontrar el balance adecuado entre los riesgos relacionados con la privacidad y los beneficios de big data puede convertirse en el mayor desafío de políticas públicas de nuestro tiempo”, asegura Omer Tene, investigador del Centro de Internet y Sociedad de la Universidad de Stanford y miembro de la Asociación Internacional de Profesionales en Privacidad (IAPP).

En una columna titulada “Privacy and Big Data”, publicada por la IAPP, Tene planteaba la “crucial decisión” que deben tomar las autoridades del sector público al sopesar, por un lado, preocupaciones vinculadas a cuestiones, como “la investigación médica, la planificación urbanística y el eficiente uso de los recursos”; y, por el otro, los legítimos reclamos ligados a “los derechos individuales, la protección de la privacidad, la equidad, la igualdad y la libertad de expresión”. En relación con esto, los expertos analizan cómo proteger la privacidad a partir de mecanismos de “desidentificación”, que permiten la encriptación de información personal particularmente sensible.

Este último concepto, el de “datos sensibles”, es clave. Un modelo de referencia al respecto es el Reglamento General de Protección de Datos (RGPD), vigente en la Unión Europea (UE) desde el pasado 25 de mayo, que establece taxativamente la “prohibición del tratamiento de datos personales que revelen el origen étnico o racial, las opiniones políticas, las convicciones religiosas o filosóficas, o la afiliación sindical, y del tratamiento de datos genéticos, datos biométricos dirigidos a identificar de manera unívoca a una personas física, así como datos relativos a la salud, a la vida sexual o la orientación sexual de una persona física”.

CANTIDAD DE DATOS ALMACENADOS EN EL MUNDO (EN PETABYTES)

El RGPD estipula, además, límites al uso de información personal para la “elaboración de perfiles”, entendiéndose como tal “toda forma de tratamiento automatizado de datos personales […] para evaluar determinados aspectos personales de una persona física, en particular para analizar o predecir aspectos relativos al rendimiento profesional, situación económica, salud, preferencias personales, intereses, fiabilidad, comportamiento, ubicación o movimientos de dicha persona física”. Entre las garantías que se conceden a la persona interesada, se encuentran el derecho a la oposición al tratamiento de esos datos para operaciones de marketing directo, y el derecho a la supresión de los datos personales también denominado “derecho al olvido” cuando estos “ya no sean necesarios en relación con los fines para los que fueron recogidos”. Se prevé, en todos los casos en que la persona afectada así lo considere, el derecho a reclamar ante la autoridad de control competente y el derecho a la tutela judicial efectiva contra el responsable o encargado del tratamiento de sus datos personales.

En nuestro país, desde la reforma constitucional de 1994, existe el instituto jurídico del habeas data, que permite a cualquier persona interponer una “acción de amparo” para tomar conocimiento de que sus datos personales consten en registros o bancos de datos públicos, o en aquellos registros privados destinados a proveer informes. En caso de que la información recogida fuere falsa o discriminatoria, la persona afectada podrá, amparada en el artículo 43 de la Constitución, “exigir la supresión, rectificación, confidencialidad o actualización” de esos datos. El Congreso dictó posteriormente, en octubre de 2000, la Ley de Protección de los Datos Personales (Ley 25.326) que establece la obligatoriedad del “consentimiento libre, expreso e informado” por parte del titular de los datos que fueren objeto de tratamiento, a excepción de aquellos listados que se limiten al nombre, DNI, identificación tributaria o previsional, ocupación, fecha de nacimiento y domicilio, así como los datos recabados por el Estado en virtud de sus obligaciones legales y los que fueren objeto de tratamiento por parte de entidades financieras en el marco de causas judiciales o informes requeridos por el Banco Central o entes recaudadores. Prohíbe, asimismo, la formación de “archivos, bancos o registros que almacenen información que directa o indirectamente revele datos sensibles”, a excepción de aquellos destinados a “finalidades estadísticas o científicas cuando no puedan ser identificados sus titulares”, y los relativos a “antecedentes penales o contravencionales” que solo podrán ser objeto de tratamiento por parte de las autoridades públicas competentes.

El año pasado, con el objetivo de actualizar la legislación vigente en la materia y adaptarla a las nuevas tecnologías, el Ministerio de Justicia dio a conocer un anteproyecto, que deberá ser tratado por el Congreso. Allí se contempla expresamente el tratamiento de datos que utilicen “servicios de computación en la nube” y establece una serie de condiciones que deberán cumplir los proveedores, entre las que se encuentran la obligación de “establecer y mantener medidas de seguridad adecuadas”, “garantizar la supresión de los datos personales una vez que haya concluido el servicio prestado” e “impedir el acceso a los datos personales a quienes no cuenten con privilegios de acceso”.

Omnipresente

La oportunidad que brinda big data analytics (análisis de datos masivos o macrodatos) alcanza a múltiples campos, pero el sector público es quizás uno de los que más potencial tiene. En 2011, la consultora McKinsey llegó a la conclusión de que si se aplicaran herramientas de análisis de datos masivos a las agencias de recaudación de impuestos y de trabajo de la Unión Europea, se podrían ahorrar unos 250.000 millones de euros al año. El objetivo era mejorar la eficiencia de los gobiernos, mediante la reducción del fraude, los errores en las transferencias de pagos y la mejora en el cobro de impuestos.

Según McKinsey, el uso de big data tiene mucho que aportar al ámbito de la salud pública, sector en el que se pueden mejorar las capacidades de monitoreo de grandes tendencias y la capacidad de respuesta, por ejemplo, a partir del desarrollo y mantenimiento de bases de datos de pacientes y tratamientos que permitan la detección temprana de enfermedades infecciosas.

Otra utilidad es la de comprobar la utilidad y la efectividad de determinadas políticas públicas, en materia de regulación impositiva, por ejemplo. En 2014, Matthew Harding y Michael Lovenheim, investigadores de la Universidad de Stanford y de la Universidad Cornell, respectivamente, usaron big data analytics para estudiar el rol de los precios en el patrón de consumo y nutrición en
EE. UU. entre 2000 y 2007 a fin de determinar los efectos de los impuestos sobre los alimentos en el nivel de nutrición de la población. La conclusión a la que llegaron es que en vez de gravar productos alimenticios puntuales, la implementación de impuestos a ingredientes específicos, como por ejemplo, al azúcar, es mucho más efectiva.

El mundo de los negocios ha sido el que más ha sabido sacarle provecho a big data, y no solamente las grandes compañías. Marcos Alvarado, junto con su socio Sebastián Galdeano, y su hermano, Tomás Alvarado, fundaron la startup Booster Agro. El primer producto que lanzaron al mercado fue una app gratuita que ofrece información agrometeorológica precisa y en tiempo real a partir del análisis de grandes cantidades de datos de varias fuentes de pronósticos climatológicos globales.

El agro es uno de los sectores que más provecho ha sacado de la disponibilidad de datos masivos para mejorar su producción. Foto: AFP.

El objetivo era que los pequeños y medianos productores agropecuarios pudieran concentrar, de forma más eficiente y en una sola aplicación, la información necesaria para tomar decisiones respecto a sus cultivos y que no tuvieran que revisar, una por una, las distintas variables. “Usamos seis fuentes de clima y procesamos por día casi 10 millones de requests, es decir, les pedimos a cada una de estas fuentes 10 millones de consultas de clima por día”, explicó Alvarado. “Después, todo eso lo procesamos en Amazon y ahí mismo, en milisegundos, le llega al usuario la información exacta en la latitud y longitud que se necesita, en tiempo real”.

Así, Booster App se ocupa del procesamiento de las grandes cantidades de datos, y el usuario recibe la información precisa y específica para su campo; y en un formato amigable, sin perder tiempo. En la actualidad, la app brinda detalles sobre humedad relativa, lluvia, vientos, temperaturas y presión atmosférica específicas, pero los emprendedores ya están desarrollando nuevas aplicaciones relacionadas, por ejemplo, con información sobre pólizas de seguros adaptadas a las necesidades de cada productor.
En el pequeño equipo de trabajo de la empresa, hay una persona dedicada exclusivamente a data science. “Todos estos datos que arrojamos, y que a la vez obtenemos, necesitamos sistematizarlos para sacarles provecho”, señaló Alvarado.

Como toda nueva tecnología, o quizás, más que ninguna otra antes, big data abre un mundo de oportunidades que solo podrán ser aprovechadas por quienes se capaciten, innoven y puedan así hacer uso de los datos para solucionar problemas concretos.