InicioCiencia & TecnologรญaBig data, la vida en datos

Big data, la vida en datos

Big data llegรณ para quedarse; invade y cambia para siempre nuestras vidas, aun en los aspectos mรกs cotidianos, y a veces sin que lo advirtamos siquiera. Pero ยฟde quรฉ se trata exactamente?, ยฟcรณmo podemos aprovechar todo su potencial? Y, sobre todo, ยฟcรณmo debemos protegernos de las amenazas a la privacidad y a la seguridad que trae aparejadas?

Big data, el vocablo de moda, cada vez mรกs presente en el discurso de consultores, empresarios, polรญticos y hasta deportistas, parece ofrecer un universo de posibilidades hasta ahora impensado, aunque al ojo no experto le resulta difรญcil terminar de dimensionar este fenรณmeno y sus consecuencias.

De acuerdo con UN Global Pulse โ€“una divisiรณn de Naciones Unidas que tiene como objetivo acelerar el descubrimiento, el desarrollo y la adopciรณn a escala de big data para el desarrollo sustentable e iniciativas humanitariasโ€“ la humanidad se encuentra en medio de una โ€œrevoluciรณn industrial de los datosโ€, tรฉrmino acuรฑado por el cientรญfico informรกtico Joe Hellerstein, que se caracteriza por un incremento exponencial en la cantidad y diversidad de datos digitales disponibles en tiempo real, producto de un mayor uso de equipos tecnolรณgicos con mรกs capacidad en la vida diaria, lo que permite obtener un profundo conocimiento del comportamiento humano.

Big data es el resultado de lo que se produce en el รกmbito empresarial y administrativo, en las redes sociales y en la Internet de las Cosas (IoT, por sus siglas en inglรฉs). La Comisiรณn Econรณmica de las Naciones Unidas para Europa (UNECE, por sus siglas en inglรฉs) tambiรฉn incluye dentro de este concepto lo generado por los motores de bรบsqueda en Internet y por dispositivos mรณviles.

Aunque no hay una definiciรณn รบnica para este fenรณmeno, la opciรณn planteada por el informรกtico norteamericano John Mashey en 1998 es una de las mรกs utilizadas: โ€œBig data es un tรฉrmino que se aplica a sets de datos cuyo tamaรฑo estรก mรกs allรก de lo que las herramientas de software habitualmente utilizadas pueden capturar, administrar y procesar en un perรญodo de tiempo razonableโ€, asegurรณ en un artรญculo titulado โ€œBig Data and the Next Wave of Infrastress Problems, Solutions Opportunitiesโ€.

Por otra parte, existe un amplio consenso en torno a las tres caracterรญsticas que lo definen, las denominadas โ€œ3Vโ€ (volumen, velocidad, variedad): alto volumen de datos, transmitidos a gran velocidad y de una amplia variedad de fuentes. La tecnologรญa permite que las personas estรฉn hoy ultraconectadas; esta interconexiรณn genera una cantidad de informaciรณn nunca antes vista.

Todo lo que se comparte en redes sociales queda registrado y puede servir de insumo para anรกlisis comerciales. Foto: AFP.

El incremento en el volumen de datos hace necesarias computadoras cada vez mรกs poderosas para poder extraer valor de esos datos, el corazรณn mismo del fenรณmeno de big data. Ademรกs, la situaciรณn se vuelve mรกs abrumadora al tener en cuenta la velocidad de las interconexiones. Los datos se generan mรกs rรกpido de lo que los podemos procesar, y a mayor velocidad, mรกs dificultad para extraer valor de ellos.

La amplia variedad de fuentes hace aรบn mรกs difรญcil esta tarea. Los datos no solo estรกn en documentos tradicionales y estructurados en bases, sino que, en general, se hallan fragmentados, lo que vuelve mรกs difรญcil aรบn el trabajo. A estos documentos se les suman datos provenientes de GPS, de apps de redes sociales, entre muchos otros. Con esta variedad de formatos, resulta difรญcil extraer el verdadero valor de los datos, debido a que la extracciรณn โ€“para su posterior procesamientoโ€“ debe hacerse con distintos mรฉtodos.

Los datos, el โ€œnuevo petrรณleoโ€

Ya en 2006, el matemรกtico britรกnico Clive Humby habรญa seรฑalado que los datos se convertirรญan en el โ€œnuevo petrรณleoโ€. Una dรฉcada mรกs tarde, en el informe โ€œThink Big: Britainโ€™s Data Opportunityโ€ publicado por el proveedor de software WANdisco, afirmรณ: โ€œTal como ocurre con el petrรณleo crudo, big data tiene el potencial de convertirse en un revolucionario instrumento para impulsar no solo el desarrollo de la industria sino de la sociedad en generalโ€. Considerรณ, sin embargo, que su verdadero valor solo habrรญa de surgir a partir de un โ€œcuidadoso trabajo de refinaciรณnโ€ de los datos, y advirtiรณ que โ€œla privacidad del consumidor y un uso leal de los datos son principios claves para que โ€˜el petrรณleo siga fluyendo de los pozosโ€™โ€.

โ€œEl problema en la actualidad es que el aluviรณn cada vez mayor de informaciรณn (de terabytes a petabytes y exabytes) amenaza con sumergirnos en una marea de datos sin filtrar, sin procesar, fragmentados y aparentemente inmanejablesโ€, aseguran Bill Gerhardt, Kate Griffin y Roland Klemann, miembros del Grupo de Soluciones Empresariales para Internet (IBSG), de Cisco, en su trabajo โ€œDescubrir el valor en el fragmentado mundo del anรกlisis de los Big Dataโ€. โ€œSi los datos โ€˜crudosโ€™ pueden extraerse, refinarse y canalizarse hasta los lugares en los que pueden influir en las decisiones en tiempo real, su valor se elevarรก. En el momento en que se puedan extraer de ellos ideas clave mediante un anรกlisis (revelando complejos comportamientos, patrones y eventos a medida que ocurran, si no antes), los datos descubrirรกn su poder inherente. Y si los datos pueden compartirse a travรฉs de todo un ecosistema y ser accesibles en los lugares en los que el anรกlisis tiene mรกs utilidad, se convertirรกn en un elemento transformador que cambiarรก nuestra forma de vivir, trabajar, jugar, aprender, comprar, vender y viajarโ€, aรฑaden.

Para refinar estos datos, se necesitan profesionales que diseรฑen una estrategia que permita volcar los resultados a productos concretos al servicio del pรบblico. En un informe titulado โ€œDatos, inteligencia e innovaciรณnโ€, Elena Alfaro, la responsable de Data & Open Innovation, del BBVA, define a la โ€œciencia de datosโ€ como โ€˜una disciplina que se encuentra en la intersecciรณn entre los dominios mรกs cuantitativos, como son las matemรกticas y la estadรญstica, y la ingenierรญa informรกtica, principalmenteโ€™. Para diseรฑar una buena estrategia a partir de big data se necesitan, a su juicio, โ€œpersonas capaces de entender un problema, buscar su respuesta en conjuntos de datos sin importar su volumen o procedencia, y programar un algoritmo que automatiza la resoluciรณn de ese problema para resolverlo de forma masiva y con capacidad de aprender de su propio resultadoโ€.

Si lo importante de big data no son los datos en sรญ mismos sino su anรกlisis, y, sobre todo, la capacidad para poder llevar adelante dicho anรกlisis, de acuerdo con el investigador Lev Manovich, esto se traduce en una nueva divisiรณn de clases (data-classes) en la sociedad: los que generan los datos โ€“es decir, la mayorรญa de la poblaciรณnโ€“, los que tienen los medios para recolectarlos โ€“que son muy pocosโ€“, y por รบltimo, una รฉlite con la capacidad para analizarlos.

Superservidores

Otro aspecto a considerar es el almacenamiento de datos y la necesidad cada vez mรกs apremiante de contar con servidores muy potentes para hacerlo. Segรบn estadรญsticas de 2016, existรญan mรกs de 2200 centros de datos, o data centers, en el mundo, edificios de grandes dimensiones con los equipos necesarios para almacenar y procesar la informaciรณn. Mรกs de la mitad de ellos estรกn ubicados en los EE. UU. Son instalaciones que abarcan entre 400.000 y 1,1 millรณn de m2, y el consumo energรฉtico ha alcanzado magnitudes alarmantes.

Segรบn un anรกlisis del investigador sueco Anders Andrae, para 2025, los data centers van a llegar a consumir hasta un 20 % de la electricidad disponible del mundo. Para la consultora Yole Dรฉveloppment, ese porcentaje era de 1,62 % en 2014 y de 3 % en 2016.

Segรบn un relevamiento del portal especializado Data Center Knowledge, EE. UU., ademรกs de ser el paรญs con la mayor cantidad de data centers, tiene los centros mรกs grandes. El Lakeside Technology Center, ubicado en Chicago y con una superficie de 1,1 millรณn de m2, es considerado el mรกs grande del mundo, y aloja datos para mรกs de 70 clientes, principalmente del sector financiero. Es propiedad de Digital Realty Trust Inc., una compaรฑรญa con 155 centros en Amรฉrica del Norte, 38 en Europa y 12 en Asia-Pacรญfico.

Microsoft tiene mรกs de 100 data centers en el mundo solo para su servicio de alojamiento de datos en la nube. Cada uno de estos centros tiene el tamaรฑo de una cancha de fรบtbol. Foto: Microsoft Azure.

El gigante Microsoft tiene mรกs de 100 data centers en el mundo solo para su servicio de alojamiento de datos en la nube para la plataforma Microsoft Azure. Cada uno de estos centros tiene el tamaรฑo de una cancha de fรบtbol. Ademรกs, en junio, instalรณ un nuevo centro bajo el agua, cerca de las costas de las islas Orkney, en Escocia, con 864 servidores. Se trata de un proyecto para volver mรกs sustentables estos centros, ya que se alimenta de fuentes de energรญa renovables.

Por otro lado, segรบn la informaciรณn publicada por Google, ahora subsidiaria de Alphabet, creada en 2015, la empresa tiene 15 data centers 8 โ€“de ellos, en EE. UUโ€“. para procesar un promedio de 40 millones de bรบsquedas por segundo, conforme a las estadรญsticas de Internet Live Stats. Pryor Creek, en Oklahoma, es el mรกs grande, con 980.000 m2, segรบn el informe de 2014, โ€œOverview of Largest Data Centersโ€, de Ali Ghiasi y Rich Baca. Sin embargo, se cree que hay mรกs centros abocados exclusivamente a sus servicios de alojamiento de datos en la nube para empresas e individuos. Pero mรกs allรก de su ubicaciรณn y de algunas fotos y videos difundidos por la propia empresa, poco se conoce sobre sus caracterรญsticas.
En 2017, los ejecutivos de la compaรฑรญa revelaron que, en los tres aรฑos anteriores, se habรญan invertido casi 30.000 millones de dรณlares en data centers. El foco estรก puesto en desarrollar mรกs en todo el mundo para poder mantener el servicio de almacenamiento en la nube a nivel global.

Privacidad y protecciรณn de datos personales

En este escenario, en donde son empresas privadas las que alojan los datos, la mayor dificultad que enfrentan los estados a la hora de hacer valer los derechos de sus conciudadanos frente al uso de sus datos personales es el uso que los gigantes de la tecnologรญa hacen de la informaciรณn suministrada, consciente o inconscientemente, por los usuarios. โ€œEncontrar el balance adecuado entre los riesgos relacionados con la privacidad y los beneficios de big data puede convertirse en el mayor desafรญo de polรญticas pรบblicas de nuestro tiempoโ€, asegura Omer Tene, investigador del Centro de Internet y Sociedad de la Universidad de Stanford y miembro de la Asociaciรณn Internacional de Profesionales en Privacidad (IAPP).

En una columna titulada โ€œPrivacy and Big Dataโ€, publicada por la IAPP, Tene planteaba la โ€œcrucial decisiรณnโ€ que deben tomar las autoridades del sector pรบblico al sopesar, por un lado, preocupaciones vinculadas a cuestiones, como โ€œla investigaciรณn mรฉdica, la planificaciรณn urbanรญstica y el eficiente uso de los recursosโ€; y, por el otro, los legรญtimos reclamos ligados a โ€œlos derechos individuales, la protecciรณn de la privacidad, la equidad, la igualdad y la libertad de expresiรณnโ€. En relaciรณn con esto, los expertos analizan cรณmo proteger la privacidad a partir de mecanismos de โ€œdesidentificaciรณnโ€, que permiten la encriptaciรณn de informaciรณn personal particularmente sensible.

Este รบltimo concepto, el de โ€œdatos sensiblesโ€, es clave. Un modelo de referencia al respecto es el Reglamento General de Protecciรณn de Datos (RGPD), vigente en la Uniรณn Europea (UE) desde el pasado 25 de mayo, que establece taxativamente la โ€œprohibiciรณn del tratamiento de datos personales que revelen el origen รฉtnico o racial, las opiniones polรญticas, las convicciones religiosas o filosรณficas, o la afiliaciรณn sindical, y del tratamiento de datos genรฉticos, datos biomรฉtricos dirigidos a identificar de manera unรญvoca a una personas fรญsica, asรญ como datos relativos a la salud, a la vida sexual o la orientaciรณn sexual de una persona fรญsicaโ€.

CANTIDAD DE DATOS ALMACENADOS EN EL MUNDO (EN PETABYTES)

El RGPD estipula, ademรกs, lรญmites al uso de informaciรณn personal para la โ€œelaboraciรณn de perfilesโ€, entendiรฉndose como tal โ€œtoda forma de tratamiento automatizado de datos personales […] para evaluar determinados aspectos personales de una persona fรญsica, en particular para analizar o predecir aspectos relativos al rendimiento profesional, situaciรณn econรณmica, salud, preferencias personales, intereses, fiabilidad, comportamiento, ubicaciรณn o movimientos de dicha persona fรญsicaโ€. Entre las garantรญas que se conceden a la persona interesada, se encuentran el derecho a la oposiciรณn al tratamiento de esos datos para operaciones de marketing directo, y el derecho a la supresiรณn de los datos personales tambiรฉn denominado โ€œderecho al olvidoโ€ cuando estos โ€œya no sean necesarios en relaciรณn con los fines para los que fueron recogidosโ€. Se prevรฉ, en todos los casos en que la persona afectada asรญ lo considere, el derecho a reclamar ante la autoridad de control competente y el derecho a la tutela judicial efectiva contra el responsable o encargado del tratamiento de sus datos personales.

En nuestro paรญs, desde la reforma constitucional de 1994, existe el instituto jurรญdico del habeas data, que permite a cualquier persona interponer una โ€œacciรณn de amparoโ€ para tomar conocimiento de que sus datos personales consten en registros o bancos de datos pรบblicos, o en aquellos registros privados destinados a proveer informes. En caso de que la informaciรณn recogida fuere falsa o discriminatoria, la persona afectada podrรก, amparada en el artรญculo 43 de la Constituciรณn, โ€œexigir la supresiรณn, rectificaciรณn, confidencialidad o actualizaciรณnโ€ de esos datos. El Congreso dictรณ posteriormente, en octubre de 2000, la Ley de Protecciรณn de los Datos Personales (Ley 25.326) que establece la obligatoriedad del โ€œconsentimiento libre, expreso e informadoโ€ por parte del titular de los datos que fueren objeto de tratamiento, a excepciรณn de aquellos listados que se limiten al nombre, DNI, identificaciรณn tributaria o previsional, ocupaciรณn, fecha de nacimiento y domicilio, asรญ como los datos recabados por el Estado en virtud de sus obligaciones legales y los que fueren objeto de tratamiento por parte de entidades financieras en el marco de causas judiciales o informes requeridos por el Banco Central o entes recaudadores. Prohรญbe, asimismo, la formaciรณn de โ€œarchivos, bancos o registros que almacenen informaciรณn que directa o indirectamente revele datos sensiblesโ€, a excepciรณn de aquellos destinados a โ€œfinalidades estadรญsticas o cientรญficas cuando no puedan ser identificados sus titularesโ€, y los relativos a โ€œantecedentes penales o contravencionalesโ€ que solo podrรกn ser objeto de tratamiento por parte de las autoridades pรบblicas competentes.

El aรฑo pasado, con el objetivo de actualizar la legislaciรณn vigente en la materia y adaptarla a las nuevas tecnologรญas, el Ministerio de Justicia dio a conocer un anteproyecto, que deberรก ser tratado por el Congreso. Allรญ se contempla expresamente el tratamiento de datos que utilicen โ€œservicios de computaciรณn en la nubeโ€ y establece una serie de condiciones que deberรกn cumplir los proveedores, entre las que se encuentran la obligaciรณn de โ€œestablecer y mantener medidas de seguridad adecuadasโ€, โ€œgarantizar la supresiรณn de los datos personales una vez que haya concluido el servicio prestadoโ€ e โ€œimpedir el acceso a los datos personales a quienes no cuenten con privilegios de accesoโ€.

Omnipresente

La oportunidad que brinda big data analytics (anรกlisis de datos masivos o macrodatos) alcanza a mรบltiples campos, pero el sector pรบblico es quizรกs uno de los que mรกs potencial tiene. En 2011, la consultora McKinsey llegรณ a la conclusiรณn de que si se aplicaran herramientas de anรกlisis de datos masivos a las agencias de recaudaciรณn de impuestos y de trabajo de la Uniรณn Europea, se podrรญan ahorrar unos 250.000 millones de euros al aรฑo. El objetivo era mejorar la eficiencia de los gobiernos, mediante la reducciรณn del fraude, los errores en las transferencias de pagos y la mejora en el cobro de impuestos.

Segรบn McKinsey, el uso de big data tiene mucho que aportar al รกmbito de la salud pรบblica, sector en el que se pueden mejorar las capacidades de monitoreo de grandes tendencias y la capacidad de respuesta, por ejemplo, a partir del desarrollo y mantenimiento de bases de datos de pacientes y tratamientos que permitan la detecciรณn temprana de enfermedades infecciosas.

Otra utilidad es la de comprobar la utilidad y la efectividad de determinadas polรญticas pรบblicas, en materia de regulaciรณn impositiva, por ejemplo. En 2014, Matthew Harding y Michael Lovenheim, investigadores de la Universidad de Stanford y de la Universidad Cornell, respectivamente, usaron big data analytics para estudiar el rol de los precios en el patrรณn de consumo y nutriciรณn en
EE. UU. entre 2000 y 2007 a fin de determinar los efectos de los impuestos sobre los alimentos en el nivel de nutriciรณn de la poblaciรณn. La conclusiรณn a la que llegaron es que en vez de gravar productos alimenticios puntuales, la implementaciรณn de impuestos a ingredientes especรญficos, como por ejemplo, al azรบcar, es mucho mรกs efectiva.

El mundo de los negocios ha sido el que mรกs ha sabido sacarle provecho a big data, y no solamente las grandes compaรฑรญas. Marcos Alvarado, junto con su socio Sebastiรกn Galdeano, y su hermano, Tomรกs Alvarado, fundaron la startup Booster Agro. El primer producto que lanzaron al mercado fue una app gratuita que ofrece informaciรณn agrometeorolรณgica precisa y en tiempo real a partir del anรกlisis de grandes cantidades de datos de varias fuentes de pronรณsticos climatolรณgicos globales.

El agro es uno de los sectores que mรกs provecho ha sacado de la disponibilidad de datos masivos para mejorar su producciรณn. Foto: AFP.

El objetivo era que los pequeรฑos y medianos productores agropecuarios pudieran concentrar, de forma mรกs eficiente y en una sola aplicaciรณn, la informaciรณn necesaria para tomar decisiones respecto a sus cultivos y que no tuvieran que revisar, una por una, las distintas variables. โ€œUsamos seis fuentes de clima y procesamos por dรญa casi 10 millones de requests, es decir, les pedimos a cada una de estas fuentes 10 millones de consultas de clima por dรญaโ€, explicรณ Alvarado. โ€œDespuรฉs, todo eso lo procesamos en Amazon y ahรญ mismo, en milisegundos, le llega al usuario la informaciรณn exacta en la latitud y longitud que se necesita, en tiempo realโ€.

Asรญ, Booster App se ocupa del procesamiento de las grandes cantidades de datos, y el usuario recibe la informaciรณn precisa y especรญfica para su campo; y en un formato amigable, sin perder tiempo. En la actualidad, la app brinda detalles sobre humedad relativa, lluvia, vientos, temperaturas y presiรณn atmosfรฉrica especรญficas, pero los emprendedores ya estรกn desarrollando nuevas aplicaciones relacionadas, por ejemplo, con informaciรณn sobre pรณlizas de seguros adaptadas a las necesidades de cada productor.
En el pequeรฑo equipo de trabajo de la empresa, hay una persona dedicada exclusivamente a data science. โ€œTodos estos datos que arrojamos, y que a la vez obtenemos, necesitamos sistematizarlos para sacarles provechoโ€, seรฑalรณ Alvarado.

Como toda nueva tecnologรญa, o quizรกs, mรกs que ninguna otra antes, big data abre un mundo de oportunidades que solo podrรกn ser aprovechadas por quienes se capaciten, innoven y puedan asรญ hacer uso de los datos para solucionar problemas concretos.

spot_img
[td_block_21 custom_title="Artรญculos mรกs leรญdos" sort="random_7_day" linked_posts=""]

Contenido mas reciente

De MrBeast a Donald Trump: por quรฉ las celebridades apuestan por la telefonรญa mรณvilย 

En un fenรณmeno relativamente nuevo, cada vez mรกs figuras pรบblicas se vuelcan a los negocios y apuestan por empresas y operadoras virtuales de telefonรญa.ย 

Operaciรณn Roca: ยฟquรฉ pasa con las Fuerzas Armadas en la provincia de Salta?

El Ministerio de Defensa mostrรณ avances en la actividad que los militares argentinos protagonizan en apoyo a las Fuerzas de Seguridad en la frontera Norte del paรญs. ยฟCuรกles son las novedades?

Cambio climรกtico: quรฉ microorganismo produce oxรญgeno en los ocรฉanos y estรก en riesgoย 

Un estudio advierte que Prochlorococcus, la bacteria fotosintรฉtica mรกs abundante del planeta, podrรญa reducir drรกsticamente su biomasa por el aumento de la temperatura de los mares.ย 

Contenido Relacionado

De MrBeast a Donald Trump: por quรฉ las celebridades apuestan por la telefonรญa mรณvilย 

En un fenรณmeno relativamente nuevo, cada vez mรกs figuras pรบblicas se vuelcan a los negocios y apuestan por empresas y operadoras virtuales de telefonรญa.ย 

Operaciรณn Roca: ยฟquรฉ pasa con las Fuerzas Armadas en la provincia de Salta?

El Ministerio de Defensa mostrรณ avances en la actividad que los militares argentinos protagonizan en apoyo a las Fuerzas de Seguridad en la frontera Norte del paรญs. ยฟCuรกles son las novedades?

Cambio climรกtico: quรฉ microorganismo produce oxรญgeno en los ocรฉanos y estรก en riesgoย 

Un estudio advierte que Prochlorococcus, la bacteria fotosintรฉtica mรกs abundante del planeta, podrรญa reducir drรกsticamente su biomasa por el aumento de la temperatura de los mares.ย