Nuevo

Resumen del libro

A+

Introducción

La alquimia tradicional, aquella que ya desarrollaban los antiguos egipcios, trataba de convertir el plomo en oro sin éxito. Al publicar tu información personal en las redes sociales o simplemente aceptando políticas de privacidad sin demasiado detenimiento, estarás dando al alquimista la materia prima necesaria para monetizar tu rastro digital.

En la actualidad, los datos se están convirtiendo en el nuevo oro. Como él, su valor crece con el tiempo, ya que tienen un valor inherente que permite mejorar la posición financiera de quien los posee. La inteligencia artificial, la robótica, el machine learning y la analítica avanzada conforman una economía y una sociedad basada en los datos.

El big data y la ciencia de los datos nos rodean sin que nos demos cuenta. Y es que las empresas y las instituciones públicas, así como los consumidores y ciudadanos, pueden mejorar gracias a una toma de decisiones basada en datos.

Los datos no son petróleo, pues se puede tener mucho petróleo y no ser rico. Los datos se asemejan mucho más a un metal que, tras un proceso de transformación, transmuta en oro. Aun así, tienen un valor intrínseco y su mera acumulación genera poder.

 A mucha gente le sorprendió que Facebook pagara 20 000 millones de dólares por WhatsApp, una empresa que no generaba ingresos, simplemente por su capacidad para acumular datos. Si eres una de esas personas, este libro te ayudará a entender el tremendo potencial de esta información.

Los datos pueden ser utilizados para ajustar de forma precisa la oferta en base a la demanda, fijar precios, delegar tareas repetitivas a algoritmos de aprendizaje automático, hacer seguimiento de constantes vitales a deportistas de élite y enfermos crónicos, e incluso para secuenciar ADN con el fin de desarrollar fármacos personalizados.

Tras hacer una breve repaso histórico, veremos cómo diversos sectores aplican la ciencia de datos para que así puedas navegar por la transición del Homo sapiens al Homo algorithmus.

Historia de la alquimia

En octubre de 1950, Alan Turing plantea la siguiente pregunta: «¿Pueden las máquinas pensar?». Para responderla, plantea un juego que enfrentaría a un humano y una máquina, donde un tercero mediante preguntas determinaría quién es humano y quién no. En el caso de que las respuestas cayesen por debajo del 50 %, Turing afirmaba que podría considerarse que las máquinas pueden efectivamente pensar.

 A día de hoy, el «juego de la imitación» o test de Turing prevalece como la prueba definitiva acerca de la inteligencia de las máquinas. El inventor y futurólogo Raymond Kurzweil vaticinó que el test sería superado en menos de veinticinco años. Muchas personas no se tomaron seriamente su predicción a pesar de la velocidad con la que progresa la tecnología.

Uno de los primeros indicios de una inteligencia superior nos lleva, ni más ni menos, al primer vehículo autónomo. Desde 1961, la NASA llevaba a cabo investigaciones con el fin de que un vehículo se desplazara por la superficie de la luna bajo control terrestre. El tiempo de retardo entre el emisor y el receptor, este último situado en el satélite, hacía esto inviable.

Tras muchos intentos, en 1979, Hans Moravec, estudiante de doctorado, mediante un sistema de cámaras programó un vehículo para que, de forma autónoma, fuera capaz de recorrer una habitación plagada de obstáculos. El vehículo avanzaba un metro tras analizar durante quince minutos cuál era la mejor ruta para evitar colisiones. Fueron las cinco primeras horas de vida de un vehículo totalmente autónomo.

En 1997, el campeón de ajedrez Garry Kaspárov se enfrentó a una computadora de IBM llamada «deeper blue» con 700 000 partidas de ajedrez recopiladas para su programación. Anteriormente Kaspárov dijo que ganaría a la máquina en cualquier circunstancia: «Es solo una máquina. Las máquinas son estúpidas».

Tras cinco partidas empatadas, Kaspárov cometió un tremendo error en la sexta partida, probablemente fruto del cansancio, el cual supuso su derrota. Esta máquina se exhibe a día de hoy en el museo Smithsonian de Washington.

El siguiente paso fue mejorar «deeper blue» para que, en vez de aprender mediante fuerza bruta miles de partidas, pudiera aprender en situaciones imprevistas y tomar en ellas las mejores decisiones. Este proceso es el que se conoce hoy en día como Machine Learning, Deep Learning o aprendizaje profundo.

De este modo, los ingenieros de IBM desarrollaron un algoritmo, que más tarde compró Google, con el fin de formar la empresa Google DeepMind. Las mejoras del traductor de Google son fruto de la aplicación de este algoritmo.

Por otro lado, el algoritmo de la organización J. Walter Thompson logró analizar y replicar una obra de Rembrandt, logrando así suplantar a todo un equipo formado por historiadores de arte, investigadores de materiales, científicos de datos e ingenieros.

En Waymo, el proyecto de Google para desarrollar automóviles autónomos, los coches realizan pruebas en carreteras públicas sin nadie manejando el volante. Los modelos de aprendizaje automático y de inteligencia artificial trabajan codo con codo en las dos tareas esenciales: recopilar información y procesarla para tomar decisiones.

Aunque los coches estén capacitados para actuar de forma autónoma, sin intervención humana de ningún tipo, en determinadas situaciones el vehículo puede comunicarse con la central para consultar algunas decisiones. No obstante, nadie conduce el vehículo en remoto.

 Y es que pueden darse circunstancias imprevistas que requieren ayuda externa. No tanto por la incapacidad de reaccionar y decidir, sino por la toma de decisiones, como primar la seguridad de los pasajeros y del entorno.

 En el proceso de incorporar la ciencia de datos, es fundamental el conocimiento experto de las personas. Solo quienes combinen correctamente ambos aspectos, el tecnológico y el humano, tendrán éxito. Al menos por ahora.

Inteligencia y estadística

El test de Turing se considera la prueba definitiva, pero no es casualidad que él mismo lo denominara «el juego de la imitación». Las máquinas pueden reproducir el comportamiento humano y hacernos la vida más fácil.

Sin embargo, la inteligencia supone una capacidad muy general que excede el conocimiento, la habilidad de aprender y reproducir tareas, además de la capacidad de superar pruebas.

¿En qué consiste entonces la inteligencia? La inteligencia supone todo eso, pero también razonar, discernir, distinguir entre el bien y el mal, pensar de forma abstracta y resolver problemas complejos.

Existen varios tipos de inteligencia: la lógica y matemática, la lingüística y verbal, la musical, la naturalista (relacionada con la consciencia de nuestro entorno), la visual y espacial, y la interpersonal (que hace referencia a la capacidad para relacionarnos con los demás) e intrapersonal (referente a la introspección y análisis de la propia consciencia).

Cuando anteriormente mencionamos el aprendizaje profundo, hablábamos de la capacidad de recopilar grandes cantidades de información y de la toma de decisiones. Esto nos lleva a la economía conductual, la escuela de pensamiento que relaciona los estudios económicos tradicionales con la toma de decisiones individuales.

Según esta vertiente de la psicología, la situación o ambiente de riesgo se caracteriza por la ausencia de control por parte del decisor de todos los elementos que intervienen en el proceso de obtener un determinado resultado. Richard Thaler, discípulo del ganador del premio nobel de economía Daniel Kahneman y su socio Amos Tversky, trató de establecer el marco que explicase los sesgos individuales.

En este marco, el ser evoluciona hasta convertirse en el Homo economicus, dotado de una inteligencia y racionalidad excepcional que le permite valorar perfectamente qué decisión es la óptima en cada instante mediante un simple análisis de su entorno, sus alternativas y sus resultados posibles.

La opinión de los economistas conductuales es clara: una máquina es superior a un humano en cualquier actividad rutinaria. «Cualquier ejercicio rutinario que implique una decisión, desde la detección de un fraude o de un tumor hasta reclutar empleados, es realizado mejor por un sencillo modelo estadístico que por el mayor experto en la materia».

Si esto opinan los expertos acerca de las decisiones, ¿qué sabemos sobre la recopilación de datos? Toda la información generada y registrada desde los albores de la humanidad hasta hace dos años equivale a la que se ha creado y almacenado en los dos últimos.

La digitalización de toda nuestra actividad, la aparición de internet y la multiplicación de conexiones de dispositivos electrónicos gracias al internet de las cosas hacen que los datos dominen nuestro entorno.

Si le añadimos la radical disminución de los costes de procesamiento y almacenamiento, es normal que todas las empresas se muestren activas en la transformación del dato en información, y de la información en conocimiento.

En 1980, un ordenador IBM 3380 de 20 Gb de memoria RAM pesaba dos toneladas. Hoy en día una memoria micro SD de 32 Gb pesa menos de medio gramo. Un buen ordenador de sobremesa dispone de un disco duro de 1 Tb, 1000 Gb de capacidad.

En 2020, se estima que la cantidad de información disponible llegue a 40 zettabits, equivalente a mil millones de discos duros como el que podemos tener en casa. Como comprenderás, no tiene sentido contar con equipos físicos para almacenar esa información, así que los desarrolladores optan por subir los datos a la nube.

Las empresas que ofrecen servicios de almacenaje en la nube también están empezando a ofrecer soluciones de machine learning y de inteligencia artificial. Todo empieza y todo acaba con la estadística, pues todo tiene que ver con la identificación y la cuantificación de la información en un entorno de incertidumbre.

La estadística se encuentra en la base de investigación de todas las disciplinas científicas. Aun así, no debemos olvidar que nunca tendremos certeza de cuál será la actitud de un individuo. Sin embargo, sin llegar a alcanzar la certeza, nos ofrece una medida de la incertidumbre.

Finanzas y seguros

Anteriormente hablábamos del riesgo y la imposibilidad de conocer con seguridad la actitud del individuo, ya que es imposible controlar todas las variables. Las empresas que trabajan en el sector de las inversiones y seguros hacen del riesgo su negocio. ¿Cómo utilizan estas empresas la ciencia de datos en su beneficio?

Entre otras muchas tareas, los gestores de inversión deben tener en cuenta el contexto financiero de cada momento. ¿Nos encontramos en una fase alcista en la que la compra de acciones va en aumento? O, por el contrario, ¿está la inversión decreciendo, por lo que podríamos estar a las puertas de una crisis? Estos profesionales deben responder a este tipo de preguntas.

BlackRock, gestora de fondos de inversión, busca diferenciarse de sus competidores, los cuales suelen utilizar la práctica habitual de hacer quinientas llamadas telefónicas mensuales para medir las actitudes de los consumidores ante la situación económica. Gracias a la ciencia de datos, los profesionales de BlackRock no necesitan preguntar a nadie.

 ¿Cómo lo hacen entonces? Los científicos de datos recogen las transacciones económicas de Amazon y otros portales, la actividad de los pagos por tarjeta de crédito, las visitas a las webs de las principales marcas y los comentarios de blogueros e influencers.

Por otro lado, utilizan el text mining o análisis de texto. Esta técnica permitió al gobierno de Escocia averiguar que un aumento masivo de tuits con las siglas RBS no avecinaba la quiebra del Royal Bank of Scotland. En cambio, estos mensajes fueron causados por la buena actuación de los Running Backs de los Vikingos de Minnesota, un equipo de fútbol americano.

 Como ves, las preguntas no cambian, cambian las formas de acceder a las respuestas. Se desarrollan técnicas para analizar los patrones emocionales de los consumidores, así como desplazamientos mediante geolocalización.

 Por otro lado, la mayoría de conexiones a internet se realizan mediante dispositivos móviles. De este modo, cada vez que te conectas a la red wifi gratuita de un establecimiento estás autorizando a un tercero para conocer tus desplazamientos internos.

 Esta técnica permitirá averiguar información como en qué tiendas has parado, cuánto tiempo has estado en cada una, en qué días de la semana y en qué horas te desplazas hasta el centro comercial. Por otro lado, incrementos sostenidos en las visitas a estas webs y tiempos crecientes de navegación son proxies claros de incrementos en las ventas.

En cambio, el sector de las aseguradoras es mucho más conservador. En un sector en el que las catástrofes tienen un impacto directo, la gestión del riesgo se presenta como un elemento clave. Esto lleva a implementar el concepto de las reaseguradoras, a las que las aseguradoras ceden parte del riesgo.

Disponer de un modelo que ayude a predecir, por ejemplo, huracanes, no solo permitirá ahorrar mucho dinero, sino además salvar miles de vidas. Condiciones atmosféricas, temperatura del mar, elevación del terreno... son ejemplos de algunas de las variables que se deben tener en cuenta en estos casos.

¿Cuál es entonces la metodología completa de un proyecto de ciencia de datos? Sigamos con el ejemplo de los huracanes. En primer lugar, debemos definir las preguntas que responder: «¿impactarán en zonas pobladas?», «¿cuáles son los riesgos potenciales?».

En segundo lugar, debemos realizar un análisis exploratorio de datos: velocidad del viento, presión atmosférica, temperatura del mar, etc. A continuación, debemos establecer los modelos predictivos, como pueden ser las simulaciones de trayectorias.

 Seguidamente debemos interpretar los resultados. Para ello, utilizaremos escalas de probabilidad, además de escenarios evaluados desde poco probables a casi seguros. Finalmente, debemos decidir cómo comunicar los resultados.

Por otro lado, los avances en la tecnología de captación y análisis de datos pueden contribuir a que se ofrezcan contratos de seguros más justos. La empresa aseguradora española MAPFRE, mediante el uso de dispositivos telemáticos, logró captar información precisa sobre la utilización de los coches.

Existe la creencia de que los varones menores de treinta años están involucrados en más accidentes automovilísticos. Este estudio demostró que tiene más que ver la antigüedad de la licencia que la biología. Dispositivos como los de la empresa Metromile ayudan a las personas a realizar estudios para así no tener que pagar sobreprimas.

En el año 2013 hubo 1,25 millones de personas muertas en accidentes de tráfico, siendo esta la primera causa de mortalidad en la población entre quince y veintinueve años. Mil jóvenes de esa franja de edad mueren a diario. Además, deja heridas a entre 20 y 50 millones de personas cada año.

Se estima que habrá 2175 millones de vehículos autónomos en 2040. Todos ellos estarán conectados a internet, permitiendo investigaciones para reducir la siniestralidad y un enorme volumen de datos adicionales con un enorme potencial para introducir mejoras en el futuro.

Comercio minorista y servicios profesionales

¿Cómo Amazon ha conseguido convertirse en una de las plataformas líderes para la compra de productos online? Entre otras cosas, mediante la implementación de técnicas de aprendizaje automático. La empresa de Jeff Bezos utiliza principalmente las técnicas de análisis de la cesta de la compra.

Con tan solo registrarnos, Amazon ya conoce nuestra edad, sexo, código postal y correo electrónico. Solo con eso ya podría realizar un análisis con las variables anteriores y empezar a hacer recomendaciones basadas en nuestra propensión al consumo. Por ejemplo, Juan tiene veintinueve años y, por lo tanto, la plataforma le recomendará el último libro superventas en desarrollo personal.

En este caso, Juan está buscando artilugios para pescar. Sin embargo, una vez empiece a buscar, el algoritmo no solo le ofrecerá los productos que mejor se adaptan al criterio de búsqueda, también se introducirán elementos de segmentación. Obviamente, no necesita lo mismo un pescador estadounidense que uno japonés. Por ejemplo, el tipo de hilo varía según la pesca.

Tras seleccionar un determinado hilo de pesca, el algoritmo intuye que Juan está interesado en la pesca de trucha. A continuación, la plataforma empieza a ofrecer productos relacionados que otros clientes con objetivos similares han comprado.

El análisis de la cesta de la compra es extremadamente poderoso, ya que escruta miles de tiques de venta y halla similitudes entre ellos. Se utilizan categorías, secciones, subsecciones, etc. En el caso de Juan, estas serían: deportes, pesca, pesca en río y pesca de trucha.

El algoritmo sigue el siguiente razonamiento: «Si un hombre de veintinueve años ha adquirido un hilo de pesca de 0,08 milímetros en Barcelona, lo normal es que también adquiera…»; y así aparecen los artículos recomendados.

Entre esos productos aparece un marco de fotos. Juan puede que se quede estupefacto. ¿Amazon le recomienda otros productos no relacionados para mostrar que son una empresa global? Quizás el hilo de pescar lo utilicen muchos usuarios para colgar cuadros.

El análisis de los patrones de compra puede llevarse al extremo. Los supermercados Target son capaces de examinar los hábitos de sus clientas y determinar la probabilidad de que estén embarazadas para, de este modo, empezar a recomendarles los productos pertinentes.

La propia identificación de las reglas de asociación, acompañada de las enseñanzas de la economía conductual, permite colocar en la misma estantería de los supermercados los productos que tienen más probabilidades de ser comprados juntos. El dato y no la intuición guía las decisiones.

Por su lado, Alibaba utiliza el filtrado colaborativo como uno de los principales algoritmos de recomendación. Permite pasar del «si A compra Z, entonces también querrá Y» al «basándonos en sus preferencias, tenemos la siguiente recomendación para usted».

Mientras el análisis de cestas hace una investigación retrospectiva, el filtrado colaborativo es dinámico y se actualiza «en vivo». Este sistema se basa en la asunción de que las personas con preferencias parecidas harán valoraciones similares.

En el filtrado basado en artículos, existe la idea subyacente de que los usuarios escogerán aquellos artículos similares a los que ya han escogido. El algoritmo se basa en las decisiones tomadas; por lo tanto, cuanta menos información, más difícil será realizar las recomendaciones. Tanto Netflix como AliExpress son especialistas en su aplicación.

El algoritmo de filtrado de mayor crecimiento es el de categoría única o one-class. Este algoritmo también se basa en la actividad del usuario. El tiempo que dedicamos en una página suele darnos información sobre el interés que suscita.

Stitch Fix es una empresa del sector textil que fue adquirida por el grupo canadiense Ssense por su gran base de datos como probador virtual. Sus servidores almacenan información personal, datos antropométricos, preferencias en cuanto a ropa, etc. También disponen de un perfil de estilos, el cual combina múltiples algoritmos para producir la selección más adecuada para el cliente, al igual que Netflix.

Además, tienen las descripciones que el propio usuario ha hecho de sus gustos. El perfil de estilo también tiene en cuenta las fechas de entrega y los destinos, hasta incluso el inventario disponible. Esta empresa utiliza las «cadenas de Markov», basadas en una serie de estados del cliente, como pueden ser: primera compra, segunda, cliente fiel, etc.

A partir de estos estados se establecen una serie de probabilidades que permitan transitar de un estado a otro. De este modo, optimiza los contenidos de la caja para maximizar la satisfacción del cliente. Estas cadenas son esenciales para crear modelos de demanda.

Hasta ahora, estrategias centradas en sus productos, en cómo venderlos, en qué momento, a qué nichos de mercado, a qué precios… en cambio, la transformación digital ha supuesto poner al cliente en el centro de la cadena de valor.

En la actualidad, la demanda está mucho más informada, el cliente es más dueño de sus actos. Un cliente crítico que cree que no ha recibido lo que pedía lo publica en las redes. Desde el momento en el que se conecta a internet, todas las etapas y todas las decisiones se basan en observar, comparar y preguntar.

No se trata simplemente de hacer una landing page atractiva, fotos preciosas, tener publicidad impactante o el precio más bajo posible. Se trata de ofrecer lo que el cliente desea, cuando lo desea y al precio que lo desea. El producto, o el servicio, se construye entonces adaptándolo a las necesidades reales.

Existe otro caso popular de aplicación predictiva: el smart pricing, la fijación de precios. Al reservar una habitación, todo anfitrión suele tratar de comparar su oferta con otras similares para orientarse. Por esta razón, las empresas hoteleras deben conocer las fluctuaciones de la demanda al instante.

Los algoritmos de aprendizaje automático trabajan para conseguir el equilibrio que consigue «vaciar el mercado». Algunos datos fundamentales son la demanda, el histórico de reservas y la evaluación del alojamiento.

Esto nos lleva al concepto de utilidad, el cual nos mueve a pagar cuatro euros por el primer refresco en un caluroso día de playa. No obstante, seguramente nos mostremos reacios a pagar el mismo precio por un segundo refresco.

Este efecto es conocido en economía como la ley de rendimientos marginales decrecientes. Las primeras unidades nos aportan una utilidad mayor que las siguientes. Es la clave de los precios dinámicos de Uber o Cabify, los cuales se incrementan en periodos de alta demanda y/o baja oferta, como la noche.

Esto hace que las empresas deban explotar la propensión del consumidor a pagar por un cierto bien o servicio. En el caso de las compañías aéreas, el usuario encuentra a golpe de clic todos los precios, lo cual provoca que las compañías tengan que introducir una segmentación importante de precios para cada momento, y así lograr el mayor excedente posible.

No podemos olvidar los sectores de auditoría y abogacía, los cuales incorporan actividades particularmente intensivas de lectura, como leer leyes o comprobar cuentas. ¿No crees que sería conveniente automatizar estos procesos? Según la consultora McKinsey, una de cada cuatro tareas desempeñadas por las firmas podría automatizarse.

En lo jurídico, las bases de datos se multiplican cada año. La minería de textos es necesaria. La aplicación de la ciencia de datos no acaba en la lectura, comprensión, clasificación y selección de normas jurídicas y documentos. Va más allá.

Transformar un texto en vector de información, el cual contenga la gramática, sintaxis y giros, además de los términos empleados, puede generar la base para predecir sentencias.

Un algoritmo, mediante la utilización de la base de datos de la Corte Suprema de Estados Unidos, creó un modelo de predicción denominado «random forest». La tasa de éxito de la predicción de sentencia osciló entre un 70,2 y 71,9.

Comunicación corporativa y política

La era digital ha influenciado en que nos comuniquemos de forma diferente en lo profesional y en lo personal. Gracias a las redes sociales, los clientes demandan cada vez más transparencia y pueden demandar los productos que realmente quieran, sin conformarse con lo disponible.

La comunicación es un sector más cercano al sentimiento que al dato. Percibimos y valoramos a través de los relatos que los comunicadores construyen. Pero con la ciencia de datos podemos entender mejor el problema, identificar mejor a nuestra audiencia y dirigir el mensaje adecuado en el momento preciso.

Esto nos llevará a una mejora en la satisfacción de los clientes, a la construcción de relaciones de auténtica confianza, la eliminación de errores habituales en la toma de decisiones y a un mejor entendimiento de la demanda para, de este modo, poder comprender nuevas oportunidades.

Así llegamos a la «hiperindividualización» de la demanda o, lo que es lo mismo, la capacidad de responder a ella de manera individualizada. Podremos llevar a cabo la segmentación en diversos perfiles. La digitalización nos permite integrar la información desde distintas fuentes para luego diseñar un sistema de comunicación institucional dirigido a nuestro público objetivo.

¿Cómo podemos reducir los errores en las campañas de marketing? Realizando las promociones en el momento más adecuado, usando las herramientas correctas, de modo que lleguen al consumidor de la manera más acertada. Solo así podremos consolidar relaciones cercanas y de confianza con los clientes.

Un ejemplo de esto es la app de Starbucks, la cual recopila datos y recomendaciones personalizadas. Determina cuáles son las localizaciones óptimas para abrir nuevas tiendas. Estos datos permiten analizar las reacciones a las comunicaciones para así poder efectuar predicciones más certeras sobre efectos de múltiples campañas.

Los directivos de Starbucks se dieron cuenta de que había muchas quejas acerca del diseño de sus tazas. Por esta razón, lanzaron una campaña de user-generated content o de contenido generado por el usuario. Los usuarios, en este caso, fueron los encargados de crear el diseño de las tazas.

De esta forma, convirtieron una debilidad en una oportunidad. Pudieron averiguar tanto la percepción de la marca como del producto por los clientes. Al haber tantas fuentes de datos, es importante saber aprovecharlas.

Hay que realizar una «hipercontextualización» de la comunicación. Una vez llevada a cabo la «hiperpersonalización e hipersegmentación» de cada usuario, debes averiguar qué quiere, dónde lo quiere, cómo lo quiere y mediante qué dispositivos puedes ponerte en contacto con esa persona.

¿Cómo logró Donald Trump ganar las elecciones a Hillary Clinton contra todo pronóstico? Esto demostró el fracaso de las encuestas tradicionales en períodos de alta incertidumbre y polarización política.

Con una mínima inversión publicitaria, pero una inversión millonaria en big data y ciencia de datos, el equipo de Trump supo dónde dirigir sus esfuerzos para lograr la victoria. Sus victorias en estados como Michigan y Wisconsin fueron clave.

Mediante una base de datos conteniendo doscientos cincuenta millones de perfiles y tecnologías de análisis de texto, el equipo de Trump se fijó en el «Rust belt». El «Rust belt» es una región en el noreste de Estados Unidos que contiene estados como Pennsylvania, Ohio, Illinois o Wisconsin.

Esta región pasó de ser una potencia industrial a verse afectada gravemente por la deslocalización y la aparición de nuevos competidores. El desempleo en el sector de las manufacturas llegó a superar el 58 % entre 1952 y 2002. Por esta razón, el mensaje republicano, el cual hacía hincapié en el proteccionismo y el nacionalismo, resultó muy efectivo en esas zonas.

Los algoritmos son un problema para el establishment o candidatos políticos convencionales, porque no tienen sentimientos. Solo reaccionan a los inputs de quienes los alimentan, y estos no tratan de influir en el elector, sino simplemente vender el producto. Esto es especialmente cierto en los procesos de aprendizaje automático, en los que el algoritmo aprende de su entorno sin intervención de programador alguno.

Ciberseguridad

Se calcula que hoy en día existen alrededor de 20 500 millones de dispositivos conectados a internet, desde equipos de sobremesa y teléfonos inteligentes hasta equipos médicos. En 2025 se espera que este número ascienda hasta los 75 500 millones. Sistemas de alarma, vehículos, electrodomésticos, relojes y pulseras de salud estarán conectados las veinticuatro horas del día.

La huella digital tiene un potencial enorme para mejorar nuestra vida diaria. Un ejemplo pueden ser los seguros de electrodomésticos antifraude, los cuales al estar conectados a la red permiten disponer de datos de su utilización al instante.

Por otro lado, dispondremos del potencial para crear ciudades inteligentes con sensores y cámaras de seguridad, además de sistemas de semáforos que permitirán adaptar los tiempos de espera para agilizar el tráfico.

No obstante, la ultraconectividad conlleva ciertos riesgos. Conocemos como ciberriesgo a todo riesgo relacionado con accesos y acciones con el objetivo de obtener información de empresas o personas a partir de algún tipo de brecha de seguridad.

La conexión masiva de ordenadores a internet ha provocado que las técnicas tradicionales de usurpación de identidad, robo y secuestro se hayan trasladado al ciberespacio. Existen varios tipos de delitos cibernéticos, como pueden ser la cibercriminalidad, los ataques contra la imagen o hacktivismo, el espionaje y el sabotaje.

El cibercrimen tiene como objetivo obtener información personal para explotarla o venderla. Esta información puede consistir en datos bancarios o accesos a sitios mercantiles, entre otros.

Por otro lado, la suplantación de personalidad o phising y el cibersecuestro o ransomware son ejemplos conocidos de actos maliciosos perjudiciales para los usuarios de internet. La suplantación de personalidad consiste en el robo de la identidad de una tercera persona con el fin de obtener información personal para el uso delictivo, como, por ejemplo, los identificadores bancarios.

El ciberdelincuente se suele disfrazar como un tercero de confianza para luego incitarnos a actualizar nuestra información personal, normalmente en un sitio web falsificado, para así obtener identificadores, cuentas bancarias y contraseñas.

El cibersecuestro o ransomware, en cambio, es una técnica en la que se encriptan datos para posteriormente pedir al propietario una cantidad de dinero a cambio de la clave que los descifre.

En el caso de un atentado contra la propia imagen, el delincuente suele decantarse por la filtración de datos personales, manipular el contenido por reivindicaciones políticas, religiosas etc.

En el caso de ataques a empresas, se suele optar por la técnica de denegación de servicio. El atacante busca que un sitio web no esté disponible y, por tanto, no pueda ofrecer el servicio esperado. Los motivos pueden ser desde demandas ideológicas hasta extorsión.

La monitorización de los ataques permite establecer pautas de comportamiento, o al menos intervenir de forma proactiva. Con técnicas de aprendizaje automático se puede aprender a detectar los ataques y establecer pautas de comportamiento adecuadas.

Los virus son programas ejecutables como cualquier otro de los que solemos descargar, solo que su fin es malicioso. La mayoría fallarán en su cometido porque los usuarios habrán establecido cortafuegos que permitirán su inhabilitación antes de infectarnos.

Así, estableciendo un patrón típico de comportamiento de cada usuario y de cada máquina, se podrán detectar las alteraciones mínimas para desencadenar una alarma temprana, dejando el malware sin capacidad de propagarse.

Deportes y salud

El Leicester City, equipo de la Premier League inglesa, deslumbró al mundo del fútbol en la temporada 2015-2016. Pasó de ser un equipo recién ascendido, luchando por no descender, a ganar la competición con un mínimo de presupuesto invertido.

Poca gente sabe que uno de los factores clave del éxito del equipo fue el empleo del análisis de datos, el cual se centró en proteger a los jugadores de las lesiones. Los miembros del cuerpo técnico se dieron cuenta de que la actividad física creciente no ayudaba en absoluto, incrementando los riesgos de lesión cada vez más.

El Leicester City se convirtió en un equipo de fútbol profesional pionero en la monitorización de los tendones para determinar niveles óptimos de carga de entrenamiento, limitando la sobrecarga.

Para ello, utilizaron tablas Nordbord, además de dispositivos GPS OptimEye S5 de Catapult, para monitorizar las distancias recorridas, las velocidades alcanzadas, cambios de ritmo, etc. Como resultado, fue el equipo que más goles metió en contraataques. Fue el equipo con menos lesiones de toda la liga inglesa y el que menos jugadores empleó.

Los Golden State Warriors, equipo de la NBA, la liga estadounidense de baloncesto, introdujo la ciencia de datos en su planificación deportiva. Además de monitorizar las constantes vitales y su situación física, en la temporada 2016-2017 el equipo técnico añadió una escala del 0-10 para determinar cómo se sentía cada jugador.

Se añadió un cuestionario con preguntas como «¿qué tal has dormido hoy?» o «¿cómo te sientes?» para determinar el nivel de estrés del deportista. Los Warriors acabaron la temporada con el menor número de minutos perdidos por lesión. Todos estos avances les llevaron a conquistar cuatro campeonatos en cinco años.

La monitorización de las constantes vitales de las poblaciones de riesgo puede ayudar a salvar vidas. Por ejemplo, el enfermo de diabetes no solo depende de la insulina para sobrevivir, sino también de las cantidades precisas de alimento en los momentos exactos. La situación dista mucho de ser la ideal, no solo física, sino, sobre todo, psicológicamente.

SocialDiabetes se dio cuenta de esta situación y diseñó glucómetros conectados por wifi o bluetooth que permiten saber el nivel de glucosa en sangre en todo momento. Del mismo modo, el sistema puede predecir la evolución de la misma en todo momento, activar las alarmas oportunas e indicar la cantidad de carbohidratos que ingerir en cada comida a través de una base de datos de alimentos.

 La app indica la dosis de insulina que debe inyectarse el paciente. El sistema lleva asociado un modelo de aprendizaje automático que aprende de cada uno de los usuarios. Aparte de los evidentes beneficios para la salud, este tipo de control permitirá a las aseguradoras garantizar que la prima de seguro no sea superior a la de cualquier otro asegurado al no suponer un riesgo mayor.

La ciencia de datos también puede ser clave para el procesamiento de secuencias genéticas. Si bien compartimos el 99 % de nuestro material genético, esa minúscula diferencia podría explicar la propensión a algunas enfermedades.

El genoma humano contiene 3000 millones de bases. Ante miles de millones de datos y casi infinitas combinaciones entre ellos, la combinación de tecnologías big data permite dar esperanzas a mucha gente.

Estas tecnologías permiten investigar las causas del envejecimiento, combatirlas y, con ellas, las enfermedades asociadas a la degeneración celular y prolongar, de ese modo, la vida de las personas.

Ética

Desde los tiempos de Cicerón, san Agustín y la Edad Media, el concepto de «guerra» encierra una paradoja. Podemos considerar la guerra como intrínsecamente perversa y, al mismo tiempo, considerarla necesaria en determinadas ocasiones para preservar la libertad y evitar males mayores a la sociedad.

Por esta razón, el uso de drones militares estaría justificado, pero el consenso actual establece que debe ser siempre un individuo el que tome la decisión de disparo, consciente del valor de una vida y de la posibilidad de errar en la selección del blanco. Sin embargo, los episodios de estrés postraumático que muestran los pilotos de los drones están haciendo cambiar este paradigma.

 Desde el 2017, el Pentágono está inmerso en un proyecto de mejora de sistemas autónomos para que la decisión del disparo sea también del dron. Esta iniciativa se basa en el desarrollo de un algoritmo de aprendizaje profundo con miles de horas de vídeo, millones de imágenes, con el fin de depurar la identificación y clasificación de objetos móviles.

Esto nos lleva a los inevitables dilemas éticos en la toma de decisiones de las máquinas. Tenemos el caso de los coches autónomos, ¿cuándo deben decidir si impactar contra un peatón o evitarlo y poner en peligro la vida del pasajero?

The Moral Machine Experiment en 2018 intentó establecer un código moral universal en esta materia. Cuarenta millones de participantes procedentes de 233 países dieron, como resultado, preferencias tales como salvar antes a personas que a animales y a grupos antes que a individuos.

Por su parte, el CDO club Spain, club de networking para Chief Data Officers, señaló cuatro áreas en las que los retos éticos son en especial importantes: la privacidad, la discriminación, la responsabilidad y la transformación del entorno laboral.

El Test of English for International Communication (TOEIC), el examen oficial para medir la aptitud del individuo en la lengua inglesa, se vio envuelto en una polémica de temas éticos. Se utilizó un algoritmo para comprobar si las sospechas de fraude masivo y sistemático en estas pruebas eran ciertas.

Como resultado, 36 000 visados fueron revocados. Sin embargo, el porcentaje de falsos positivos producidos por el algoritmo ascendía a un 20 %, por lo que 7000 estudiantes fueron expulsados sin haber, necesariamente, cometido fraude en la prueba de idioma.

Del mismo modo, mucha gente se escandalizó al conocer la política inmigratoria en Canadá. La decisión de emitir un pasaporte canadiense se basaba, entre otras cosas, en los rasgos físicos, en los patrones de viaje e incluso en las creencias religiosas del solicitante.

 Como es entendible, estos criterios podían llevar a situaciones discriminatorias y violar los derechos humanos fundamentales de los afectados al incorporar a individuos a grupos comunes y excluirles sin darles la oportunidad de justificarse.

¿Qué podemos hacer al respecto? Podemos comenzar estableciendo los cuatro marcos de actuación ante el problema de la ética: ¿qué se puede hacer con un algoritmo?, ¿cuál es el límite legal?, ¿qué quiere hacer la empresa u organización? y ¿cuál es el límite ético?

Conclusión

Los datos están transformando nuestra sociedad. Estamos inmersos en la cuarta revolución industrial. Si la primera se caracterizó por la transformación de los procesos industriales, la segunda por la separación entre ideólogo y el ejecutor y la tercera por la incorporación del ordenador en los procesos productivos, la cuarta se caracteriza por la transformación del dato en conocimiento.

Nuestra sociedad cuenta con niveles de cualificación profesional como nunca antes habían existido. La tecnología está logrando la democratización de la literatura y la ciencia. Los algoritmos desempeñarán las tareas más repetitivas. La transición a la que nos enfrentamos será compleja, pues seguramente se producirán desórdenes en sectores económicos tradicionales.

El escaso tiempo de transición provocará fricciones sociales. Una vez superado, surgirán profesiones que hoy en día ni siquiera nos planteamos. Dos de cada tres niños que acceden hoy a la escuela primaria se dedicarán a profesiones inexistentes hoy en día. La secuenciación del genoma permite plantearnos la cura del cáncer en términos de plazo, la única duda que queda es cuándo será.

La revolución de los datos y sus efectos en las ciencias de la vida abren la puerta a la muerte de la muerte. En su libro, Cordeiro, un ingeniero venezolano, y su socio, Wood, dan cuenta de los avances científicos en medicina regenerativa, los tratamientos con células madre, la impresión 3D de órganos, etc.

En su libro, Singularity is near, Ray Kurzweil cita al Premio Nobel de Física en 1965, Feynman: «Nada en la biología indica que la muerte sea inevitable. Esto me sugiere que no lo sea en absoluto y que es cuestión de tiempo que los biólogos descubran qué es lo que nos está causando el problema y que esta terrible enfermedad universal sea curada».

Llegado este momento, seremos seres casi inmortales y, al conectar nuestra mente a la de los supercomputadores en la nube, nuestra capacidad de análisis se expandirá de una forma extraordinaria. La aparición del Homo algorithmus se caracterizará por desarrollar su inteligencia fuera de su propio cuerpo, en conexión con la nube.

Fin del resumen

Biografía del autor

Juan Manuel López Zafra

Juan Manuel López Zafra es Doctor en CCEE (Centro Complutense de Enseñanza en Español) y actuario, además de profesor titular de Estadística en el CUNEF (Colegio Universitario de Estudios Financieros). Participa de forma habitual en jornadas, congresos y conferencias de su área de especialidad, la estadística y el análisis de las decisiones. Su pasión por la estadística y por la comprensión del entorno le llevaron a fundar una consultora especializada en big data allá por 2007. Casado y padre de tres hijas, vive en Madrid, aunque se escapa al monte a la menor oportunidad.

Hacer QUIZ

Ficha técnica

Editorial: Deusto

ISBN: 9788423430802

Temáticas: Innovación, desarrollo y cambio Internet y nuevas tecnologías

Comprar el libro

Si has leído el resumen y quieres profundizar más te recomendamos comprar el libro completo, en papel o ebook, haciendo click aquí