Baeza-Yates: "El diseño de algoritmos posee una gran carga ética"

Como 4.000 millones de personas, usas internet todos los días y, a estas alturas, seguro que no te imaginas la vida sin la red. Pero ¿qué sabes de eso que interviene tus días y tus decisiones? ¿Eres consciente de los sesgos de la información? ¿En qué consiste la búsqueda semántica? ¿Tienen ética los algoritmos? ¿La necesitan? El científico computacional Ricardo Baeza-Yates ofrece alguna claves para responder a estas cuestiones.

Por Patricia Luna/SINC

Ricardo Baeza-Yates (Santiago de Chile, 1961) se pasa la vida rastreando la web y rastreando en la web. Como casi todos, se podría decir, pero no sería cierto, porque él conoce sus secretos como nadie. Científico computacional, Baeza Yates fue director de investigación de Yahoo y en la actualidad es director de tecnología de NTENT, una de las empresas de Estados Unidos que lidera el desarrollo de búsqueda semántica inteligente. ¿Semántica inteligente? Un momento, ahí empezamos a necesitar información más detallada: la que el propio Baeza-Yates le dio a Agencia Sinc.

De charla con el buscador

La llamada búsqueda semántica inteligente es aquella que permitirá que los buscadores sean capaces de inferir relaciones y responder preguntas, un primer paso de lo que podría ser una conversación inteligente con un buscador. En NTENT, por ejemplo, se usa el aprendizaje de las máquinas para predecir la intención de los usuarios, a partir de una serie de complejas tecnologías y plataformas en tres idiomas: inglés, ruso y turco. “Lo que hacemos –agrega Baeza-Yates– permite buscar entendiendo el idioma de la persona y su contexto, por ejemplo, la ciudad donde está y lo que ha hecho antes. Esto permite dar respuestas mucho más aproximadas a lo que se está buscando”.

La diferencia entre un buscador tradicional (o léxico) y uno semántico es que el primero usa palabras para dirigir las preguntas del usuario a los documentos relevantes; el semántico emplea conceptos. Es decir, el buscador no solo reconoce palabras, sino que también entiende lo que significan y cómo se relacionan con otras en un documento. Es un proceso mucho más sofisticado y con un punto filosófico: «En términos tecnológicos significa que hay que usar una ontología, que los grandes buscadores también usan, pero en que en nuestro caso es vital; es una ontología que entiende conceptos y relaciones entre estos, y hacerlo en más de un idioma. Usamos aprendizaje automático, machine learning, para entender el contexto y mejorar el orden de resultados”, explica el científico.

La búsqueda semántica posee un punto filosófico: no solo reconoce palabras, sino conceptos, y además sabe relacionarlos

Entre las aplicaciones futuras de la búsqueda semántica, apunta a la “búsqueda vertical, es decir, la que se hace en un ámbito donde las personas pueden expresarse en lenguaje natural y preguntar en voz alta. Por ejemplo, podrías entrar en tu casa y preguntar si ha venido alguien mientras no estabas y el sistema te contestará sí o no. En realidad, tiene aplicaciones en cualquier situación donde en lugar de una persona puedas tener un agente inteligente”. Y prosigue: «Con el internet de las cosas esto va a ser más importante. Imagina la cantidad de sensores que vas a tener; uno no puede estar comunicándose con cada sensor, necesitaremos un mediador entre las personas y los sensores que están conectados a su vida. Esta tecnología podría cumplir ese rol, podría mediar con todos los sensores que están conectados a ti de alguna manera, los de tu móvil, los de tu casa y los de tu coche”, aventura.

¿Tienen ética los algoritmos?

Otro de los focos de atención de Baeza-Yates son los sesgos que pueden afectar a la información. Los hay de todo tipo –según explica a la Agencia Sinc–: geográficos (en países centralizados siempre hay más información de la capital que del resto del país); lingüísticos (la mitad de la información de la web está en inglés, aunque la mitad del mundo no habla esta lengua); de género (hay muchas menos biografías femeninas que masculinas en Wikipedia). Y también educacionales o económicos… “Un tema que me preocupa es que la gente usa datos suponiendo que están completos y son fiables sin siquiera verlos, y muchas veces eso no es cierto. Si uno tiene conciencia del sesgo en la información, la puede analizar de forma correcta”, subraya.

Sin embargo, agrega, “hay sesgos que son incluso más complicados, que tienen que ver con el mundo de las recomendaciones, similares a las que usa Amazon, porque la recomendación que hace el algoritmo afecta a tus decisiones futuras. Es decir, que vas a escoger una de las tres opciones que te doy a elegir y ninguna de las que no te presento. Son los llamados sesgos algorítmicos, que, de manera similar a cuando hacemos predicciones, pueden llevarnos a una especie de autoengaño. Si no tienes cuidado, el algoritmo puede sesgar tu opinión, y a su vez esa opinión tuya afecta la opinión del algoritmo”, señala.

«La recomendación que hace el algoritmo afecta a tus decisiones futuras», señala Ricardo Baeza-Yates

Es aquí donde surge el trabajo ético de los diseñadores de algoritmos, que han de tener en cuenta este efecto para hacer algo al respecto. ¿Tienen entonces ética los algoritmos, o, en su defecto, es importante que la tengan aquellos que los diseñan? “Si la persona que escribe el algoritmo es consciente de sus sesgos lo puede hacer equitativo, introducir un equilibrio”, apunta. “Por supuesto, hay mucha carga ética de la que muchos programadores no son conscientes”.

El algoritmo nuestro de cada día

«La búsqueda del algoritmo. Imaginación en la era de la informática», de Ed Finn y publicado por Alpha Decay.

Aunque no lo parezca, este libro que lleva a su título los algoritmos es un libro sobre vida cotidiana. Como explica su autor, Ed Finn, “los algoritmos están por todas partes. A día de hoy ya dominan los mercados de valores, la composición musical, la conducción de coches y la redacción de noticias, y son artífices de extensas pruebas matemáticas; además, sus poderes para la autoría creativa solo están empezando a cobrar forma”. En ese hecho se fija muy especialmente La búsqueda del algoritmo. Imaginación en la era informática, de Alpha Decay. Desde que el devenir cotidiano depende, en gran medida, de internet, los algoritmos se han convertido en el protocolo invisible que transporta la información que nos ayuda a tomar decisiones; son la sangre de la red. Son también los dueños invisibles de nuestras decisiones, seamos conscientes de ello o no, y ponen a prueba conceptos clásicos de la filosofía como aquel del libre albedrío. Los algoritmos determinan qué contenidos muestran las redes sociales, las recomendaciones de las tiendas online, y, a través de procesos matemáticos, pueden terminar de moldear nuestros gustos y opiniones. Lo importante en todo caso es saber que existen y, a ser posible, conocer algo de su función.

No hay un monopolio… todavía

Eso por lo que respecta a los profesionales de la programación, pero por lo que respecta a quienes no son/somos expertos tampoco vienen mal unas gotitas de consciencia, un minuto de reflexión sobre el mundo nuevo que es y que abre internet: «La web es el conjunto público de datos más importante de la historia que hemos creado entre todos. Tenemos que ser conscientes de en manos de quién está esa información. El control lo tienen los gobiernos, las compañías de teléfono, los proveedores de internet, los bancos y nuestras redes sociales. El poder de los datos está distribuido en la red y todavía no hay un monopolio, pero esto podría cambiar en un futuro cercano, en el que el internet de las cosas transformará de manera drástica el mundo en que vivimos”.

«La web es el conjunto público de datos más importante de la historia que hemos creado entre todos. Tenemos que ser conscientes de en manos de quién está esa información», defiende Baeza-Yates

Comenta que ahora “muchas personas van a la web a buscar información, pero son pocas las que la aportan. El porcentaje de gente activa en internet es muy pequeño, alrededor de un 5 %. Sin embargo, con el internet de las cosas todo estará conectado, ya que habrá cientos de sensores enviando señales. Será por lo menos dos órdenes de magnitud mayor de lo que tenemos, lo que supondrá un gran problema para filtrar los datos o procesarlos en tiempo real”.

El auge de la ciencia de datos en Barcelona

Muchos de los temas más difíciles de resolver, en idiomas no tan populares como el inglés, los lleva adelante un grupo de I+D, de investigación y transferencia tecnológica que la compañía tiene en Barcelona y que dirige el propio Baeza-Yates. “Fuera de Estados Unidos podemos encontrar expertos en lingüística computacional en idiomas que no son tan frecuentes como el inglés, como el turco. Actualmente, es más fácil encontrar talento fuera, porque la competencia es menor y además Silicon Valley debe de ser ahora el lugar más caro para contratar”, explica. Asimismo, destaca que “en los últimos dos años el número de empresas emergentes en Barcelona ha aumentado muchísimo y es un buen lugar para hacer ciencia de datos. Se está convirtiendo en uno de los centros neurálgicos de Europa en estos temas, después de Londres y Berlín”, destaca.