Un algoritmo de inteligencia artificial desarrollado por una investigadora de Meta intentará reducir la brecha de género en los artículos de Wikipedia. Angela Fan, experta en IA, creó un modelo capaz de generar biografías de mujeres basándose en información de la web y redactándolas en el formato de enciclopedia.
Utilizando inteligencia artificial, el modelo busca información relevante sobre la persona en internet, construye una biografía e integra un sistema de citas que enlaza a las fuentes. De acuerdo con Fan, el sistema es una respuesta a la falta de representación en Wikipedia.
Del total de biografías que se encuentran en la enciclopedia, apenas una quinta parte corresponde a mujeres. Un informe de Wikimedia dejó en evidencia que el 15% de los editores son mujeres, y que hombres blancos de Europa y Norteamérica constituyen la mayoría de Wikimedians.
Esto es importante, puesto que influye en la publicación de biografías y otros artículos de Wikipedia.
¿Cómo se escribe una biografía de Wikipedia usando inteligencia artificial?
Proceso de WikiSum para crear una biografía de Wikipedia. Imagen: Meta
El algoritmo captura información relevante sobre la persona, escribe el párrafo e integra las citas para enlazar a la fuente. El modelo se basa en la estructura de una biografía en Wikipedia (Primeros años, Educación, Carrera, Reconocimientos, etc.) y reproduce cada apartado.
La información se obtiene del contenido presente en los primeros 10 resultados de Google. Según la investigadora, la generación del texto por sección utiliza un mecanismo de almacenamiento en caché similar a Transformer-XL, un modelo de aprendizaje automático que permite la comprensión del lenguaje natural más allá de un contexto de longitud fija.
El modelo no es la solución definitiva para reducir la brecha de género, ya que tiene sus limitantes. De acuerdo con Fan, al evaluar su funcionamiento descubrieron que el 68 por ciento del texto generado en la biografía no se encontraba en el texto de referencia.
Ejemplo de una biografía creada con WikiSum. El texto en naranja es una "alucinación" y no puede ser verificado. Imagen: Meta.
Tras revisar el contenido descubrieron que muchas oraciones eran parcialmente verificables, mientras que otras — consideradas "alucinaciones" — no pueden verificarse en su totalidad.
Un modelo de código abierto para reducir la brecha de género
El conjunto de datos es de código abierto e incluye 1.527 biografías distribuidas por región e intereses. El modelo representa un punto de partida para que creadores y verificadores publiquen más biografías de mujeres en la enciclopedia.
Algo que vale la pena mencionar es que el algoritmo no solo se enfrenta a una falta de representación, sino también a la ausencia de contenido sobre mujeres importantes en la web. Según la investigadora, los artículos actuales no tienen suficiente información, o priorizan su vida personal antes que sus logros.
Si no se modifica este patrón al escribir el artículo original, el algoritmo aprenderá y replicará esta mala práctica.