La Internet ha modificado nuestra forma de vivir en los últimos 30 años. En particular, Wikipedia, la enciclopedia libre, que ahora es una de las fuentes primarias de información, ha permitido que quienes tenemos acceso a la Internet, al mismo tiempo, tengamos a la mano información de calidad sobre infinidad de tópicos. Es interesante que tanto Wikipedia como otras fuentes de información libre en la Internet hayan sido la información que entrenó a los principales grandes modelos de lenguaje (LLM) que hoy son los ejemplos de inteligencia artificial (IA) con los que interaccionamos. Tanto ChatGPT como Bard son ejemplos de estas aplicaciones con las que cada vez interaccionamos más frecuentemente.
Hace unos días llamó mi atención un artículo en los axiv.org [1], un depósito de artículos científicos de acceso libre (que también se utilizó para entrenar a estos modelos de inteligencia artificial de texto a texto) que abordó la cuestión de sí los LLM amenazan a estas fuentes de información libre que pueden ser considerados como bienes públicos de información.
Para comprender a profundidad la pregunta, déjenme abundar el punto. Recordemos que en los inicios de Google, el buscador más usado en la Internet, cuando escribíamos unas palabras o hacíamos una pregunta nos ofrecía una serie de ligas donde posiblemente encontrábamos la información que buscábamos, es decir, teníamos que ir a consultar la información y decidir si era útil y confiable. Hoy en día al hacer la misma pregunta a algún buscador recibimos un breve texto con la posible respuesta y algunas ligas adicionales. Es decir, ya tienen instrumentada algunos algoritmos de IA que seleccionan la respuesta, facilitándonos el trabajo a costo de un posible sesgo. De manera similar, cuando hacemos la misma pregunta a un modelo LLM como ChatGPT o Bard ahora recibimos como respuesta un texto estructurado como si estuviéramos en una conversación y, por supuesto, que el texto tiene el sesgo de la información con la que ha sido entrenada la aplicación. Así el texto que nos entrega la aplicación de IA es el resultado de un filtraje, de alguna forma, de la información. Aquí debo enfatizar que en cambio las fuentes tradicionales (Wikipedia, por ejemplo) tienen reglas que pretenden evitar los filtros o sesgos mediante moderación de la comunidad en la información que proporcionan. Así, que al utilizar las aplicaciones de IA, estamos recibiendo información con sesgo que no ha sido moderada o valorada por alguna comunidad humana.
Cuando escribo valoración me refiero en específico a otro tipo de depósitos de información, por ejemplo Stack Overflow (SO) que es uno de los principales sitios en la web donde se plantean preguntas y se interacciona con otras personas que dan respuestas en tópicos de programación computacional. Este sitio fue creado en 2008 por Jeff Atwood y Joel Spolsky. La comunidad que se ha conformado en SO es muy activa y ahí podemos encontrar preguntas y sus respuestas a una amplia gama de problemas computacionales desde muy básicos hasta complejos en el diseño e implementación de algoritmos. En este sitio, las diferentes respuestas son valoradas por la comunidad indicando el nivel de utilidad que se encuentra en la respuesta. De esta manera, la propia comunidad retroalimenta y modera las respuestas.
Es precisamente este sitio de interacción entre personas que programan donde el artículo que les mencioné [1] enfoca su estudio y con ello pretende responder a la sencilla pregunta: ¿los modelos de LLM pueden sustituir o rivalizar con los depósitos de información libres?, es decir ¿ChatGPT o Bard pueden sustituir a Wikipedia o a Stack Overflow?
Antes de comentar los hallazgos del artículo, quisiera compartirles lo que me respondieron estas dos plataformas a la pregunta: ¿ChatGPT (Bard) puede sustituir a Stack Overflow? Primero, quiero decir que ambas aplicaciones respondieron correctamente al preguntarles si sabían que era SO, segundo, con base en mi experiencia, las habilidades de ayuda para las personas que codifican en diferentes lenguajes de programación que tiene ChatGPT son muy buenas, en cambio, Bard todavía es elemental en este aspecto. Sus respuestas fueron: ChatGPT, “No, ChatGPT no puede sustituir completamente a Stack Overflow. Aunque ambos son recursos útiles para obtener información y respuestas, tienen propósitos y enfoques diferentes... Además, el sistema de votación y revisión de respuestas en Stack Overflow asegura que las respuestas más útiles y confiables sean destacadas.” Bard respondió: “No creo que Bard pueda reemplazar a Stack Overflow. Stack Overflow es una comunidad en línea de programadores que ayudan a otros programadores a resolver problemas... Bard no tiene la misma experiencia o conocimiento que los miembros de Stack Overflow. Además, Bard no es capaz de participar en la misma forma de diálogo y colaboración que los miembros de Stack Overflow.” Ambos modelos de lenguaje dan respuestas que apuntan hacia un mismo sentido, la interacción entre personas expertas es una de las características esenciales de SO; aunque la información con la que han sido entrenados les permite brindar información útil.
Al regresar a comentar los reveladores resultados del artículo [1], podemos destacar que al estudiar los cambios en la actividad de SO después de la aparición de ChatGPT se observa una disminución del 16 % en el número de preguntas y esta disminución es más grande para los lenguajes de programación más usados. Un aspecto interesante a resaltar del estudio es que observa que la distribución de las calificaciones de las respuestas es muy similar antes y después de la aparición de ChatGPT. Esta situación indica que SO sigue siendo un muy buen lugar para postear las preguntas y respuestas de calidad y que las preguntas sencillas o repetitivas son capturadas por ChatGPT. El artículo enfatiza que los valiosos bienes públicos digitales pueden ser subutilizados como resultado de la proliferación de la IA, disminuyendo su influencia. Desde mi perspectiva, lanza importantes retos para las comunidades: cómo podemos incentivar la creación de dichos bienes moderados y valorados por las propias comunidades en aras de una web abierta sostenible y un ecosistema de IA que se base en sus datos, cómo mantener a las personas intercambiando información y conocimientos en línea evitando sesgos.
Les invito a leer el artículo y a reflexionar sobre los cambios que estamos observando con el uso de la IA.
[1] https://arxiv.org/abs/2307.07367
[2] https://stackoverflow.com/