Borges y los LLMs
O como Ficciones y un paper de Anthropic me dejaron pensando muchas horas
Por qué Borges
Hace algunos meses empecé a dictar clases en una universidad (Gestión en Software es el curso) y en una clase, de la nada, se me ocurrió, por alguna razón, hacer una referencia al cuento “Las 3 versiones de Judas“, de Borges. Desde ese dÃa, como si fuera el Zahir, la idea de conectar a Borges con las clases que estoy dictando empezó a dar vueltas por mi cabeza.
Anthropic
Hace poco, me crucé en la internet con eso: A small number of samples can poison LLMs of any size. Al leerlo, me quedé con una idea importante:
[…] anyone can create online content that might eventually end up in a model’s training data. This comes with a risk: malicious actors can inject specific text into these posts to make a model learn undesirable or dangerous behaviors, in a process known as poisoning
Esto es interesante porque, presuntamente, los LLMs están siendo entrenados con información pública de diversas fuentes como github o reddit. Lo interesante de estas fuentes, es que el contenido gana reputación en base a estrellas o upvotes que son entregados por la misma comunidad. En ese sentido, un repositorio de github o algún post en reddit empiezan a ganar más notoriedad o reputación si es que son apoyados por su comunidad, pues en teorÃa, estas mismas comunidades se automoderan.
Otra idea interesante del mismo artÃculo es la siguiente:
If attackers only need to inject a fixed, small number of documents rather than a percentage of training data, poisoning attacks may be more feasible than previously believed. Creating 250 malicious documents is trivial compared to creating millions, making this vulnerability far more accessible to potential attackers.
Esto nos da entender que no es necesario crear cantidades enormes de contenido en github o reddit por ejemplo, si es que queremos envenenar a los LLMs, sino que solo bastarÃa un pequeño número de documentos (Anthropic dixit) para poder impactar de forma negativa a los LLMs.
Tlön, Uqbar, Orbis Tertius
En este cuento de Borges, la trama gira entorno a una referencia que en una conversación se hace sobre un lugar llamado Uqbar. Esta mención, los hace ir a un hoyo de conejo sobre esto: encuentran una versión de una reconocida enciclopedia con algunas hojas sobre este lugar, luego encuentran un tomo completo sobre la misma enciclopedia y al final la colección completa. Lo llamativo de este cuento es que Uqbar no existe, es todo una conspiración de un grupo de personas que tenÃan la idea de crear este mundo fantástico extraordinariamente coherente, durante muchas décadas, con la idea que pueda ser considera real.
El zahir
Para mÃ, al momento de relacionar estas dos ideas, el artÃculo de Anthropic y el cuento de Borges, empezó a rondar por mi cabeza, que ocurrÃa si un grupo de personas, con la suficiente dedicación, empezaran a crear conocimiento coherente, pero a su vez, esto no sea real. ¿Los LLMs los tomarÃan como ciertos? ¿Y las personas que los usan, también los estarÃan tomando como ciertos?
Estas ideas, me llevan a pensar qué es lo que consideramos como real. Muchas veces consideramos real como algo que está escrito en libros y tiene una gran reputación. Pero en esta época, la reputación se construye en base a likes o estrellas. Claro, para nosotros, las personas, con la suficiente dedicación, es posible que podamos darnos cuenta que algo es falso o imaginario, pero qué pasa con los LLMs que están siendo entrenados con el contenido disponible en la internet, ¿EstarÃan considerando todo como real? ¿Y si en algún momento, las personas empezaramos a confiar ciegamente en lo que nos dicen los LLMs? ¿Eso querrÃa decir que, como el cuento de Borges, con suficiente dedicación y coherencia, podrÃamos terminar reescribiendo la realidad?
Bueno, esto ha sido todo. Es mi primer post en la vida y no se me ocurrió otra forma con qué cerrar.
