TECNOLOGÍA
TECNOLOGÍA

Anthropic destruyó millones de libros físicos para entrenar su inteligencia artificial

La empresa fichó al responsable del proyecto Google Books para cortar, escanear y desechar estos libros. La operación se suma a la descarga previa de más de siete millones de obras pirateadas

Anthropic destruyó millones de libros físicos para entrenar su inteligencia artificial
Actualizado

Entrenar un modelo de inteligencia artificial requiere una enorme cantidad de contenido. Millones y millones de textos que permiten al modelo analizar estadísticamente cómo se estructura el lenguaje y replicarlo. Se usan, a menudo, páginas webs, documentos oficiales, transcripciones de vídeos o comentarios en foros. También libros publicados. Concretamente, libros físicos. Anthropic, de hecho, escaneó millones de ellos para construir su asistente de IA, Claude, y lo hizo destruyendo las copias para ganar velocidad y efectividad.

Lo consiguió con la ayuda de Tom Turvey, que ya había dirigido un proyecto de escaneo de libros en Google, Google Books. A diferencia del proyecto Google Books, que utilizaba un proceso patentado y no destructivo para escanear esos libros, Anthropic destruía la encuadernación de los ejemplares para poder escanear de forma automática y a más velocidad el contenido de las páginas. Después, reciclaba el papel en el que estaban impresos.

Contratado en febrero de 2024, la misión de Turvey era obtener "todos los libros del mundo" para poder escanearlos y aunque no está claro si logró esa meta, documentos judiciales hechos públicos esta semana dan una idea de la enorme escala del proyecto. En varios almacenes, Anthropic acumulaba cientos de miles de ejemplares comprados al por mayor en librerías de segunda mano y bibliotecas.

Datos de calidad

Para entender por qué querría escanear estos millones de libros, hay que considerar que la calidad de los datos en el entrenamiento de un modelo de lenguaje impacta directamente en las capacidades de una inteligencia artificial. Los modelos entrenados con libros y artículos bien editados tienden a producir respuestas más coherentes y precisas que los entrenados con texto de menor calidad, como pueden ser comentarios aleatorios de YouTube o redes sociales.

Las editoriales controlan ese contenido de calidad que las empresas de IA necesitan desesperadamente pero no siempre están dispuestas a licenciarlo. Hay, no obstante, un atajo. En EE.UU. (y gracias al precedente sentado por Google Books) se considera que una vez que compras un libro físico, puedes hacer lo que quieras con esa copia, incluyendo digitalizarla para uso propio.

Compra masiva

Como muchas empresas de IA antes que ella, Anthropic inicialmente eligió un camino más rápido y fácil. Según los documentos judiciales, el CEO Dario Amodei abogó por usar libros electrónicos pirateados para evitar lo que denominó "el tedioso proceso legal/práctico/empresarial" de las negociaciones de licencias con las diferentes editoriales.

A principios de 2021, el cofundador Ben Mann descargó Books3, una biblioteca online de 196.640 libros que sabía que había sido ensamblada a partir de copias no autorizadas de obras protegidas por derechos de autor. Mann descargó también cinco millones de copias de libros del repositorio conocido como Library Genesis (LibGen), que también sabía que habían sido pirateados. En julio de 2022, Anthropic descargó además dos millones de copias adicionales del repositorio Pirate Library Mirror (PiLiMi).

En 2024, conforme el debate sobre el uso de contenido protegido con derechos de autor en el entrenamiento de modelos de lenguaje ganaba fuerza, la empresa comenzó a estudiar el plan alternativo de hacerse con una copia física de esos libros y escanearlos.

Con la llegada de Turvey, la empresa envió correos a grandes distribuidores de libros para compras masiva de ejemplares impresos. El proceso era sistemático. Los empleados arrancaban los libros de sus encuadernaciones, cortaban las páginas al tamaño adecuado y las escaneaban en formato digital, descartando los originales de papel. Cada libro impreso terminaba convertido en un PDF que contenía imágenes de las páginas escaneadas, con texto legible por máquinas.

Aunque la mayoría de libros publicados hoy en día está disponible también digitalmente, estos libros electrónicos suelen tener licencias de uso que impiden este tipo de extracción de datos, de ahí la importancia de usar copias físicas.

El proyecto se ha podido conocer gracias a los documentos del caso que enfrentaba a Anthropic con tres autores estadounidenses por usar sin permiso sus obras para entrenar sus modelos de lenguaje. Aunque el juez del caso, William Alsup, dictaminó que esta operación de escaneo destructivo representaba un uso justo (porque Anthropic había comprado legalmente los libros primero y destruido cada copia impresa después de escanearla), también señaló que Anthropic no tenía derecho a usar copias pirateadas de libros inicialmente.

La empresa, finalmente, acordó pagar 1.500 millones de dólares para resolver esta demanda colectiva, el mayor acuerdo por derechos de autor en la historia de Estados Unidos, cubriendo aproximadamente los derechos de 500.000 libros a razón de unos 3.000 dólares por obra.