El Gobierno negocia una compensación a los autores por usar sus obras para entrenar a Alia, la IA española | Tecnología

El Gobierno está estudiando fórmulas para compensar a los editores y creadores de contenidos por el uso de sus obras para entrenar el modelo soberano de inteligencia artificial (IA), bautizado como Alia. La herramienta se lanzó en enero sin haber acordado retribución alguna a los autores de los documentos utilizados y habiendo tomado parte de los fondos de repositorios online que recopilan libros sin permisos. La intención del Ejecutivo es corregir cuanto antes esa anomalía, y mantiene negociaciones con los editores a la vez que explora las soluciones adoptadas por otros países europeos que también hayan puesto en marcha sus propios sistemas soberanos de IA.

Según ha podido saber EL PAÍS, el Ministerio de Transformación Digital y de la Función Pública, que lidera el desarrollo de la familia de modelos Alia, se está reuniendo con representantes de sus homólogos noruegos y neerlandeses, que han adoptado aproximaciones distintas para retribuir a los creadores de contenidos. La idea es tomarlos como referencia para elaborar una propuesta propia que presentar a los editores y que, al estar funcionando en otros lugares, se vea como viable.

Noruega ha optado por un sistema de licencias, en el que está acordando pagos anuales a cambio de poder usar fondos en su modelo público de IA. En septiembre, el gobierno noruego anunció que dedicará 45 millones de coronas (unos cuatro millones de euros) anuales a pagar derechos de autor a los editores de prensa nacional para poder usar sus artículos. Se prevé que próximamente cierren acuerdos similares con editores de libros y otros creadores.

En Países Bajos, donde ya está operativo el modelo soberano GPT-NL, se está apostando por otro método. El gobierno neerlandés y los editores están negociando un sistema de participación en los ingresos (revenue share): en vez de un pago fijo anual, se retribuirá en función de la comercialización del modelo. La cantidad, según fuentes conocedoras de esas conversaciones, se calculará con técnicas de minado de datos para buscar la representatividad de los contenidos en cuestión en el modelo. Se pagará los usos comerciales y no comerciales (el de la Administración), excluyendo solo el puramente académico. Para calcular la factura que deberá abonar la Administración, se cuantificará el ahorro que suponga el uso de la herramienta de IA (las horas de trabajo que eliminará) y se aplicará sobre esa base el porcentaje acordado.

Fuentes del Ministerio de Transformación Digital ven factible poder llegar a un acuerdo con los editores y destacan que el Gobierno tiene voluntad de pactar una solución. En Cedro, la patronal de editores, confían también en que se puedan aproximar posiciones, aunque reconocen que, hasta ahora, la distancia es amplia. “Hace año y medio, con el anterior ministro [José Luis Escribá], se nos llegó a plantear un pago único de dos millones de euros. Lo rechazamos, porque hubiéramos sentado precedente de cara a las grandes tecnológicas que también usan los fondos de nuestros autores”, explica Jorge Corrales, director general de Cedro.

La patronal de editores reclamó también a Common Crawl, un repositorio en el que se vuelcan todas las obras existentes en internet sin pagar licencias, que retirara de su catálogo los documentos de autores adscritos a Cedro. La plataforma accedió. Common Crawl, una organización sin ánimo de lucro que desde 2007 ha almacenado 300.000 millones de páginas web con el objetivo de hacer accesible la información online a los investigadores, es muy usada por los gigantes tecnológicos para alimentar las bases de datos de sus grandes modelos de lenguaje.

A esa plataforma recurrió también el Gobierno para entrenar el modelo Alia, acogiéndose a una excepción de la normativa europea.

El modelo español de IA soberana

Disponible desde enero de este año, Alia es un proyecto abierto, por lo que puede ser descargado por particulares o empresas que quieran usarlo como base sobre la cual construir su propia herramienta de IA generativa. El desarrollo de este modelo, que ha costado unos 10 millones de euros, se justifica precisamente en los documentos utilizados en la llamada fase de entrenamiento, la que otorga al modelo las referencias sobre las que trabajará. Los fondos en castellano, catalán, gallego, valenciano y vasco representan un 20% del total, una proporción que puede parecer baja, pero que es muy superior a la de las herramientas más usadas, como ChatGPT o Gemini. Con eso se intenta que el modelo se equivoque menos con las frases hechas y se adapte mejor al contexto español.

El Ministerio de Transformación Digital y de la Función Pública y la Secretaría de Estado de Digitalización e IA insisten desde antes de su lanzamiento en que el modelo se ha entrenado con documentación pública oficial: desde el histórico de los boletines del BOE, de los de las comunidades autónomas o del Registro Mercantil hasta las intervenciones parlamentarias o resoluciones judiciales. A esos recursos hay que añadir, según figura en la propia web de Alia, el citado repositorio Common Crawl.

​​Los llamados grandes modelos de lenguaje (LLM, por sus siglas inglesas) aplican algoritmos sobre ingentes bases de datos de texto para extraer patrones y a partir de los cuales poder elaborar contenidos siguiendo las instrucciones, o prompts, de los usuarios.

La cantidad de datos necesarios para que ese proceso de entrenamiento dé resultados aceptables es enorme. Se estima que las últimas versiones de ChatGPT han usado prácticamente todo internet. En muchos casos, sin permiso, lo que desde 2022 ha propiciado en EE UU una cascada de demandas colectivas de creadores contra los gigantes de la IA por haber usado su obra sin pagar derechos de autor.

En septiembre, Anthropic, la empresa desarrolladora del chatbot Claude, llegó a un acuerdo extrajudicial histórico con un grupo de escritores a quienes pagará al menos 1.500 millones de dólares para evitar tener que dirimir en los tribunales una demanda por haber entrenado sus modelos con libros de los demandantes conseguidos sin abonar derechos de autor. Nunca antes un gigante de la IA había evitado ir a juicio en un caso de copyright. Que Anthropic lo haya hecho dice mucho sobre el riesgo que vieron sus abogados de perder el pleito.

Ver fuente

Farándula y Moda

Entrada siguiente

Quiet, la vajilla silenciosa que aspira a crear comedores menos estresantes | Gastronomía: recetas, restaurantes y bebidas

Mié Oct 22 , 2025
Comparte en tus redes sociales En el comedor escolar del colegio Louise Weiss, en la ciudad francesa de Roanne, la hora del almuerzo suena diferente. Suenan las voces de los niños, claro, pero un ruido tradicional ha desaparecido. Aquí los platos no chocan, apenas resbalan, y los empleados de cocina […]

Puede que te guste