Análisis y Opiniones

El enigma de los derechos de autor de OpenAI enfrenta el precedente de uso legítimo con un obstáculo “imposible”

No es robar si es innovar.

Ésa es una forma espinosa de describir la posición de las empresas de inteligencia artificial que dependen de las obras protegidas por derechos de autor de Internet para inspirar sus modelos.

Esta semana, OpenAI, la compañía detrás del chatbot de IA ChatGPT, que está cambiando la cultura , explicó su argumento público para repensar la propiedad intelectual en la era de la IA.

En respuesta a la demanda por infracción de derechos de autor del New York Times contra Microsoft y Microsoft ( MSFT ), OpenAI buscó aclarar su negocio y sus motivos, escribiendo en una publicación de blog: “Entrenar modelos de IA utilizando materiales de Internet disponibles públicamente es un uso justo, como lo respalda “Tiene precedentes de larga data y ampliamente aceptados. Consideramos que este principio es justo para los creadores, necesario para los innovadores y fundamental para la competitividad de Estados Unidos”.

En una comunicación en respuesta a una consulta del Parlamento del Reino Unido a finales del año pasado, la compañía escribió: “Dado que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana -incluyendo publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales- sería “Sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor”.

Lo que hace que los argumentos de OpenAI sean interesantes y trascendentales es la novedad del debate.

No está claro hasta qué punto las leyes de derechos de autor existentes se refieren a la IA y al proceso de ingesta de material existente para entrenar modelos poderosos que apuntan a generar y capturar nuevos tipos de valor.

Pero en un movimiento de la industria tecnológica que ahora parece familiar, las empresas de IA están actuando como si su interpretación permisiva de la ley fuera el modo natural de participación y como si las restricciones no se les aplicaran hasta que se demuestre que están equivocadas.

La maniobra se asemeja a la de las empresas de redes sociales que eluden la rendición de cuentas de las responsabilidades reales de moderación mientras cosechan los frutos de publicar contenido de otras personas. También recuerda los primeros días de los viajes compartidos y la economía de los conciertos, cuando las aplicaciones populares se apresuraban a reclamar cuota de mercado mientras operaban en un vacío legal .

Y dado que ambas industrias siguen prosperando mientras la ley sigue sin resolverse, las empresas de IA deben preguntarse: ¿Por qué andar con cuidado cuando la inevitabilidad está de su lado?

Para calmar las preocupaciones sobre infracciones, OpenAI está intensificando sus esfuerzos para asociarse con más editores. CNN, Fox Corp. y Time se encuentran entre los medios que actualmente están en conversaciones con la compañía de inteligencia artificial para compartir el acceso a su contenido, informó Bloomberg el jueves.

Pero un modelo de concesión de licencias introduce una serie de obstáculos además de costos potencialmente onerosos.

Sasha Luccioni, científica investigadora de Hugging Face, una startup de inteligencia artificial, dijo que imponer un nuevo paradigma a las empresas de IA requeriría una revisión masiva en la forma en que los tecnólogos entrenan e implementan sus modelos.

Hasta ahora, las empresas de inteligencia artificial han tomado en gran medida el camino de aspirar Internet para entrenar grandes modelos de lenguaje, o LLM, sin pensar demasiado en los derechos de autor, el filtrado y las licencias. Reorientar ese proceso en torno a una curación, consentimiento y divulgación meticulosas es esencialmente incompatible con el proceso existente.

Luccioni dijo que adoptar un enfoque más cuidadoso no es imposible, pero sería una tarea enorme. “Básicamente, sería volver a la mesa de dibujo para los LLM”, dijo.

Si los LLM generalmente funcionan con cantidades masivas de datos de dudosa procedencia, un nuevo camino obligaría a las empresas a pensar en nuevas formas de capacitación en IA, utilizando conjuntos de datos mucho más pequeños (pequeños modelos de lenguaje, por así decirlo).

Jack Stilgoe, profesor de política científica y tecnológica en el University College de Londres, dijo que la respuesta de OpenAI resalta una tensión clásica entre los disruptores tecnológicos declarados: para ganarse la confianza del público, los nuevos participantes tienen que demostrar que siguen las reglas y al mismo tiempo presentarse como tales. -breakers, abriendo un camino hacia la innovación.

Stilgoe dijo que las empresas de inteligencia artificial probablemente reconozcan la incongruencia, pero vean que la tecnología avanza tan rápido que la ley simplemente no puede seguir el ritmo. Eso es lo que hace que los casos legales sean tan importantes. Si los titulares de derechos de autor continúan presionando con sus desafíos, amenazan toda la estructura de los sistemas LLM. “Podría derribar todo el castillo de naipes”, afirmó.

Pero aplicar una interpretación tradicional de la ley de derechos de autor al nuevo uso de la IA podría desencadenar otros efectos perversos. Si los modelos de IA están aislados de las fuentes más autorizadas, como los medios de comunicación confiables o las grandes publicaciones científicas, los futuros LLM podrían ser aún menos confiables y confiables, degradados por la exposición a fuentes inferiores.

Esos riesgos se ven amplificados por las preocupaciones existentes sobre la desinformación y las “alucinaciones “, en las que las herramientas de inteligencia artificial presentan información falsa como un hecho con toda la confianza de una computadora antropomorfizada que todo lo sabe.

“En un mundo donde las asimetrías de información importan más que nunca”, dijo Stilgoe, “se puede imaginar que esas preocupaciones solo crecen en el sentido de que los LLM están mediando y acelerando el acceso de las personas a la información”.

Back to top button