L’énigme du droit d’auteur d’OpenAI oppose le précédent d’utilisation équitable à un obstacle « impossible »

14.01.2024

84 4 minutes read

Ce n’est pas du vol si c’est innover.

C’est une façon épineuse de décrire la position des sociétés d’IA qui s’appuient sur les œuvres protégées par le droit d’auteur d’Internet pour inspirer leurs modèles.

Cette semaine, OpenAI, la société à l’origine du chatbot d’IA qui change la culture ChatGPT , a développé son argumentaire public en faveur de repenser la propriété intellectuelle à l’ère de l’IA.

En réponse au procès pour violation de droits d’auteur intenté par le New York Times contre Microsoft ( MSFT ), OpenAI a cherché à clarifier ses activités et ses motivations, écrivant dans un article de blog : « La formation de modèles d’IA à l’aide de matériels Internet accessibles au public est une utilisation équitable, comme le soutient ” des précédents de longue date et largement acceptés. Nous considérons ce principe comme équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis. ”

Dans une réponse à une enquête du Parlement britannique à la fin de l’année dernière, la société a écrit : « Parce que le droit d’auteur couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux – il serait être impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser de matériel protégé par le droit d’auteur.

Ce qui rend les arguments d’OpenAI intéressants et conséquents, c’est la nouveauté du débat.

On ne sait pas clairement dans quelle mesure la loi actuelle sur le droit d’auteur s’adresse à l’IA et au processus d’ingestion de matériel existant pour former des modèles puissants visant à générer et à capturer de nouveaux types de valeur.

Mais dans une évolution qui semble désormais familière à l’industrie technologique, les sociétés d’IA agissent comme si leur interprétation permissive de la loi était le mode naturel d’engagement et comme si les restrictions ne s’appliquaient pas à elles jusqu’à ce qu’elles se révèlent fausses.

Cette manœuvre ressemble à celle des sociétés de médias sociaux qui esquivent leurs responsabilités réelles en matière de modération tout en récoltant les fruits de la publication du contenu d’autres personnes. Cela rappelle également les débuts du covoiturage et de la « gig economy », lorsque des applications populaires se précipitaient pour conquérir des parts de marché tout en opérant dans un vide juridique .

Et alors que les deux secteurs continuent de prospérer alors que la loi reste incertaine, les entreprises d’IA doivent se demander : pourquoi faire preuve de légèreté quand l’inévitabilité est de votre côté ?

Pour apaiser les inquiétudes concernant les violations, OpenAI intensifie ses efforts pour s’associer à davantage d’éditeurs. CNN, Fox Corp. et Time font partie des médias actuellement en pourparlers avec la société d’IA pour partager l’accès à leur contenu, a rapporté Bloomberg jeudi.

Mais un modèle de licence introduit toute une série d’obstacles, en plus de coûts potentiellement onéreux.

Sasha Luccioni, chercheuse chez Hugging Face, une startup d’intelligence artificielle, a déclaré qu’imposer un nouveau paradigme aux entreprises d’IA nécessiterait une refonte massive de la manière dont les technologues forment et déploient leurs modèles.

Jusqu’à présent, les sociétés d’IA ont largement choisi d’exploiter Internet pour former de grands modèles de langage, ou LLM, sans trop réfléchir aux droits d’auteur, au filtrage et aux licences. Réorienter ce processus vers une conservation, un consentement et une divulgation méticuleux est essentiellement incompatible avec le processus existant.

Luccioni a déclaré qu’il n’était pas impossible d’adopter une approche plus prudente, mais que ce serait une entreprise énorme. “Il s’agirait essentiellement d’un retour à la planche à dessin pour les LLM”, a-t-elle déclaré.

Si les LLM sont généralement alimentés par des quantités massives de données de provenance douteuse, une nouvelle voie obligerait les entreprises à réfléchir à de nouvelles façons de former l’IA, en utilisant des pools de données beaucoup plus petits – de petits modèles de langage, si vous voulez.

Jack Stilgoe, professeur de politique scientifique et technologique à l’University College de Londres, a déclaré que la réponse d’OpenAI met en évidence une tension classique entre les soi-disant perturbateurs technologiques : pour gagner la confiance du public, les nouveaux entrants doivent prouver qu’ils respectent les règles tout en se présentant comme la règle. -breakers, ouvrant la voie à l’innovation.

Stilgoe a déclaré que les sociétés d’IA reconnaissent probablement cette incongruité, mais constatent que la technologie évolue si rapidement que la loi ne peut tout simplement pas suivre le rythme. C’est ce qui rend les affaires judiciaires si importantes. Si les détenteurs de droits d’auteur continuent à insister sur leurs contestations, ils menacent toute la structure des systèmes LLM. “Cela pourrait faire tomber tout le château de cartes”, a-t-il déclaré.

Mais appliquer une interprétation traditionnelle de la loi sur le droit d’auteur à l’utilisation nouvelle de l’IA pourrait déclencher d’autres effets pervers. Si les modèles d’IA sont isolés des sources les plus fiables, comme les médias dignes de confiance ou les grandes publications scientifiques, les futurs LLM pourraient être encore moins dignes de confiance et fiables, dégradés par l’exposition à des sources inférieures.

Ces risques sont amplifiés par les préoccupations existantes concernant la désinformation et les « hallucinations », dans lesquelles les outils d’IA présentent de fausses informations comme des faits avec toute la confiance d’un ordinateur anthropomorphisé omniscient.

“Dans un monde où les asymétries de l’information sont plus importantes que jamais”, a déclaré Stilgoe, “vous pouvez imaginer que ces préoccupations ne font que croître dans lesquelles les LLM jouent un rôle de médiateur et accélèrent l’accès des gens à l’information”.