Categories
News

Le coût prohibitif des données d’entraînement pour l’IA : un privilège réservé aux géants de la tech !

Source link : https://tech-news.info/le-cout-prohibitif-des-donnees-dentrainement-pour-lia-un-privilege-reserve-aux-geants-de-la-tech/

En s’intéressant un peu plus à l’univers trépidant de l’intelligence artificielle, on se rend assez vite compte que les données constituent le nerf de la guerre. Elles sont en effet au cœur des systèmes d’IA les plus avancés. Ceci dit, il faut savoir que leur coût ne cesse de grimper. Et cela au point de les rendre inaccessibles à tous, sauf aux entreprises technologiques les plus riches. C’est ce que souligne James Betker, chercheur chez OpenAI, dans un billet de blog personnel publié l’année dernière.

Crédit : 123rf.com

Selon lui, ce sont les données d’entraînement et non la conception, l’architecture ou toute autre caractéristique d’un modèle, qui sont la clé de systèmes d’IA toujours plus sophistiqués et performants.

Des modèles d’IA probabilistes, nourris aux données

Pour commencer, sachez que les systèmes d’IA génératifs sont essentiellement des modèles probabilistes. En plus simple, ce sont de gigantesques amas de statistiques. Ils se basent sur de vastes quantités d’exemples pour deviner quelles données ont le plus de “sens” à placer à tel ou tel endroit. Il semble donc intuitif que plus un modèle dispose d’exemples sur lesquels s’appuyer, meilleures seront les performances des modèles entraînés sur ces exemples.

Kyle Lo est un chercheur principal en sciences appliquées à l’Allen Institute for AI (AI2), un organisme de recherche à but non lucratif. Il abonde en ce sens : “Il semble effectivement que les gains de performance proviennent des données, du moins une fois que vous disposez d’une configuration d’entraînement stable.”

Qualité et curation des données, des facteurs clés

Cependant, notez que l’entraînement sur des ensembles de données exponentiellement plus grands n’est pas une garantie de modèles exponentiellement meilleurs. Les modèles fonctionnent selon le paradigme “garbage in, garbage out” (des données de mauvaise qualité en entrée donnent des résultats de mauvaise qualité en sortie), souligne Lo. Alors, la curation et la qualité des données sont primordiales, peut-être plus que la quantité pure.

Une centralisation de l’IA au profit des plus riches

Des experts comme Lo craignent que l’importance croissante accordée aux grands ensembles de données d’entraînement de haute qualité ne centralise le développement de l’IA entre les mains des quelques acteurs disposant de budgets de plusieurs milliards de dollars pour acquérir ces ensembles. On assiste à une innovation majeure dans les données synthétiques ou l’architecture fondamentale pourrait bouleverser le statu quo, mais aucune ne semble se profiler à l’horizon.

Des pratiques d’acquisition de données parfois douteuses

Cette course à l’acquisition de toujours plus de données d’entraînement a parfois conduit à des comportements peu éthiques, voire illégaux. On pense notamment à l’agrégation secrète de contenus protégés par des droits d’auteurs. La course a surtout récompensé les géants de la tech aux poches profondes, capables de dépenser des sommes colossales pour obtenir des licences sur les données.

OpenAI aurait ainsi transcrit plus d’un million d’heures de vidéos YouTube sans l’accord de la plateforme ou des créateurs pour nourrir son modèle phare GPT-4. En plus, Google a récemment élargi ses conditions d’utilisation. Ceci afin de pouvoir exploiter les documents Google Docs publics, les avis de restaurants sur Google Maps et d’autres contenus en ligne pour ses produits d’IA. De son côté, Meta aurait envisagé de prendre le risque de poursuites judiciaires pour entraîner ses modèles sur du contenu protégé par la propriété intellectuelle.

À LIRE AUSSI : Google défend ses résultats de recherche générés par l’IA… malgré des suggestions farfelues de colle et de pizzas…

Un marché des données d’entraînement en plein essor

Digital brand manager: Formations, Missions et Salaire ! Crédit Freepik

Avec un marché des données d’entraînement pour l’IA qui devrait passer d’environ 2,5 milliards de dollars actuellement à près de 30 milliards dans une décennie, les courtiers en données et les plateformes se précipitent pour faire payer le prix fort, et ceci, parfois contre la volonté de leurs utilisateurs. Par exemple, la bibliothèque de médias libres de droits Shutterstock a conclu des accords avec des fournisseurs d’IA allant de 25 à 50 millions de dollars. En ce qui la concerne, Reddit affirme avoir gagné des centaines de millions en accordant des licences sur ses données à des organisations comme Google et OpenAI. Rares sont donc les plateformes disposant d’une abondance de données accumulées organiquement au fil des années qui n’ont pas signé d’accords avec des développeurs d’IA générative. Photobucket, Tumblr ou encore le site de questions-réponses Stack Overflow…

Des initiatives indépendantes pour démocratiser l’accès aux données

Heureusement, quelques initiatives indépendantes et à but non lucratif s’efforcent de créer des ensembles de données massifs que tout le monde peut utiliser pour entraîner un modèle d’IA générative.

EleutherAI est un groupe de recherche à but non lucratif né d’un collectif Discord en 2020. Il travaille avec l’Université de Toronto, AI2 et des chercheurs indépendants pour créer The Pile v2, un ensemble de milliards de passages de texte principalement issus du domaine public.

En avril, la startup d’IA Hugging Face a publié FineWeb, une version filtrée du Common Crawl – l’ensemble de données éponyme maintenu par l’organisation à but non lucratif Common Crawl. Le dit ensemble est composé de milliards et de milliards de pages web – qui, selon Hugging Face, améliore les performances des modèles sur de nombreux benchmarks.

Certains efforts de publication d’ensembles de données d’entraînement ouverts comme les ensembles d’images du groupe LAION se sont heurtés à des problèmes :

de droit d’auteur ;
de protection des données ;
et à d’autres défis éthiques et juridiques tout aussi sérieux.

Mais certains des curateurs de données les plus dévoués se sont engagés à faire mieux. The Pile v2, par exemple, supprime le matériel protégé par le droit d’auteur problématique trouvé dans son ensemble de données progéniteur, The Pile.

La question est de savoir si ces efforts ouverts peuvent espérer suivre le rythme des géants de la tech. Tant que la collecte et la curation des données resteront une question de ressources, la réponse sera probablement non, du moins jusqu’à ce qu’une percée dans la recherche vienne rééquilibrer les forces en présence.

…. to be continued
Read the Original Article
Copyright for syndicated content belongs to the linked Source : FredZone – https://www.fredzone.org/cout-prohibitif-donnees-entrainement-ia-privilege-geants-tech/

The post Le coût prohibitif des données d’entraînement pour l’IA : un privilège réservé aux géants de la tech ! first appeared on Tech News.

—-

Author : Tech-News Team

Publish date : 2024-06-04 07:07:48

Copyright for syndicated content belongs to the linked Source.

.. . . . . . . . . . . . . . . . . . . . . . . . . .... . . * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . + + + + + + + + + + + + + + + + + + + + - - - - - - - - - - - - - - - - - - - - . . . . .