Solutions au problème du manque de données de formation pour les outils d'IA

Le développement rapide des outils d’IA dépend fortement de la disponibilité de données de formation de haute qualité. Avec l’utilisation croissante de ces outils dans divers domaines, les entreprises ont commencé à être confrontées à un nouveau défi représenté par le manque de données disponibles sur la formation. Cette lacune peut entraver le développement et l’amélioration des performances des modèles intelligents. Alors, comment pouvons-nous entraîner l’IA pour qu’elle continue à se développer et à nous être utile ?

Vous pourriez penser qu’Internet et ses données sont des ressources inépuisables, mais les outils d’IA ont consommé presque toutes les données dont je disposais. Maintenant, avant de vous inquiéter, cela n’arrêtera pas le développement de l’IA, il existe encore de nombreuses données prêtes à entraîner les systèmes d’IA. Il existe des solutions innovantes qui peuvent aider à surmonter ce problème, permettant ainsi de continuer à améliorer et à renforcer les capacités de l’IA. Vérifier Des outils d'IA qui répondront aux questions des fichiers PDF.

Intelligence artificielle | Données d'entraînement 1 | 1HdPxSE107sZwDNtfLuQWSg DzTechs

1. De plus en plus de données sont toujours ajoutées en ligne

En bref, selon l'Institut de recherche sur l'intelligence artificielle Epoch Les données de haute qualité sur lesquelles former l’IA pourraient s’épuiser d’ici 2026.

Le mot clé ici est « peut ». La quantité de données ajoutées à Internet augmente chaque année, donc quelque chose de radical pourrait changer avant 2026. Cependant, cela reste une estimation juste : dans tous les cas, les systèmes d’IA finiront par manquer de bonnes données à un moment donné.

Cependant, il ne faut pas oublier qu'environ 147 zettaoctets de données sont ajoutés en ligne chaque année (selon... Thèmes explosifs). Un seul zettaoctet équivaut à 1,000,000,000,000,000,000,000 30 4 XNUMX XNUMX XNUMX XNUMX XNUMX de bits de données. En termes réels, cela représente plus de XNUMX milliards de films XNUMXK (réels, mais insondables). Il s’agit d’une quantité impressionnante d’informations que l’IA doit analyser.

Cependant, l’intelligence artificielle consomme des données plus rapidement que l’humanité ne peut les produire…

2. L’IA peut oublier les données de mauvaise qualité

Intelligence artificielle | Données d'entraînement 2 | 1mH6OFAacUbReXc6jah7QsA DzTechs

Bien entendu, les 147 zettaoctets de données ne sont pas tous de bonnes données. Il y a des choses que l'œil ne peut pas voir. Mais on estime que l’IA consommera également des données linguistiques de mauvaise qualité d’ici 2050.

signalé Reuters Photobucket, autrefois l'un des plus grands référentiels de photos au monde, est en pourparlers pour accorder une licence pour sa vaste bibliothèque à des sociétés de formation en IA. Les photos contiennent des données pour former des modèles comme DALL-E et Midjourney, mais même cela pourrait s'épuiser d'ici 2060. Il y a aussi un problème plus important ici : Photobucket a inclus des photos de plateformes de réseaux sociaux des années XNUMX comme Myspace, ce qui signifie qu'elles ne sont pas aussi élevées que celles actuelles. la photographie. Cela conduit à des données de mauvaise qualité.

Photobucket n'est pas seul. En février 2024, Google a conclu un accord avec Reddit, permettant au géant de la recherche d'utiliser les données des utilisateurs de la plateforme de médias sociaux pour entraîner l'intelligence artificielle. D'autres plateformes de réseaux sociaux fournissent également des données utilisateur à des fins de formation à l'IA ; Certains l'utilisent pour entraîner des modèles d'IA internes, comme Meta's Llama.

Cependant, même si certaines informations peuvent être extraites de données de mauvaise qualité, Microsoft serait en train de développer un moyen permettant à l’IA d’« ignorer » de manière sélective les données. Cette solution sera principalement utilisée pour des problèmes de propriété intellectuelle, mais elle peut également signifier que les outils peuvent oublier ce qu'ils ont appris à partir d'ensembles de données de mauvaise qualité.

Nous pouvons fournir davantage de données à l’IA sans être trop sélectifs ; Ces systèmes d’IA peuvent ensuite choisir ce dont il est le plus utile d’apprendre.

3. La reconnaissance vocale débloque les données disponibles dans les vidéos et les podcasts

Jusqu’à présent, les données fournies aux outils d’IA étaient en grande partie constituées de texte et, dans une moindre mesure, d’images. Cela va sans aucun doute changer, et c’est probablement déjà le cas, car les logiciels de reconnaissance vocale signifieront que l’abondance de vidéos et de podcasts disponibles pourra également entraîner l’intelligence artificielle.

Il convient de noter qu'OpenAI a développé le réseau neuronal open source pour la reconnaissance automatique de la parole (ASR). Chuchotement, en utilisant 680.000 4 heures de données multilingues et multitâches. OpenAI a ensuite introduit plus d'un million d'heures d'informations provenant de vidéos YouTube dans son grand modèle de langage, GPT-XNUMX.

Il s’agit d’un modèle idéal pour d’autres systèmes d’IA, qui utilisent la reconnaissance vocale pour transcrire la vidéo et l’audio provenant de nombreuses sources et exécuter ces données via leurs propres modèles d’IA.

Selon Statesman, plus de 500 heures de vidéo sont mises en ligne sur YouTube chaque minute, un nombre resté assez constant depuis 2019. Et c'est sans parler d'autres plateformes vidéo et audio comme Dailymotion et Podbean. Si l’IA parvient à porter son attention sur de nouveaux ensembles de données comme ceux-ci, il reste encore une énorme quantité d’informations à extraire.

4. L’IA s’est largement cantonnée à la langue anglaise

Ce n’est pas tout ce que nous pouvons apprendre de Whisper. OpenAI a entraîné le modèle à l'aide de 117000 XNUMX heures de données audio dans une langue autre que l'anglais. Ceci est particulièrement intéressant car de nombreux systèmes d’IA ont été formés principalement en utilisant la langue anglaise ou en considérant d’autres cultures à travers une lentille occidentale.

Essentiellement, la plupart des outils sont liés par la culture de leurs créateurs.

Prenons ChatGPT comme exemple. Peu de temps après sa sortie en 2022,... Jill Walker Rettberg, professeur de culture numérique à l'Université de Bergen, en Norvège, a expérimenté ChatGPT et a conclu ce qui suit :

« ChatGPT ne connaît pas grand-chose de la culture norvégienne. Ou plutôt, tout ce qu’il sait sur la culture norvégienne est supposé avoir été appris principalement de sources anglaises… ChatGPT est clairement compatible avec les valeurs et les lois américaines. Dans de nombreux cas, ces valeurs sont proches des valeurs norvégiennes et européennes, mais ce n'est pas toujours le cas.

Par conséquent, les systèmes d’IA pourraient se développer pour permettre à davantage de multinationales d’interagir avec eux, ou d’utiliser des langues et des cultures plus diverses pour former de tels systèmes. Actuellement, de nombreux modèles d’IA sont limités à une seule bibliothèque ; Il pourrait se développer si on lui donnait les clés des bibliothèques du monde entier.

5. Les maisons d’édition peuvent contribuer au développement de l’intelligence artificielle

Intelligence artificielle | Données d'entraînement 3 | 1TNbX5SYYffyQv824 VuRzA DzTechs

La propriété intellectuelle est évidemment un problème majeur, mais certains éditeurs peuvent contribuer au progrès de l’IA en concluant des accords de licence. Cela signifie fournir aux outils des données de haute qualité, c’est-à-dire fiables, provenant de livres plutôt que des informations de mauvaise qualité provenant de sources en ligne.

En effet, Meta, propriétaire de Facebook, Instagram et Whatsapp, aurait envisagé d'acheter Simon & Schuster, l'une des maisons d'édition des « Big Five ». L'idée était d'utiliser la littérature publiée par l'entreprise pour former l'IA de Meta. L’accord a finalement échoué, peut-être en raison de la zone grise éthique dans laquelle l’entreprise traite les IP sans le consentement préalable des auteurs.

Une autre option envisagée semble consister à acheter des droits de licence individuels sur de nouveaux titres. Cela devrait susciter des inquiétudes majeures chez les créateurs, mais cela restera un moyen intéressant de développer des outils d’IA lorsque les données utilisables seront épuisées. Vérifier Comment créer et utiliser de manière éthique de l'art basé sur l'IA.

6. Les données synthétiques sont l’avenir

Toutes les autres solutions sont encore limitées, mais il existe une option qui pourrait permettre à l’IA de prospérer à l’avenir : les données synthétiques. La question est déjà étudiée comme une possibilité très réelle.

Alors, que sont les données synthétiques ? Ce sont des données générées par l’intelligence artificielle ; Tout comme les humains créent des données, cette méthode permettra à l’IA de créer des données à des fins de formation.

En fait, l’IA peut créer des vidéos deepfake convaincantes. Cette vidéo deepfake peut être renvoyée à l’IA afin qu’elle puisse apprendre de ce qui est essentiellement un scénario fictif. Après tout, c’est l’une des principales façons dont les humains apprennent : nous lisons ou regardons quelque chose pour comprendre le monde qui nous entoure.

Les systèmes d’IA ont probablement déjà consommé des informations artificielles. Les deepfakes ont diffusé des informations trompeuses et fausses en ligne. Ainsi, lorsque les systèmes d'IA analysent le contenu en ligne, il va de soi que certains peuvent avoir été exposés à du faux contenu.

Oui, il y a un côté sinistre à cela. Cela peut également endommager ou limiter les systèmes d’IA, renforçant et propageant les erreurs commises par ces outils. Les entreprises s’efforcent d’éliminer le problème ; Cependant, l’expression « Les IA apprennent les unes des autres et font des erreurs » est un élément d’intrigue pour de nombreux scénarios de science-fiction cauchemardesques. Vérifier Votre guide complet pour protéger votre vie privée à l'ère de l'intelligence artificielle.

7. Mieux utiliser l’intelligence artificielle

Les outils d’intelligence artificielle sont controversés. Il présente de nombreux inconvénients, mais les critiques ignorent ses avantages. Par exemple, Réseau d'audit et de conseil PwC [PDF] L'intelligence artificielle pourrait contribuer jusqu'à 15.7 billions de dollars à l'économie mondiale d'ici 2030.

De plus, l’IA est déjà utilisée partout dans le monde. Vous l’avez probablement utilisé aujourd’hui sous une forme ou une autre, peut-être sans même vous en rendre compte. Maintenant que le génie est sorti de la bouteille, la clé est définitivement de le former sur des données fiables et de haute qualité afin que nous puissions l'exploiter correctement.

L'intelligence artificielle a ses avantages et ses inconvénients. Il y a certainement un équilibre à trouver.

Les outils d’IA sont de plus en plus confrontés au manque de données de formation disponibles, ce qui menace de compromettre leur progression et leur développement. Pour relever ce défi, des solutions innovantes sont adoptées, telles que l'utilisation de données synthétiques, l'exploitation de l'apprentissage non supervisé et la promotion de la collaboration entre les organisations pour partager des données. Ces solutions contribuent à fournir de nouvelles sources de données, garantissant que les modèles intelligents continuent de s’améliorer et de se développer de manière efficiente et efficace. Vous pouvez maintenant visualiser Comment l'IA peut aider les cybercriminels.

DzTech

Je suis ingénieur d'état avec une vaste expérience dans les domaines de la programmation, de la création de sites internet, du référencement et de la rédaction technique. Je suis passionné par la technologie et me consacre à fournir des informations de qualité au public. Je peux devenir une ressource plus précieuse pour les utilisateurs qui recherchent des informations précises et fiables sur les critiques de produits et les applications spécialisées dans divers domaines. Mon engagement inébranlable envers la qualité et l’exactitude garantit que les informations fournies sont dignes de confiance et utiles au public. La recherche constante de connaissances me pousse à me tenir au courant des dernières évolutions technologiques, en veillant à ce que les idées partagées soient véhiculées de manière claire et accessible.
Aller au bouton supérieur