Est-il attainable qu’une IA soit entraînée uniquement sur les données générées par une autre IA ? Cela peut paraître une idée farfelue. Mais c’est une resolution qui existe depuis un sure temps – et comme il est de plus en plus difficile d’obtenir de nouvelles données réelles, elle gagne du terrain.
Anthropic a utilisé des données synthétiques pour entraîner l’un de ses modèles phares, Claude 3.5 Sonnet. Meta a affiné son Lama 3.1 modèles en utilisant les données générées par l’IA. Et OpenAI s’approvisionnerait en données de formation synthétiques auprès de o1son modèle de « raisonnement », pour le prochain Orion.
Mais pourquoi l’IA a-t-elle besoin de données en premier lieu – et quoi ? gentil de données dont il a besoin ? Et ces données peuvent-elles vraiment être remplacé par des données synthétiques ?
L’significance des annotations
Les systèmes d’IA sont des machines statistiques. Formés sur de nombreux exemples, ils apprennent les modèles de ces exemples pour faire des prédictions, comme « à qui » dans un e-mail précède généralement « cela peut concerner ».
Les annotations, généralement du texte indiquant la signification ou des events des données ingérées par ces systèmes, sont un élément clé de ces exemples. Ils servent de repères, « enseignant » un modèle permettant de distinguer les choses, les lieux et les idées.
Prenons un modèle de classification de photographs montrant de nombreuses photographs de cuisines étiquetées avec le mot « delicacies ». Au fur et à mesure de son entraînement, le modèle commencera à faire des associations entre la « delicacies » et les choses générales. caractéristiques des cuisines (par exemple, qu’elles contiennent des réfrigérateurs et des comptoirs). Après formation, à partir d’une photograph d’une delicacies qui ne figurait pas dans les exemples initiaux, le modèle devrait être succesful de l’identifier comme telle. (Bien sûr, si les photographs de cuisines étaient étiquetées « vache », cela les identifierait comme des vaches, ce qui souligne l’significance d’une bonne annotation.)
L’appétit pour l’IA et la nécessité de fournir des données étiquetées pour son développement ont fait exploser le marché des companies d’annotation. Étude de marché dimensionnelle estimations qu’il vaut 838,2 thousands and thousands de {dollars} aujourd’hui – et qu’il vaudra 10,34 milliards de {dollars} dans les 10 prochaines années. Bien qu’il n’existe pas d’estimations précises du nombre de personnes engagées dans le travail d’étiquetage, une étude de 2022 papier fixe le nombre en « thousands and thousands ».
Les entreprises, grandes et petites, s’appuient sur les travailleurs employés par des sociétés d’annotation de données pour créer des étiquettes pour les ensembles de formation en IA. Certains de ces emplois sont relativement bien rémunérés, en particulier si l’étiquetage nécessite des connaissances spécialisées (par exemple, des compétences en mathématiques). D’autres peuvent être éreintants. Annotateurs dans les pays en développement sont payés seulement quelques dollars de l’heure en moyennesans aucun avantage ni garantie de futurs live shows.
Un puits de données de séchage
Il existe donc des raisons humanistes de rechercher des options aux étiquettes générées par l’homme. Par exemple, Uber élargit sa flotte de les travailleurs de chantier travailleront sur l’annotation de l’IA et l’étiquetage des données. Mais il y en a aussi des pratiques.
Les humains ne peuvent étiqueter qu’à une vitesse limitée. Les annotateurs ont également préjugés cela peut se manifester dans leurs annotations et, par la suite, dans tous les modèles formés sur celles-ci. Les annotateurs font erreursou obtenez trébuché par les directions d’étiquetage. Et payer des humains pour faire des choses coûte cher.
Données en général c’est cher, d’ailleurs. Shutterstock facture des dizaines de thousands and thousands de {dollars} aux fournisseurs d’IA pour accéder à ses archivestandis que Reddit a a gagné des centaines de thousands and thousands grâce aux données de licence à Google, OpenAI et autres.
Enfin, les données deviennent également de plus en plus difficiles à acquérir.
La plupart des modèles sont formés sur des collections massives de données publiques – des données que les propriétaires choisissent de plus en plus de contrôler par crainte qu’elles ne le soient. plagié ou qu’ils ne recevront pas de crédit ou d’attribution pour cela. Plus de 35 % des 1 000 meilleurs websites Internet au monde bloque maintenant le web scraper d’OpenAI. Et environ 25 % des données provenant de sources de « haute qualité » ont été restreintes aux principaux ensembles de données utilisés pour former les modèles, selon une étude récente. étude trouvé.
Si la tendance actuelle au blocage d’accès se poursuit, le groupe de recherche Epoch AI projets que les développeurs manqueront de données pour former des modèles d’IA génératifs entre 2026 et 2032. Cela, combiné aux craintes de poursuites pour droits d’auteur et matériel répréhensible se frayer un chemin dans les ensembles de données ouverts, a obligé les fournisseurs d’IA à rendre des comptes.
Options synthétiques
À première vue, les données synthétiques semblent être la resolution à tous ces problèmes. Besoin d’annotations ? Générez-les. Plus d’exemples de données ? Aucun problème. Le ciel est la limite.
Et dans une certaine mesure, c’est vrai.
“Si ‘les données sont le nouveau pétrole’, les données synthétiques se présentent comme un biocarburant, pouvant être créé sans les externalités négatives de la réalité”, a déclaré à TechCrunch Os Keyes, doctorant à l’Université de Washington qui étudie l’affect éthique des applied sciences émergentes. . “Vous pouvez prendre un petit ensemble de données de départ, simuler et extrapoler de nouvelles entrées à partir de celui-ci.”
L’industrie de l’IA a adopté le idea et l’a utilisé.
Ce mois-ci, Author, une société d’IA générative axée sur les entreprises, a lancé un modèle, Palmyra X 004, formé presque entièrement sur des données synthétiques. Son développement n’a coûté que 700 000 {dollars}, affirme Author – comparé à des estimations de 4,6 thousands and thousands de {dollars} pour un modèle OpenAI de taille comparable.
de Microsoft Phi les modèles ouverts ont été formés en partie à l’aide de données synthétiques. Tout comme celui de Google Gemme modèles. Nvidia cet été a dévoilé une famille de modèles conçue pour générer des données d’entraînement synthétiques, et la startup d’IA Hugging Face a récemment publié ce qu’elle prétend être le le plus grand ensemble de données de formation en IA de texte synthétique.
La génération de données synthétiques est devenue une activité à half entière, qui pourrait être valeur 2,34 milliards de {dollars} d’ici 2030. Gartner prédit que 60 % des données utilisées cette année pour les projets d’IA et d’analyse seront générées de manière synthétique.
Luca Soldaini, chercheur principal à l’Allen Institute for AI, a noté que des strategies de données synthétiques peuvent être utilisées pour générer des données de formation dans un format qui n’est pas facilement obtenu par scraping (ou même par licence de contenu). Par exemple, lors de la formation de son générateur vidéo Génération de filmsMeta a utilisé Llama 3 pour créer des légendes pour les séquences dans les données d’entraînement, que les humains ont ensuite affinées pour ajouter plus de détails, comme des descriptions de l’éclairage.
Dans le même esprit, OpenAI affirme avoir peaufiné GPT-4o utiliser des données synthétiques pour créer un carnet de croquis Toile fonctionnalité pour ChatGPT. Et Amazon a dit qu’il génère des données synthétiques pour compléter les données du monde réel qu’il utilise pour former des modèles de reconnaissance vocale pour Alexa.
“Les modèles de données synthétiques peuvent être utilisés pour développer rapidement l’instinct humaine quant aux données nécessaires pour obtenir un comportement de modèle spécifique”, a déclaré Soldaini.
Risques synthétiques
Toutefois, les données synthétiques ne sont pas une panacée. Elle souffre du même problème de « déchets entrants et sortants » que toute l’IA. Modèles créer données synthétiques, et si les données utilisées pour former ces modèles présentent des biais et des limites, leurs résultats seront également entachés. Par exemple, des groupes mal représentés dans les données de base le seront dans les données synthétiques.
“Le problème est que vous ne pouvez pas faire grand-chose”, a déclaré Keyes. «Disons que vous n’avez que 30 Noirs dans un ensemble de données. Extrapoler pourrait aider, mais si ces 30 personnes appartiennent toutes à la classe moyenne ou à la peau claire, c’est à cela que ressembleront toutes les données « représentatives ».
À ce stade, un 2023 étude par des chercheurs de l’Université Rice et de Stanford ont découvert qu’une dépendance extreme à l’égard de données synthétiques pendant la formation peut créer des modèles dont « la qualité ou la diversité diminuent progressivement ». Selon les chercheurs, le biais d’échantillonnage – une mauvaise représentation du monde réel – entraîne une détérioration de la diversité d’un modèle après quelques générations de formation (bien qu’ils aient également constaté que le mélange d’un peu de données du monde réel contribue à atténuer ce phénomène).
Keyes voit des risques supplémentaires dans les modèles complexes tels que le o1 d’OpenAI, qui, selon lui, pourraient produire des résultats plus difficiles à repérer. hallucinations dans leurs données synthétiques. Ceux-ci, à leur tour, pourraient réduire la précision des modèles formés sur les données, surtout si les sources des hallucinations ne sont pas faciles à identifier.
« Les modèles complexes hallucinent ; les données produites par des modèles complexes contiennent des hallucinations », a ajouté Keyes. “Et avec un modèle comme o1, les développeurs eux-mêmes ne peuvent pas nécessairement expliquer pourquoi les artefacts apparaissent.”
Des hallucinations combinées peuvent conduire à des modèles crachant du charabia. UN étude publié dans la revue Nature révèle remark les modèles, formés sur des données truffées d’erreurs, génèrent encore plus des données truffées d’erreurs et remark cette boucle de rétroaction dégrade les futures générations de modèles. Les modèles perdent la compréhension de connaissances plus ésotériques au fil des générations, ont découvert les chercheurs – devenant plus génériques et produisant souvent des réponses sans rapport avec les questions qui leur sont posées.
Un suivi étude montre que d’autres varieties de modèles, comme les générateurs d’pictures, ne sont pas à l’abri de ce kind d’effondrement :
Soldaini convient qu’il ne faut pas faire confiance aux données synthétiques « brutes », du moins si l’objectif est d’éviter de former des chatbots oublieux et des générateurs d’pictures homogènes. Pour l’utiliser « en toute sécurité », dit-il, il faut l’examiner, le trier et le filtrer minutieusement, et idéalement l’associer à des données fraîches et réelles, comme vous le feriez avec n’importe quel autre ensemble de données.
Ne pas le faire pourrait éventuellement conduire à l’effondrement du modèleoù un modèle devient moins « créatif » – et plus biaisé – dans ses résultats, compromettant finalement sérieusement sa fonctionnalité. Bien que ce processus puisse être identifié et arrêté avant qu’il ne devienne sérieux, il constitue néanmoins un risque.
“Les chercheurs doivent examiner les données générées, répéter le processus de génération et identifier les mesures de safety permettant de supprimer les factors de données de mauvaise qualité”, a déclaré Soldaini. « Les pipelines de données synthétiques ne sont pas une machine qui s’améliore d’elle-même ; leurs résultats doivent être soigneusement inspectés et améliorés avant d’être utilisés pour la formation.
Le PDG d’OpenAI, Sam Altman, a un jour soutenu que l’IA un jour produire des données synthétiques suffisamment bonnes pour s’entraîner efficacement. Mais – en supposant que cela soit réalisable – la technologie n’existe pas encore. Aucun grand laboratoire d’IA n’a publié de modèle formé sur les seules données synthétiques.
Au moins dans un avenir prévisible, il semble que nous aurons besoin d’humains au courant quelque half pour s’assurer que la formation d’un model ne se passe pas mal.
TechCrunch suggest une e-newsletter axée sur l’IA ! Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mercredis.
Mise à jour : cette histoire a été initialement publiée le 23 octobre et a été mise à jour le 24 décembre avec plus d’informations.
#promesse #les #périls #des #données #synthétiques, #gossip247.on-line , #Gossip247
AI,Generative AI,analysis,artificial,artificial information,Coaching ,
chatgpt
ai
copilot ai
ai generator
meta ai
microsoft ai