Généré avec Midjourney
La conférence NeurIPS 2023, qui s’est tenue dans la vibrante ville de la Nouvelle-Orléans du 10 au 16 décembre, a mis un accent particulier sur l’IA générative et les grands modèles de langage (LLM). À la lumière des récentes avancées révolutionnaires dans ce domaine, il n’est pas surprenant que ces sujets aient dominé les discussions.
L’un des thèmes centraux de la conférence de cette année était la recherche de systèmes d’IA plus efficaces. Les chercheurs et les développeurs recherchent activement des moyens de construire une IA qui non seulement apprend plus rapidement que les LLM actuels, mais qui possède également des capacités de raisonnement améliorées tout en consommant moins de ressources informatiques. Cette poursuite est cruciale dans la course vers l’intelligence générale artificielle (IAG), un objectif qui semble de plus en plus réalisable dans un avenir prévisible.
Les conférences invitées à NeurIPS 2023 étaient le reflet de ces intérêts dynamiques et en évolution rapide. Des présentateurs de divers domaines de la recherche en IA ont partagé leurs dernières réalisations, offrant ainsi une fenêtre sur les développements de pointe en IA. Dans cet article, nous approfondissons ces discussions, en extrayant et en discutant les principaux enseignements et enseignements essentiels à la compréhension des paysages actuels et futurs de l’innovation en IA.
NextGenAI : l’illusion de la mise à l’échelle et l’avenir de l’IA générative
Dans
Points clés à retenir:
- À l’ère de l’IA générative, nous sommes passés de l’accent mis sur la perception dans les modèles de vision (c’est-à-dire la reconnaissance d’objets) à la prédiction des éléments manquants (par exemple, la génération d’images et de vidéos avec des modèles de diffusion).
- Pendant 20 ans, la vision par ordinateur s’est concentrée sur la recherche de référence, ce qui a permis de se concentrer sur les problèmes les plus importants. Dans l’IA Générative, nous n’avons aucun benchmark à optimiser, ce qui a ouvert le champ à chacun pour aller dans sa propre direction.
- Les modèles de diffusion combinent les avantages des modèles génératifs précédents en étant basés sur des scores avec une procédure de formation stable et une édition efficace des échantillons, mais ils sont coûteux en raison de leur longue chaîne de Markov.
- Le défi des modèles à forte vraisemblance est que la plupart des bits entrent dans des détails qui sont à peine perceptibles par l’œil humain, alors que l’encodage de la sémantique, qui compte le plus, ne prend que quelques bits. La mise à l’échelle seule ne résoudrait pas ce problème, car la demande en ressources informatiques augmente 9 fois plus vite que l’offre de GPU.
- La solution suggérée consiste à combiner les atouts des modèles de diffusion et des ConvNets, en particulier l’efficacité des convolutions pour représenter les détails locaux et l’expressivité des modèles de diffusion pour un contexte à longue portée.
- Björn Ommer suggère également d’utiliser une approche de correspondance de flux pour permettre la synthèse d’images haute résolution à partir de petits modèles de diffusion latente.
- Une autre approche pour augmenter l’efficacité de la synthèse d’images consiste à se concentrer sur la composition de la scène tout en utilisant l’augmentation de la récupération pour remplir les détails.
- Enfin, il a introduit l’approche iPoke pour la synthèse vidéo stochastique contrôlée.
Si ce contenu approfondi vous est utile, abonnez-vous à notre liste de diffusion AI pour être alerté lorsque nous publions du nouveau matériel.
Les nombreux visages de l’IA responsable
Dans
Voici les principaux points à retenir de la conférence :
- Les désaccords entre les travailleurs humains peuvent être productifs. Au lieu de traiter toutes les réponses comme étant correctes ou fausses, Lora Aroyo a introduit la « vérité par désaccord », une approche de vérité distributionnelle pour évaluer la fiabilité des données en exploitant le désaccord des évaluateurs.
- La qualité des données est difficile, même avec des experts, car les experts sont autant en désaccord que les travailleurs. Ces désaccords peuvent être bien plus instructifs que les réponses d’un seul expert.
- Dans les tâches d’évaluation de la sécurité, les experts sont en désaccord sur 40 % des exemples. Au lieu d’essayer de résoudre ces désaccords, nous devons collecter davantage d’exemples de ce type et les utiliser pour améliorer les modèles et les mesures d’évaluation.
- Lora Aroyo a également présenté leur Sécurité et diversité méthode pour examiner les données en termes de contenu et de qui les a annotées.
- Cette méthode a produit un ensemble de données de référence avec une variabilité des jugements de sécurité LLM parmi divers groupes démographiques d’évaluateurs (2,5 millions de notes au total).
- Pour 20 % des conversations, il était difficile de décider si la réponse du chatbot était sûre ou dangereuse, car un nombre à peu près égal de personnes interrogées les qualifiaient de sûres ou dangereuses.
- La diversité des évaluateurs et des données joue un rôle crucial dans l’évaluation des modèles. Ne pas reconnaître le large éventail de perspectives humaines et l’ambiguïté présente dans le contenu peut entraver l’alignement des performances de l’apprentissage automatique sur les attentes du monde réel.
- 80 % des efforts de sécurité de l’IA sont déjà assez bons, mais les 20 % restants nécessitent de doubler les efforts pour traiter les cas extrêmes et toutes les variantes dans l’espace infini de la diversité.
Statistiques de cohérence, expérience auto-générée et pourquoi les jeunes humains sont beaucoup plus intelligents que l’IA actuelle
Dans
Esquisse : outils de base, augmentation de l’apprentissage et robustesse adaptative
Jelani Nelson, professeur de génie électrique et d’informatique à l’UC Berkeley,
Voici les principaux points à retenir de cette conférence :
- Les modèles de fondation sont efficaces pour résoudre les problèmes de « mort par 1 000 coupures », où chaque tâche individuelle peut être relativement simple, mais l’ampleur et la variété des tâches constituent un défi de taille. Un bon exemple en est le problème du nettoyage des données, que les LLM peuvent désormais aider à résoudre de manière beaucoup plus efficace.
- À mesure que les accélérateurs deviennent plus rapides, la mémoire apparaît souvent comme un goulot d’étranglement. Il s’agit d’un problème auquel les chercheurs en bases de données s’attaquent depuis des décennies, et nous pouvons adopter certaines de leurs stratégies. Par exemple, l’approche Flash Attention minimise les flux d’entrées-sorties grâce au blocage et à la fusion agressive : chaque fois que nous accédons à une information, nous y effectuons autant d’opérations que possible.
- Il existe une nouvelle classe d’architectures, ancrées dans le traitement du signal, qui pourraient être plus efficaces que le modèle Transformer, notamment pour gérer de longues séquences. Le traitement du signal offre stabilité et efficacité, jetant les bases de modèles innovants comme le S4.
Apprentissage par renforcement en ligne dans les interventions de santé numérique
Dans son exposé, Susan Murphy, professeur de statistiques et d’informatique à l’Université Harvard, a partagé les premières solutions à certains des défis auxquels ils sont confrontés lors du développement d’algorithmes RL en ligne destinés à être utilisés dans les interventions de santé numérique.
Voici quelques points à retenir de la présentation :
- La Dre Susan Murphy a discuté de deux projets sur lesquels elle travaille :
- HeartStep, où des activités ont été suggérées sur la base des données des smartphones et des trackers portables, et
- Oralytics pour le coaching en santé bucco-dentaire, où les interventions étaient basées sur les données d’engagement reçues d’une brosse à dents électronique.
- En élaborant une politique comportementale pour un agent d’IA, les chercheurs doivent s’assurer qu’elle est autonome et qu’elle peut être mise en œuvre de manière réaliste dans le système de santé au sens large. Cela implique de s’assurer que le temps requis pour l’engagement d’un individu est raisonnable et que les actions recommandées sont à la fois éthiquement fondées et scientifiquement plausibles.
- Les principaux défis liés au développement d’un agent RL pour les interventions de santé numérique incluent la gestion des niveaux de bruit élevés, car les gens mènent leur vie et ne sont pas toujours en mesure de répondre aux messages, même s’ils le souhaitent, ainsi que la gestion des effets négatifs importants et retardés. .
Comme vous pouvez le constater, NeurIPS 2023 a fourni un aperçu éclairant de l’avenir de l’IA. Les conférences invitées ont mis en évidence une tendance vers des modèles plus efficaces et plus soucieux des ressources et l’exploration de nouvelles architectures au-delà des paradigmes traditionnels.