Extrait du document de recherche sur les agents générateurs
Dans cet article, nous examinons dix articles de recherche transformateurs dans divers domaines, couvrant les modèles de langage, le traitement d’images, la génération d’images et le montage vidéo. Alors que les discussions autour de l’intelligence générale artificielle (AGI) révèlent que l’AGI semble plus accessible que jamais, il n’est pas étonnant que certains des articles présentés explorent diverses voies vers l’AGI, telles que l’extension des modèles de langage ou l’exploitation de l’apprentissage par renforcement pour une maîtrise couvrant l’ensemble du domaine.
Si vous souhaitez sauter le pas, voici les documents de recherche que nous avons présentés :
Si ce contenu éducatif approfondi vous est utile, abonnez-vous à notre liste de diffusion AI pour être alerté lorsque nous publions du nouveau matériel.
Dans ce document de recherche, une équipe de Microsoft Research analyse une première version du GPT-4 d’OpenAI, qui était encore en développement actif à l’époque. L’équipe soutient que GPT-4 représente une nouvelle classe de grands modèles de langage, présentant une intelligence plus généralisée par rapport aux modèles d’IA précédents. Leur enquête révèle les capacités étendues de GPT-4 dans divers domaines, notamment les mathématiques, le codage, la vision, la médecine, le droit et la psychologie. Ils soulignent que GPT-4 peut résoudre des tâches complexes et nouvelles sans invitation spécialisée, atteignant souvent des performances proches du niveau humain.
L’équipe Microsoft souligne également le potentiel de GPT-4 à être considéré comme une forme précoce, quoique incomplète, d’intelligence artificielle générale (AGI). Ils se concentrent sur l’identification des limites de GPT-4 et discutent des défis liés à la progression vers des versions AGI plus avancées et plus complètes. Cela implique d’envisager de nouveaux paradigmes au-delà du modèle actuel de prédiction du mot suivant.
Le document de recherche présente PaLM-E, une nouvelle approche des modèles linguistiques qui comble le fossé entre les mots et les perceptions dans le monde réel en incorporant directement des entrées continues de capteurs. Ce modèle de langage incorporé intègre de manière transparente des phrases multimodales contenant une estimation d’état visuelle et continue et des informations textuelles. Ces entrées sont formées de bout en bout avec un LLM pré-entraîné et appliquées à diverses tâches incorporées, notamment la planification séquentielle de manipulations robotiques, la réponse visuelle aux questions et le sous-titrage.
PaLM-E, en particulier le plus grand modèle doté de paramètres 562B, démontre des performances remarquables sur un large éventail de tâches et de modalités. Il excelle notamment dans les tâches de raisonnement incarné, présente un transfert positif d’une formation conjointe dans les domaines du langage, de la vision et du langage visuel, et présente des capacités de pointe en matière d’analyse comparative OK-VQA. Malgré l’accent mis sur le raisonnement incarné, le PaLM-E-562B présente également un éventail de capacités, notamment le raisonnement multimodal en chaîne de pensée sans tir, les invites en quelques tirs, le raisonnement mathématique sans OCR et le raisonnement multi-images, bien qu’il soit formés uniquement sur des exemples d’images uniques.
LLaMA 2 est une version améliorée de son prédécesseur, formée sur un nouveau mélange de données, avec un corpus de pré-entraînement 40 % plus grand, une longueur de contexte doublée et une attention aux requêtes groupées. La série de modèles LLaMA 2 comprend LLaMA2 et LLaMA 2-Chat, optimisé pour le dialogue, avec des tailles allant de 7 à 70 milliards de paramètres. Ces modèles présentent des performances supérieures en termes d’utilité et de sécurité par rapport à leurs homologues open source et sont comparables à certains modèles fermés. Le processus de développement impliquait des mesures de sécurité rigoureuses, notamment l’annotation des données spécifiques à la sécurité et l’équipe rouge. Le document vise à contribuer au développement responsable des LLM en fournissant des descriptions détaillées des méthodologies de réglage fin et des améliorations de la sécurité.
L’article introduit un concept révolutionnaire : des agents génératifs capables de simuler un comportement humain crédible. Ces agents accomplissent un large éventail d’actions, depuis les routines quotidiennes comme préparer le petit-déjeuner jusqu’aux efforts créatifs comme peindre et écrire. Ils se forgent des opinions, engagent des conversations et se souviennent d’expériences passées, créant ainsi une simulation dynamique d’interactions de type humain.
Pour y parvenir, l’article présente un cadre architectural qui étend les grands modèles de langage, permettant aux agents de stocker leurs expériences en langage naturel, de synthétiser leurs souvenirs au fil du temps et de les récupérer dynamiquement pour la planification du comportement. Ces agents générateurs trouvent des applications dans divers domaines, depuis les scénarios de jeux de rôle jusqu’au prototypage social dans les mondes virtuels. La recherche valide leur efficacité par des évaluations, soulignant l’importance de la mémoire, de la réflexion et de la planification pour créer un comportement d’agent convaincant tout en abordant des considérations éthiques et sociétales.
Dans cet article, l’équipe Meta AI a présenté une tâche, un modèle et un ensemble de données révolutionnaires pour la segmentation d’images. En exploitant un modèle efficace dans une boucle de collecte de données, le projet a créé l’ensemble de données de segmentation le plus complet à ce jour, comprenant plus d’un milliard de masques pour 11 millions d’images sous licence et respectueuses de la vie privée. Pour atteindre son objectif de créer un modèle fondamental pour la segmentation d’images, le projet se concentre sur des modèles incitatifs formés sur un ensemble de données diversifié. SAM, le modèle Segment Anything, utilise une architecture simple mais efficace comprenant un encodeur d’image, un encodeur d’invite et un décodeur de masque. Les expériences démontrent que SAM rivalise favorablement avec les résultats entièrement supervisés sur un large éventail de tâches en aval, notamment la détection des contours, la génération de propositions d’objets et la segmentation d’instances.
Le Génération 1 Le document de recherche a introduit une avancée révolutionnaire dans le domaine du montage vidéo grâce à la fusion de modèles de diffusion générative guidés par le texte. Si ces modèles avaient auparavant révolutionné la création et la manipulation d’images, étendre leurs capacités au montage vidéo restait un formidable défi. Les méthodes existantes nécessitaient soit un recyclage laborieux pour chaque entrée, soit recouraient à des techniques sujettes aux erreurs pour propager les modifications d’image à travers les images. En réponse à ces limitations, les chercheurs ont présenté un modèle de diffusion vidéo guidé par la structure et le contenu qui permettait un montage vidéo transparent basé sur des descriptions textuelles ou visuelles du résultat souhaité. La solution suggérée consistait à exploiter les estimations de profondeur monoculaires avec différents niveaux de détail pour obtenir un contrôle précis sur la fidélité de la structure et du contenu.
Gen-1 a été formé conjointement sur les images et les vidéos, ouvrant la voie à des capacités de montage vidéo polyvalentes. Il a donné aux utilisateurs un contrôle précis sur les caractéristiques de sortie, permettant une personnalisation basée sur quelques images de référence. De nombreuses expériences ont démontré ses prouesses, depuis la préservation de la cohérence temporelle jusqu’à la satisfaction des préférences des utilisateurs dans l’édition des résultats.
Le document présente RêveurV3, un algorithme pionnier, basé sur des modèles mondiaux, qui présente des performances remarquables dans un large spectre de domaines, englobant à la fois des actions continues et discrètes, des entrées visuelles et de faible dimension, des environnements 2D et 3D, des budgets de données variés, des fréquences de récompense et des échelles de récompense. . Au cœur de DreamerV3 se trouve un modèle mondial qui apprend de l’expérience, combinant une perception riche et un entraînement à l’imagination. Ce modèle intègre trois réseaux de neurones : un pour prédire les résultats futurs en fonction d’actions potentielles, un autre pour évaluer la valeur de différentes situations et un troisième pour apprendre à naviguer vers des situations intéressantes. La généralisabilité de l’algorithme à travers des domaines avec des hyperparamètres fixes est obtenue grâce à la transformation des amplitudes des signaux et à des techniques de normalisation robustes.
Une réalisation particulièrement remarquable de DreamerV3 est sa capacité à relever le défi de la collecte de diamants dans le jeu vidéo populaire Minecraft entièrement à partir de zéro, sans aucune dépendance aux données humaines ou aux programmes d’études. DreamerV3 fait également preuve d’évolutivité, où des modèles plus grands se traduisent directement par une plus grande efficacité des données et des performances finales supérieures.
En 2023, le paysage de la recherche sur l’IA a connu des progrès remarquables, et ces dix articles transformateurs ont éclairé la voie à suivre. Des modèles de langage innovants aux techniques révolutionnaires de génération d’images et de montage vidéo, ces articles ont repoussé les limites des capacités de l’IA. Alors que nous réfléchissons à ces réalisations, nous prévoyons encore plus de découvertes et d’applications transformatrices à l’horizon, façonnant le paysage de l’IA pour les années à venir.
Nous vous informerons lorsque nous publierons d’autres articles de synthèse comme celui-ci.