Généré avec DALL-E 3
Dans le paysage en évolution rapide du traitement du langage naturel, 2023 est devenue une année charnière, témoin de recherches révolutionnaires dans le domaine des grands modèles linguistiques (LLM). Ces LLM, caractérisés par leurs vastes tailles de paramètres et leurs capacités impressionnantes, ont joué un rôle central dans l’élaboration de l’avenir des applications d’IA. Cette introduction donne un aperçu de la recherche transformatrice qui s’est déroulée dans le domaine, où les modèles linguistiques ont été affinés, réduits et même intégrés à des outils externes pour aborder un large éventail de tâches.
Si vous souhaitez sauter le pas, voici les documents de recherche que nous avons présentés :
Si de tels résumés de recherche vous sont utiles, abonnez-vous à notre liste de diffusion AI pour être alerté lorsque nous publions du nouveau matériel.
L’équipe Meta AI affirme que les modèles plus petits formés sur davantage de jetons sont plus faciles à recycler et à affiner pour des applications de produits spécifiques. Ils ont donc introduit Lama (Lénorme Lalangue Mmodèle Meta UNI), une collection de modèles de langage fondamentaux avec des paramètres 7B à 65B. Les LLaMA 33B et 65B ont été formés sur 1,4 billion de jetons, tandis que le plus petit modèle, LLaMA 7B, a été formé sur un billion de jetons. Ils ont utilisé exclusivement des ensembles de données accessibles au public, sans dépendre de données propriétaires ou restreintes. L’équipe a également mis en œuvre des améliorations architecturales clés et des techniques d’optimisation de la vitesse de formation. Par conséquent, le LLaMA-13B a surpassé le GPT-3, étant plus de 10 fois plus petit, et le LLaMA-65B a présenté des performances compétitives avec le PaLM-540B.
LLaMA 2 est une version améliorée de son prédécesseur, formée sur un nouveau mélange de données, avec un corpus de pré-entraînement 40 % plus grand, une longueur de contexte doublée et une attention aux requêtes groupées. La série de modèles LLaMA 2 comprend LLaMA2 et LLaMA 2-Chat, optimisé pour le dialogue, avec des tailles allant de 7 à 70 milliards de paramètres. Ces modèles présentent des performances supérieures en termes d’utilité et de sécurité par rapport à leurs homologues open source et sont comparables à certains modèles fermés. Le processus de développement impliquait des mesures de sécurité rigoureuses, notamment l’annotation des données spécifiques à la sécurité et l’équipe rouge. Le document vise à contribuer au développement responsable des LLM en fournissant des descriptions détaillées des méthodologies de réglage fin et des améliorations de la sécurité.
Dans ce document de recherche, une équipe de Microsoft Research analyse une première version du GPT-4 d’OpenAI, qui était encore en développement actif à l’époque. L’équipe soutient que GPT-4 représente une nouvelle classe de grands modèles de langage, présentant une intelligence plus généralisée par rapport aux modèles d’IA précédents. Leur enquête révèle les capacités étendues de GPT-4 dans divers domaines, notamment les mathématiques, le codage, la vision, la médecine, le droit et la psychologie. Ils soulignent que GPT-4 peut résoudre des tâches complexes et nouvelles sans invitation spécialisée, atteignant souvent des performances proches du niveau humain.
L’équipe Microsoft souligne également le potentiel de GPT-4 à être considéré comme une forme précoce, quoique incomplète, d’intelligence artificielle générale (AGI). Ils se concentrent sur l’identification des limites de GPT-4 et discutent des défis liés à la progression vers des versions AGI plus avancées et plus complètes. Cela implique d’envisager de nouveaux paradigmes au-delà du modèle actuel de prédiction du mot suivant.
BLIP-2 est un cadre de pré-formation efficace et générique pour les modèles de vision et de langage, conçu pour contourner le coût de plus en plus prohibitif de la pré-formation des modèles à grande échelle. BLIP-2 exploite des encodeurs d’images pré-entraînés gelés disponibles dans le commerce et de grands modèles de langage gelés pour amorcer la pré-formation en langage visuel, en incorporant un transformateur de requête léger pré-entraîné en deux étapes. La première étape lance l’apprentissage de la représentation vision-langage à partir d’un encodeur d’image figé, et la deuxième étape propulse l’apprentissage génératif vision-langage à partir d’un modèle de langage figé.
Bien qu’il ait beaucoup moins de paramètres entraînables, BLIP-2 surpasse les méthodes de pointe, dépassant le Flamingo80B de DeepMind de 8,7 % sur le VQAv2 zéro tir avec 54 fois moins de paramètres entraînables. Le modèle présente également des capacités prometteuses de génération d’image en texte sans prise de vue suivant des instructions en langage naturel.
InstruireBLIP est un nouveau cadre pour le réglage des instructions vision-langage, permettant à des modèles à usage général de traiter un large éventail de tâches visuelles à l’aide d’instructions en langage naturel. Cette étude s’appuie sur le modèle BLIP-2 pré-entraîné, intégrant un encodeur d’image, un grand modèle de langage et un transformateur de requête (Q-Former) pour intégrer les deux. Le réglage des instructions implique un réglage fin du Q-Former tout en gardant l’encodeur d’image et le LLM figés. Pour une étude et une évaluation approfondies, les chercheurs ont transformé 26 ensembles de données en format de réglage des instructions, en utilisant 13 ensembles de données pour le réglage des instructions et 13 pour l’évaluation sans tir. Une innovation clé est l’extraction de caractéristiques visuelles tenant compte des instructions, permettant au modèle d’extraire des caractéristiques pertinentes en fonction d’instructions données.
Les modèles InstructBLIP démontrent des performances de pointe sans tir dans diverses tâches de langage visuel, surpassant considérablement les modèles BLIP-2 et Flamingo plus grands, tout en conduisant à des performances de pointe, lorsqu’ils sont affinés individuellement en aval. tâches (par exemple, précision de 90,7 % sur les questions ScienceQA avec des contextes d’image).
Le document de recherche présente PaLM-E, une nouvelle approche des modèles linguistiques qui comble le fossé entre les mots et les perceptions dans le monde réel en incorporant directement des entrées continues de capteurs. Ce modèle de langage incorporé intègre de manière transparente des phrases multimodales contenant une estimation d’état visuelle et continue et des informations textuelles. Ces entrées sont formées de bout en bout avec un LLM pré-entraîné et appliquées à diverses tâches incorporées, notamment la planification séquentielle de manipulations robotiques, la réponse visuelle aux questions et le sous-titrage.
PaLM-E, en particulier le plus grand modèle doté de paramètres 562B, démontre des performances remarquables sur un large éventail de tâches et de modalités. Il excelle notamment dans les tâches de raisonnement incarné, présente un transfert positif d’une formation conjointe dans les domaines du langage, de la vision et du langage visuel, et présente des capacités de pointe en matière d’analyse comparative OK-VQA. Malgré l’accent mis sur le raisonnement incarné, le PaLM-E-562B présente également un éventail de capacités, notamment le raisonnement multimodal en chaîne de pensée sans tir, les invites en quelques tirs, le raisonnement mathématique sans OCR et le raisonnement multi-images, bien qu’il soit formés uniquement sur des exemples d’images uniques.
En mai 2023, l’équipe Google a introduit PaLM2, un successeur du PaLM original qui présente des capacités multilingues améliorées, de meilleures capacités de raisonnement et une plus grande efficacité informatique. PaLM 2, basé sur une architecture Transformer, est formé à l’aide d’un mélange d’objectifs et a été largement évalué sur des tâches impliquant l’anglais et d’autres langues, ainsi que sur des défis de raisonnement.
Les résultats montrent que PaLM 2 surpasse considérablement son prédécesseur en termes de performances de tâches sur différentes tailles de modèles, tout en permettant une inférence plus rapide et plus efficace. Les solides capacités de raisonnement de PaLM 2 sont mises en évidence par des améliorations substantielles par rapport au PaLM original dans BIG-Bench et d’autres tâches de raisonnement. Le modèle maintient également des performances stables dans les évaluations responsables de l’IA et offre un contrôle du temps d’inférence sur la toxicité sans compromettre les autres capacités ni entraîner de frais supplémentaires.
Le document de recherche présente Formeur d’outils, une nouvelle approche pour améliorer les capacités des grands modèles de langage (LM) en leur permettant d’utiliser des outils externes via des API simples. Bien que les LM excellent dans la résolution de nouvelles tâches à partir d’exemples limités ou d’instructions textuelles, ils ont souvent du mal à gérer des fonctions de base telles que l’arithmétique ou la recherche factuelle, où des modèles plus petits fonctionnent mieux. Toolformer comble cette lacune en apprenant aux LM à déterminer de manière autonome quelles API invoquer, quand les appeler, quels arguments fournir et comment intégrer les résultats dans les futures prédictions de jetons. Ce processus d’apprentissage est auto-supervisé et ne nécessite qu’un petit nombre de démonstrations pour chaque API. Toolformer, basé sur un GPT-J pré-entraîné avec 6,7 milliards de paramètres, améliore considérablement les performances sans tir dans diverses tâches en aval, surpassant ainsi un modèle GPT-3 beaucoup plus grand et d’autres références.
Le document de recherche présente un cadre révolutionnaire pour l’inférence de modèles de langage appelé Arbre des pensées (ToT). Les LLM se sont révélés aptes à résoudre des tâches, mais sont limités à une prise de décision au niveau symbolique, de gauche à droite, lors de l’inférence. Cela entrave leur performance dans les tâches nécessitant de l’exploration, une anticipation stratégique ou des décisions initiales cruciales. ToT s’appuie sur l’approche de la chaîne de pensée pour inciter les LLM et permet l’exploration d’unités de texte cohérentes appelées « pensées ». Ces réflexions servent d’étapes intermédiaires dans la résolution de problèmes, permettant aux LLM de prendre des décisions délibérées en considérant plusieurs cheminements de raisonnement, en auto-évaluant les choix et en prenant des décisions globales en regardant vers l’avant ou en revenant en arrière si nécessaire. L’inspiration pour ToT vient des modèles de « double processus » dans la prise de décision humaine, où les décisions rapides et automatiques (Système 1) sont complétées par des décisions plus lentes et délibérées (Système 2).
Des expériences empiriques démontrent l’efficacité de ToT sur des tâches difficiles telles que le jeu des 24, l’écriture créative et les mots croisés. À titre d’exemple, dans le jeu des 24, où GPT-4 utilisant la chaîne de pensée n’a réussi à résoudre que 4 % des tâches, cette approche a atteint un taux de réussite remarquable de 74 %.
Alors que les chercheurs continuent de repousser les limites de ce que les LLM peuvent réaliser, l’avenir des applications d’IA semble de plus en plus prometteur, offrant des solutions à des défis complexes et améliorant la collaboration homme-IA. Le parcours de l’innovation dans les LLM est loin d’être terminé et le monde attend avec impatience la prochaine vague de percées dans le domaine en constante expansion de l’intelligence artificielle.
Nous vous informerons lorsque nous publierons d’autres articles de synthèse comme celui-ci.