Les grands modèles linguistiques peuvent-ils résoudre des défis complexes et complexes ?

Modèles de langage volumineux et défis de raisonnement complexes

Hey, AI Passionnés ! Je suis Ali, le créateur d'AIMOJO, et je suis passionné d'intelligence artificielle depuis l'époque où les chatbots parvenaient à peine à enchaîner deux phrases.

À l'époque, AI J'avais l'impression d'avoir une ébauche de quelque chose d'énorme, et maintenant ? C'est un spectacle époustouflant : pensez à ChatGPT, Grok et aux dernières avancées en matière de modèles de langages volumineux (LLM).

Exécuter AIMOJO me permet de poursuivre ma passion : découvrir ce que cette technologie peut réellement faire, en particulier face au genre de problèmes complexes du monde réel qui ne viennent pas avec une aide-mémoire.

Alors, abordons une grande question : dans quelle mesure les LLM parviennent-ils réellement à résoudre des problèmes complexes et désordonnés ?

Qu’est-ce qui définit un problème « désordonné » ?

Les problèmes complexes ne sont pas de simples casse-têtes du type « Combien font 5 fois 7 ? ». Ce sont ceux qui donnent l'impression d'assembler un puzzle les yeux bandés : des pièces partout, sans point de départ clair. Ces questions puisent des informations de multiples sources et exigent des sauts logiques pour relier le tout.

Un vrai exemple:
Prenons ceci : « En quelle année est né le leader du groupe qui a interprété le morceau samplé dans « Power » de Kanye West ? » Voici comment vous pourriez le résoudre :
Comment les grands modèles de langage gèrent les défis complexes
  • Étape 1:Reconnaissez que « Power » échantillonne « 21st Century Schizoid Man » de King Crimson.
  • Étape 2 : Identifiez le chef d'orchestre de King Crimson comme étant Robert Fripp.
  • Étape 3:Déterminez l'année de naissance de Fripp : 1946.

C'est une question à plusieurs étapes. Vous ne vous contentez pas de rappeler un fait ; vous en assemblez plusieurs. Il s'agit de raisonnement, pas de mémoire par cœur, et c'est un test parfait pour les LLM.

Pourquoi c'est délicat

Les problèmes complexes font dérailler les modèles, car ils reposent sur des liens entre différents domaines : musique, histoire, culture populaire. Un seul lien manquant, toute la solution s'effondre.

L'ensemble de données FRAMES : un test de résistance pour les LLM

Les chercheurs ont construit le Ensemble de données FRAMES pour voir comment les LLM résistent à la pression. Publié dans un article de 2024 c'est une collection de 824 questions en plusieurs étapes. Ces compétences couvrent l’inférence, les mathématiques, la logique et le raisonnement basé sur le temps, comme le calcul de l’âge d’une personne à partir d’indices historiques.

Les nombres

Lorsque les meilleurs LLM se sont attaqués à FRAMES sans aide, ils ont obtenu environ 40% de précision. Convenable, mais pas éblouissant.

Les chercheurs leur ont alors donné une bouée de sauvetage : l’accès à des informations extérieures via Génération augmentée par récupération (RAG). Sur ce, la précision a grimpé à 66-73 %, selon la configuration. C'est un grand pas en avant, qui montre que les LLM brillent davantage avec un soutien adéquat.

Creusons un peu

L'étude FRAMES souligne que certaines questions nécessitent jusqu'à six étapes de raisonnement. Par exemple : « Si un personnage historique avait 35 ans lors d'un événement de 1945 et que son frère ou sa sœur est né trois ans plus tard, quel âge avait-il en 3 ? » C'est un mélange de mathématiques, de chronologie et d'inférence : un exercice complexe !

Génération augmentée par récupération (RAG) : la technologie derrière le boost

Comment la technologie RAG fonctionne avec les LLM

RAG c'est comme donner un LLM un assistant de recherche rapide. Voici le processus :

Phase de recherche:Le système analyse une base de données (comme Wikipédia, les documents de l'entreprise ou le Web) à la recherche d'informations pertinentes.
Phase de raisonnement:Le LLM combine la question avec les données récupérées et construit une réponse.

Pourquoi ça aide

Les LLM ne stockent pas tous les faits dans leurs données d'entraînement. RAG comble ces lacunes. Dans FRAMES, cette base de référence de 40 % passant à 66-73 % prouve qu'elle révolutionne le raisonnement multi-sauts.

Exemple du monde réel:
Un chatbot de support client optimisé par RAG peut récupérer des documents pertinents à partir de la base de connaissances d'une entreprise et générer des informations précises et fiables. réponses contextuelles aux demandes des utilisateurs. Cela garantit une assistance précise et personnalisée en temps réel, améliorant ainsi la satisfaction client.

Le Catch
Ce n'est pas infaillible. Si la recherche extrait des données non pertinentes ou parasites, le LLM peut toujours la rater. Une vidéo YouTube a montré un modèle interprétant mal un document vague, réduisant la précision de 15 % dans certains cas.

Là où les LLM peinent

Les difficultés des LLM AI Raisonnement

Correspondance de modèles vs. logique réelle - Preuves

A Étude CSAIL du MIT 2024 a révélé que les grands modèles linguistiques (LLM) excellent dans les tâches familières mais peinent considérablement avec les scénarios nouveaux, s'appuyant davantage sur la mémorisation que sur un véritable raisonnement. modèles testés par la recherche sur des tâches contrefactuelles, telles que des positions d'échecs modifiées et l'arithmétique dans des systèmes non basés sur la base 10, où la précision a chuté de façon spectaculaire.

L'innovation communautaire, moteur de l'avenir de AI Raisonnement

L'effort visant à amener les LLM à résoudre des problèmes complexes et concrets ne concerne pas uniquement les grandes entreprises : il s'agit d'une initiative mondiale et citoyenne. Pensez aux débuts d'Internet : chaotiques, décousus et pleins d'idées audacieuses. Les projets open source et le travail décentralisé orientent le mouvement. AI raisonnement dans cet espace passionnant.

AI Raisonnement

Les puissances de l'open source

Les communautés produisent des outils qui rivalisent avec les grands. Étreindre le visage: leur plateforme héberge plus de modèles 100,000, dont des tonnes sont affûtées pour tâches de raisonnement— comme rassembler des indices en plusieurs étapes. Leur bibliothèque Transformers ? C'est pratiquement le couteau suisse de AI faire des recherches maintenant.

Ensuite, il y a Eleuther IA, un équipage de rebelles qui ont construit GPT-J, un outil open source qui rivalise avec GPT-3 sur des benchmarks comme FRAMES. Ce n'est pas seulement génial, c'est la preuve que n'importe qui avec une bonne plateforme peut aider les étudiants en master à devenir plus intelligents dans les énigmes complexes.

Victoires décentralisées

La diversité alimente les avancées. Institut Allen pour l'IA laissé tomber le ARC (Défi de raisonnement AI2), un ensemble de données de questions scientifiques complexes qui obligent les étudiants en master à raisonner étape par étape. Compétitions Kaggle attirer des talents mondiaux pour résoudre des tâches complexes, en proposant des idées que même les laboratoires pourraient manquer.

Les joueurs solo brillent aussi. Un article d'arXiv paru en 2024 a dévoilé une nouvelle amélioration de l'attention qui a amélioré de 15 % le raisonnement en contexte long. C'est le genre d'avantage dont les LLM ont besoin pour résoudre des problèmes complexes du monde réel.

Lier cela à des problèmes complexes

Les tâches complexes, comme extraire un fait d'un tas d'indices confus, nécessitent des LLM capables de penser avec souplesse et de relier les points. Les efforts de la communauté y parviennent grâce à :

Création d'ensembles de données (pensez à ARC) pour former des modèles sur des défis de raisonnement sauvages.
Partager modèles ouverts (comme GPT-J) pour que chacun puisse le modifier.
Nous lançons des astuces révolutionnaires (de nouveaux hacks d'attention) qui améliorent les performances.

Il ne s’agit pas seulement d’un battage médiatique : c’est le moteur qui pousse les LLM vers la maîtrise du monde réel.

Réflexions finales

Les LLM sont époustouflants, mais les problèmes complexes révèlent leurs limites. RAG leur donne un sérieux coup de pouce, et de nouveaux visages comme Sentient Chat laissent entrevoir ce qui les attend. AI geek, j'ai hâte de voir comment tout cela se passe.

Vous avez une question complexe que vous avez posée lors d'un master ? Laissez un commentaire ; j'aimerais beaucoup connaître votre avis.

Rester avec AIMOJO pour plus d' AI aventures - nous ne faisons que commencer

Laissez un commentaire

Votre adresse courriel n'apparaitra pas. Les champs obligatoires sont marqués *

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

Rejoignez le Aimojo Tribu!

Rejoignez plus de 76,200 XNUMX membres pour des conseils d'initiés chaque semaine ! 
🎁 BONUS: Obtenez notre 200 $ «AI « Boîte à outils de maîtrise » GRATUITE lors de votre inscription !

Tendances AI Outils
Petite amie.AI

Découvrez le AI une petite amie qui écoute vraiment Émotions authentiques, connexion authentique Découvrez la nouvelle génération AI camaraderie

Voiset

Transformez votre voix en action Google, Outlook et Zoom sont intégrés et synchronisés automatiquement. Rationalisez les projets d'équipe et les objectifs personnels de la même manière

Vessium

Création de pages, de flux d'emails et de CRM Moteur de vente tout-en-un Augmentez vos conversions grâce au générateur intelligent de Vessium

Boutique Apify

Outils puissants d'extraction de données web, sans aucune programmation Extraire des données d'Amazon, Google, LinkedIn et plus encore Remplacez le copier-coller manuel par l'automatisation.

OnzeLabs 

Créer Des voix synthétiques uniques ou clonez les vôtres ! « Générer » AI des voix en 28 langues pour un impact mondial. Améliorez l'audio du jeu avec des dialogues captivants avec les PNJ.

© Copyright 2023 - 2025 | Devenez un AI Pro | Fait avec ♥