Kan stora språkmodeller lösa komplexa, röriga utmaningar?

Stora språkmodeller & röriga resonemangsutmaningar

Hej, AI entusiaster! Jag är Ali, killen bakom AIMOJO, och jag har varit besatt av artificiell intelligens sedan den tid då chattrobotar knappt kunde få ihop två meningar.

Då, AI kändes som en grov skiss av något enormt, och nu? Det är en daglig häpnadsväckande händelse – tänk ChatGPT, Grok och de senaste genombrotten inom stora språkmodeller (LLM).

Att köra AIMOJO låter mig jaga min passion: att ta reda på vad den här tekniken verkligen kan göra, särskilt när jag ställs inför den typ av trassliga problem i verkligheten som inte kommer med ett fuskblad.

Så låt oss gräva ner oss i en stor fråga: hur väl kan LLM:er faktiskt sortera igenom komplicerade, röriga utmaningar?

Vad definierar ett "stökigt" problem?

Stökiga problem är inte ditt enkla "Vad är 5 gånger 7?" hjärnsläpp. Det är de som känns som att du lägger ett pussel med ögonbindel — bitar överallt, ingen tydlig utgångspunkt. Dessa frågor hämtar information från flera ställen och kräver logiska hopp för att knyta ihop allt.

Ett riktigt exempel:
Ta det här: "Vilket år föddes bandledaren för gruppen som framförde låten som samplades i Kanye Wests "Power"? Så här skulle du knäcka det:
Hur stora språkmodeller hanterar stökiga utmaningar
  • steg 1: Inse att "Power" samplar "21st Century Schizoid Man" av King Crimson.
  • Steg 2: Identifiera King Crimsons bandledare som Robert Fripp.
  • steg 3: Pin ner Fripps födelseår—1946.

Det är en fråga om flera hopp. Du minns inte bara ett faktum; du syr ihop en kedja av dem. Det är resonemang, inte rote memory, och det är ett perfekt test för LLMs.

Varför det är knepigt

Smutsiga problem slår upp modeller eftersom de förlitar sig på att koppla ihop punkter över olika domäner – musik, historia, popkultur. Missar en länk, och hela svaret kollapsar.

FRAMES Dataset: A Stress Test for LLMs

Forskare byggde FRAMES dataset för att se hur LLM:er håller sig under press. Publicerad i en tidning 2024 det är en samling av 824 flerstegsfrågor. Dessa spänner över slutledningar, matematik, logik och tidsbaserade resonemang – som att beräkna någons ålder utifrån historiska ledtrådar.

Siffrorna

När de bästa LLM:erna tacklade FRAMES utan hjälp gjorde de mål runt om 40% noggrannhet. Anständigt, men inte bländande.

Sedan gav forskare dem en livlina: tillgång till extern info via Retrieval-Augmented Generation (TRASA). Med det, noggrannheten ökade till 66-73 %, beroende på inställningen. Det är ett stort steg som visar att LLM:er lyser starkare med rätt stöd.

Gräver djupare

I FRAMES-dokumentet noteras att vissa frågor behöver upp till sex resonemangssteg. Till exempel: "Om en historisk person var 35 under en händelse 1945 och deras syskon föddes 3 år senare, hur gammal var syskonen 1980?" Det är matematik, tidslinjespårning och slutledning i ett – tuffa grejer!

Retrieval-Augmented Generation (RAG): Tekniken bakom boosten

Hur RAG-teknik fungerar med LLM:er

RAG är som att ge en LLM en snabb forskningsassistent. Här är processen:

Sökfas: Systemet skannar en databas – tänk Wikipedia, företagsdokument eller webben – för relevant information.
Resonemangsfas: LLM kombinerar frågan med hämtad data och skapar ett svar.

Varför det hjälper

LLM:er lagrar inte alla fakta i sina träningsdata. RAG fyller dessa luckor. I FRAMES bevisar de 40 % av baslinjen som skjuter i höjden till 66–73 % att det är en spelomvandlare för flerhoppsresonemang.

Exempel från verkliga världen:
En chatbot för kundsupport som drivs av RAG kan hämta relevanta dokument från ett företags kunskapsbas och generera exakta, sammanhangsmedvetna svar till användarfrågor. Detta säkerställer exakt, personlig assistans i realtid, vilket ökar kundnöjdheten.

Catch
Det är inte idiotsäkert. Om sökningen hämtar irrelevant eller brusig data, kan LLM fortfarande flubra den. En YouTube-video visade att en modell misstolkade ett vagt dokument, vilket minskade noggrannheten med 15 % i vissa fall.

Där LLMs kämpar

Jurister kämpar i AI Resonemang

Mönstermatchning vs. True Logic- Bevis

A 2024 MIT CSAIL-studie avslöjade att stora språkmodeller (LLM) utmärker sig i välbekanta uppgifter men kämpar avsevärt med nya scenarier, och förlitar sig mer på memorering än genuina resonemang. De forskningstestade modeller på kontrafaktiska uppgifter, såsom ändrade schackpositioner och aritmetik i icke-bas-10-system, där noggrannheten minskade dramatiskt.

Samhällsinnovation driver framtiden för AI Resonemang

Strävan för att få LLM:er att knäcka röriga, verkliga problem är inte bara för stora företag – det är en global gräsrotsansträngning. Tänk tidiga internetvibbar: kaotiska, knasiga och fulla av djärva idéer. Projekt med öppen källkod och decentraliserat arbete är styrande AI resonemang in i detta spännande utrymme.

AI Resonemang

Kraftpaket med öppen källkod

Samhällen tar fram verktyg som konkurrerar med de stora hundarna. Ta Kramande ansikte: deras plattform värdar över 100,000 modeller, ton varav slipas för resonemangsuppgifter—som att pussla ihop ledtrådar över flera steg. Deras Transformers-bibliotek? Det är praktiskt taget den schweiziska armékniven av AI forskning nu.

Då finns det Eleuther AI, en besättning av rebeller som byggde GPT-J, ett odjur med öppen källkod som går tå till tå med GPT-3 på riktmärken som FRAMES. Det här är inte bara coolt – det är ett bevis på att alla med en anständig rigg kan hjälpa LLM:er att bli smartare på röriga pussel.

Decentraliserade vinster

Mångfald ger bränsle till genombrott. De Allen Institute for AI tappade ARC (AI2 Reasoning Challenge), en datauppsättning av knepiga vetenskapsfrågor som tvingar LLM:er att resonera steg för steg. Under tiden, Kaggletävlingar dra in globala talanger för att knäcka komplexa uppgifter, spotta ut idéer som även laboratorier kan missa.

Solospelare lyser också. En arXiv-tidning från 2024 avslöjade en ny uppmärksamhetsjustering som ökade resonemang i långa sammanhang med 15 %. Det är den typen av spets som LLM behöver för trassliga problem i verkliga världen.

Koppla det till röriga problem

Smutsiga saker – som att gräva fram ett faktum ur en virrig hög med tips – behöver LLM:er som kan tänka flexibelt och koppla ihop punkter. Gemenskapens ansträngningar lyckas nå detta genom att:

Skapa datamängder (tänk ARC) för att träna modeller på vilda resonemangsutmaningar.
Dela öppna modeller (som GPT-J) för alla att justera.
Släpp spelförändrande trick (nya uppmärksamhetshack) som ökar prestandan.

Det här är inte bara en hype – det är motorn som driver LLM:er mot verklig behärskning.

Avslutande tankar

Jurister är häpnadsväckande, men röriga problem avslöjar deras begränsningar. RAG ger dem ett rejält lyft, och nya ansikten som Sentient Chat antyder vad som väntar runt hörnet. Som en AI Nörd, jag längtar efter att se hur allt går.

Har du en rörig fråga som du har ställt till en LLM? Lämna en kommentar – jag skulle gärna höra din åsikt.

Hålla sig till AIMOJO för mer AI äventyr – vi har precis börjat

Lämna en kommentar

E-postadressen publiceras inte. Obligatoriska fält är markerade *

Den här sidan använder Akismet för att minska spam. Lär dig hur din kommentarsdata behandlas.

Gå med i Aimojo Stam!

Gå med i 76,200 XNUMX+ medlemmar för insidertips varje vecka! 
🎁 BONUS: Få våra 200 dollarAI ”Mastery Toolkit” GRATIS när du registrerar dig!

Trend AI Verktyg
tl;dv

Sluta tappa bort det som sagts. Börja agera på varje möte. Ocuco-landskapet AI mötesanteckningsmaskin som spelar in och omvandlar samtal till handlingsbara resultat.

AskYura

Förvandla varje kundkonversation till en avslutad affärsåtgärd Ingen kod AI Agent byggd för operativ exekvering

Kuberns

Implementera smartare. Skala snabbare. Sänk molnkostnaderna med upp till 40 %. AI-Agentic Cloud PaaS byggd för fullstack-distribution utan konfiguration.

Trollkarl

Förvandla idéer till interaktiva prototyper utan en enda designkunskap AI UI-designverktyg för wireframes, mockups och appprototyper

Konsensus

Förvandla 250 miljoner forskningsrapporter till tydliga, evidensbaserade svar på några minuter Ocuco-landskapet AI akademisk sökmotor byggd för forskare som behöver snabbhet

© Upphovsrätt 2023 - 2026 | Bli en AI Proffs | Tillverkad med ♥