Hva påvirker chatboters evne til å løse logiske problemer?

Treningstips, middagsforslag, eller hjelp med skole eller arbeid. Store språkmodeller som ChatGPT, DeepSeek og Gemini er utviklet for å hjelpe oss med en rekke ulike oppgaver og gjøremål.

Men hvor gode er de på logiske problemer? Og hva påvirker deres evne til å resonnere?

Dette utforsker stipendiat Daniel Kaiser i en ny studie. Han forsker på store språkmodeller i doktorgradsprosjektet sitt hos UiTs maskinlæringsgruppe og Integreat – Norsk senter for kunnskapsdrevet maskinlæring.

Han har utviklet en ny metode til å undersøke problemløsningsferdighetene til store språkmodeller. Forskningen hans er publisert som en konferanseartikkel til ICLR 2026.

Avdekker skjulte feil i modellene

Selv om store språkmodeller har blitt en nyttig teknologi med mange fordeler, er de kjente for å gjøre feil. Noen ganger på katastrofalt vis.

Stipendiat Daniel Kaiser tror metoden hans, CogniLoad, kan bidra til å oppdage og forstå begrensningene store språkmodeller har når de løser logiske oppgaver. Foto: Privat

I 2025 fant ChatGPT opp 11 av 18 kilder som Tromsø kommune brukte i en skolestrukturrapport – et typisk eksempel på en hallusinasjon.

– Man bør aldri stole blindt på hva store språkmodeller sier, selv om det virker sant eller overbevisende. Det er viktig å alltid dobbeltsjekke og kontrollere svarene deres, advarer Kaiser oss.

Han tror metoden, som han kaller "CogniLoad", kan bidra til å oppdage og forstå hvilke begrensninger store språkmodeller har når de løser logiske problemer.

– Den er lagd for å hjelpe oss å forstå hvorfor enkelte modeller gjør det godt eller kommer til kort på ulike oppgaver, sier Kaiser.

Ikke alle store språkmodeller er like flinke på samme oppgave

Hvordan store språkmodeller utvikles, for eksempel størrelsen på modellene eller hvilke data de trenes på, avgjør hvor gode de blir på å løse en bestemt oppgave. Derfor er ikke alle modeller like flinke på den samme oppgaven.

Det er enorme forskjeller i hva store språkmodeller er i stand til

– Det er enorme forskjeller i hva store språkmodeller er i stand til. Avanserte modeller som ChatGPT sin GPT-5-modell er vanligvis flinkere på mer komplekse problemer, mens mindre modeller som Metas LLaMA-modeller er bedre egnet for enklere oppgaver, forklarer Kaiser.

Likevel er det ikke alltid innlysende hva modellene er best eller verst på. Den komplekse strukturen bak modellene gjør det også vanskelig å forstå hvor mulige feil kommer fra.

Verdifull kunnskap

Derfor er det viktig å undersøke hva store språkmodeller kan og ikke kan gjøre, uavhengig av hvor avanserte de er. Selv de mest avanserte modellene kan gjøre feil, uansett hvor selvsikre de fremstår.

– En test som CogniLoad kan bidra til å finne ut når og hvorfor tankegangen til store språkmodeller bryter sammen. Det gjør det mulig å undersøke hvilke typer logiske feil modellene gjør, sier Kaiser.

Denne kunnskapen er verdifull på mange måter.

– Denne informasjonen kan brukes til å bedre forstå hva store språkmodeller strever mest med. Utviklere kan bruke den til å justere og forbedre modellene sine, legger han til.

Uten navn-1.jpg — CogniLoad går ut på å gi store språkmodeller en logisk gåte som de skal løse. Foto: Mostphotos

Logisk gåte

CogniLoad går ut på å gi en stor språkmodell en logisk gåte. Den starter med å beskrive en situasjon med flere mennesker og ulike fakta om dem. Det kan for eksempel være hva de har på seg eller hvilken musikk de sist lyttet til.

Deretter får modellen en rekke påstander som endrer hvordan situasjonen ser ut. Til slutt skal den svare på et spørsmål om én person, for eksempel hvilken farge de har på sokkene sine.

– Modellen må hele tiden holde oversikt over endringene fra start til slutt for å løse gåten på riktig måte, forklarer Kaiser.

Kaiser kan justere gåten for å gjøre den vanskeligere, for eksempel ved å øke lengden eller kompleksiteten, eller å legge til mer irrelevant innhold.

Justerbarheten er ment for å avsløre hvilke aspekter med gåten som påvirker modellens evne til å løse den.

Metoden er basert på kognitiv belastningsteori, som sier at hvor hardt hjernen vår må jobbe påvirker vår evne til å løse ulike oppgaver.

– Når vi har for mye å holde oversikt over på en gang, blir det vanskeligere å tenke nøye og unngå feil. Ettersom store språkmodeller er laget for å etterligne menneskelig intelligens, så ønsket vi å se hvordan ulike former for kognitiv belastning påvirker modellenes evne til å resonnere, sier Kaiser.

Testet på ChatGPT, DeepSeek og Gemini

Kaiser testet metoden på 22 forskjellige store språkmodeller – både på åpne og kommersielle modeller som ChatGPT, DeepSeek, og Gemini.

– Poenget var å undersøke hvilke belastningsformer modellene håndterer best, og hvilke som får de til å slite, forklarer Kaiser.

Funn fra studien viser at metoden kan gi unik innsikt i hvordan disse modellene behandler og løser logiske problemer – uavhengig av størrelsen på modellene.

– De viser at metoden kan brukes på alle disse modellene for å forstå hva som påvirker resonneringsevnene deres, sier han.

Likheter med menneskelig intelligens

Resultatene peker på noen interessante likheter mellom hvordan mennesker og store språkmodeller behandler informasjon.

Det er en påminnelse om at selv når de beste modellene høres selvsikre og flytende ut, kan de fortsatt miste oversikten over viktige detaljer og ende opp med å gjøre feil

– Vi fant ut at faktorer som lengde, kompleksitet og støy faktisk påvirker de store språkmodellenes evne til å løse logiske problemer. Akkurat som når mennesker utsettes for ulike former for kognitiv belastning, sier Kaiser.

Selv de mest avanserte modellene slet når oppgaven ble lengre eller vanskeligere.

– Det er en påminnelse om at selv når de beste modellene høres selvsikre og flytende ut, kan de fortsatt miste oversikten over viktige detaljer og ende opp med å gjøre feil, forteller han.

Modellstørrelse spiller viktig rolle

Modellene møtte på flest problemer når gåten ble lang. Men størrelsen på modellene spiller også en viktig rolle.

– Jo lengre gåten ble, desto vanskeligere ble det for flere av modellene å gi riktig svar. Vi ser at mindre modeller strevde mye tidligere, mens de mer avanserte klarte å holde tritt lengre, sier Kaiser.

– Men til slutt begynte selv de beste modellene å gjøre flere feil når oppgaven ble ganske lang, legger han til.

Han ser et lignende mønster når gåten ble mer kompleks.

– Treffsikkerheten til modellene faller også når påståndene ble mer detaljrike og vanskeligere å følge, sier Kaiser.

Poenget med CogniLoad er ikke å måle hva de store språkmodellene kan fra før, understreker han – men å forstå hvor godt modellene tar til seg og behandler ny informasjon.

– Det er ikke en kunnskapstest hvor vi spør store språkmodeller om fakta dem skal huske på. Her ser vi på hvor godt modellene løser problemer de aldri har sett før, sier han.

Er generell kunstig intelligens nærmere enn vi tror?

KI-systemer utvikler seg i et raskt tempo. Noen frykter at de etter hvert vil ligne eller overgå menneskelig intelligens, og oppnå såkalt generell kunstig intelligens.

Selv om metoden til Kaiser ikke gir et klart svar om fremtiden, tyder likevel forskningen hans på at dette tiltenkte scenarioet ligger et godt stykke forbi horisonten.

– Selv gåter som virker enkle ut kan bli vanskelige for dagens modeller når de blir lengre og vanskeligere å følge med på. Gåten burde egentlig være ganske enkel for en stor språkmodell å løse, så det er ganske fascinerende å se hvordan de mest avanserte modellene slet når vi økte vanskelighetsgraden, sier Kaiser.

Derfor har både mindre og mer avanserte modeller fortsatt et forbedringspotensial.

– Det viser på en måte hvor langt unna dagens modeller er fra å oppnå denne typen superintelligens, avslutter han.

Referanse:

Daniel Kaiser, Arnold Frigessi, Ali Ramezani-Kebrya, & Benjamin Ricaud: CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density. The Fourteenth International Conference on Learning Representations (ICLR 2026) (Preprint).

Om Integreat – Norsk senter for kunnskapsdrevet maskinlæring

Et norsk senter for fremragende forskning (SFF). Senterets mål er å gjøre maskinlæring mer bærekraftig, presist, pålitelig og etisk.
Ved å dra nytte av ekspertisen til ledende forskere, unge talenter og anerkjente internasjonale eksperter, vil Integreat være med på å definere det nyskapende området kunnskapsdrevet maskinlæring i Norge.
Senteret er et partnerskap mellom Universitetet i Oslo, UiT Norges arktiske universitet og Norsk regnesentral.

Les mer om Integreat på www.integreat.no.

Bjørklund, Petter petter.bjorklund@uit.no Kommunikasjonsrådgiver / Maskinlæring

Publisert: 20.02.26 10:28 Oppdatert: 20.02.26 10:43

Teknologi