A mesterséges intelligencia közelmúltbeli fejlődése lehetővé tette az ún. Large Reasoning Models ( nagy következtető modellek, LRM-ek ) létrehozását, mint például az OpenAI o1/o3 modelljei, a DeepSeek-R1, vagy a Claude 3.7 Sonnet Thinking változat. Ezeket a modelleket kifejezetten arra tervezték, hogy lépésről lépésre történő gondolatmeneteket ( „Chain-of-Thought”, CoT ) generáljanak, ezzel javítva a problémamegoldási képességeiket. Az Apple kutatói „The Illusion of Thinking” ( „A gondolkodás illúziója” ) című tanulmányukban arra keresik a választ, hogy ezek a modellek hogyan teljesítenek különböző összetettségű feladatok során.
A kutatás nem hagyományos matematikai vagy programozási feladatokat használ ( ezek könnyen tartalmazhatnak ismétlődő mintákat az oktatóadatokból ), hanem négy jól szabályozható logikai kirakós játékot alkalmaz, hogy objektíven tesztelje a modellek következtetési képességeit.

Módszertan
A tanulmány négy klasszikus kirakós környezetet alkalmaz:
-
Hanoi tornyai ( Tower of Hanoi ) – A korongok számának növelésével fokozatosan nő a feladat bonyolultsága. A cél: az összes korong áthelyezése egyik cövekről a másikra, a szabályok betartása mellett ( nagyobb korong nem kerülhet kisebbre ).
-
Dáma-ugratás ( Checker Jumping ) – Két színű bábuknak egy szabad hely segítségével kell helyet cserélniük, szabályos lépésekkel. A nehézség az elemek számával nő.
-
Folyóátkelés ( River Crossing ) – Szereplők és ügynökeik korlátozott férőhelyű csónakkal próbálnak átkelni úgy, hogy egyik szereplő se maradhasson egy másik ügynökével a sajátja nélkül. A logikai koordinációs igény gyorsan nő a szereplők számával.
-
Blokk-világ ( Blocks World ) – Több toronyba rakott blokkokat kell átrendezni egy adott célállapot eléréséhez, kizárólag a legfelső elemek mozgatásával.
A modelleket gondolkodó ( „thinking” ) és nem gondolkodó ( „non-thinking” ) verzióikban hasonlítják össze, azonos tokenkeret ( szövegdarabszám ) mellett. A kísérletek során minden feladványt 25 különböző variációban próbálnak ki, különböző nehézségi szinteken.
Eredmények
1. Alacsony összetettségű feladatok:
Meglepő módon az egyszerű feladatokban a nem-gondolkodó modellek jobban teljesítenek, mint az LRM-ek. Az utóbbiak túlgondolják a problémát, feleslegesen sok lépést tesznek, és ezzel csökkentik a hatékonyságukat.
2. Közepes nehézségű feladatok:
Itt az LRM-ek előnye egyértelműen megmutatkozik: részletes, próbálkozásokkal és önkorrekcióval teli gondolatmeneteik révén hatékonyabb megoldásokat találnak.
3. Magas összetettségű feladatok:
Egy kritikus pont felett az összes modell teljesítménye nullára zuhan. Az LRM-ek sem képesek a bonyolult problémákat kezelni, és úgy tűnik, ilyenkor „feladják”: kevesebb tokent használnak fel, mint amennyi rendelkezésükre állna. Ez arra utal, hogy a jelenlegi modellek következtetési képességei nem skálázhatók korlátlanul.
A gondolatmenetek elemzése ( reasoning traces )
A kutatók a modellek lépésenkénti gondolkodását is megvizsgálták, és érdekes mintázatokra bukkantak:
-
Egyszerű feladatokban gyakori, hogy a modell már korán megtalálja a helyes megoldást, de tovább próbálkozik más utakkal is – azaz túlgondolkodik.
Tudtad? ( történelmi érdekességek )
Az ókori rómaiak gyakran használtak állott vizeletet szájvízként. A vizelet fő összetevője az ammónia, amely erős tisztítószerként működik. A vizelet annyira keresett lett, hogy a vele kereskedő rómaiaknak adót kellett fizetniük! -
Közepes nehézségnél a jó megoldás csak több hibás próbálkozás után születik meg, ami a próbálkozásos tanulás ( trial-and-error ) stratégiájára utal.
-
Nehéz feladatoknál a helyes megoldás teljesen elmarad, még akkor is, ha a modell többlépcsős gondolkodási láncot generál.
Explicit algoritmusok – segítenek vagy sem?
A kutatók kipróbálták, hogy segít-e, ha a modelleknek kifejezetten megmondják az algoritmust ( például Hanoi tornyai esetében ). Az eredmény: a teljesítmény nem javult. A modellek még így sem tudták követni az instrukciókat megfelelően – ez komoly korlát a pontos logikai következtetésben.
Egyenetlen teljesítmény különböző feladatokban
A modellek teljesítménye nemcsak összetettségi szint, hanem feladattípus szerint is jelentősen eltér:
-
A Hanoi-típusú feladatokban akár 100 helyes lépést is végre tudtak hajtani.
-
A folyóátkeléses logikai feladatban már 5 lépés után hibáztak.
Ez feltehetően a tanító adathalmaz eltéréseire vezethető vissza – a Hanoi-problémák gyakrabban fordulnak elő az interneten, így a modellek „emlékezhetnek” rájuk.
Következtetések és kérdések a jövőre
A tanulmány kétségbe vonja, hogy az LRM-ek valóban eljutottak volna az általános célú gondolkodás szintjére. Gyakran mintafelismerésre támaszkodnak valódi algoritmikus következtetés helyett, különösen komplex problémáknál.
Felmerülő kérdések:
-
Hogyan építhetünk olyan modelleket, amelyek komplex feladatoknál sem adják fel a gondolkodást?
-
Miért olyan nehéz az LRM-ek számára még explicit algoritmusokat is követni?
-
Hogyan biztosíthatjuk, hogy a modellek következetesen tudjanak gondolkodni különböző problémák esetén?
Korlátok
A kutatás elismeri, hogy a tesztfeladatok csak a következtetés egyfajta típusát reprezentálják, és nem fedik le a valós élet sokkal komplexebb, strukturálatlanabb problémáit. Továbbá a modellekhez csak API-kon keresztül fértek hozzá, ami nem teszi lehetővé a belső működés mély vizsgálatát.
Záró gondolat
„A gondolkodás illúziója” c. tanulmány egyedülálló módon világít rá a nagy következtető modellek valódi képességeire. Kiderül, hogy közepes nehézségű feladatokban hatékonyak, de az egyszerűeket túlbonyolítják, a nehézeket pedig feladják. Ez komoly kérdéseket vet fel a mesterséges intelligencia jövőjéről, és irányt mutat a fejlesztések új generációjának. Íme pedig egy cikk, amiben az író kifejti, hogy miért nem ért teljesen egyet az Apple tanulmány következtetéseivel: The illusion of “The Illusion of Thinking”
Hirdetés
Van véleményed? Valamit javítanál a cikkben? Vagy csak hozzászólnál?