Posted in

Egy Apple-tanulmány szerint a mesterséges intelligencia csak úgy tesz, mintha gondolkodna, és még mindig gyengén teljesít a különböző összetettségű feladatok megoldása során

A mesterséges intelligencia közelmúltbeli fejlődése lehetővé tette az ún. Large Reasoning Models ( nagy következtető modellek, LRM-ek ) létrehozását, mint például az OpenAI o1/o3 modelljei, a DeepSeek-R1, vagy a Claude 3.7 Sonnet Thinking változat. Ezeket a modelleket kifejezetten arra tervezték, hogy lépésről lépésre történő gondolatmeneteket ( „Chain-of-Thought”, CoT ) generáljanak, ezzel javítva a problémamegoldási képességeiket. Az Apple kutatói „The Illusion of Thinking” ( „A gondolkodás illúziója” ) című tanulmányukban arra keresik a választ, hogy ezek a modellek hogyan teljesítenek különböző összetettségű feladatok során.

A kutatás nem hagyományos matematikai vagy programozási feladatokat használ ( ezek könnyen tartalmazhatnak ismétlődő mintákat az oktatóadatokból ), hanem négy jól szabályozható logikai kirakós játékot alkalmaz, hogy objektíven tesztelje a modellek következtetési képességeit.


Módszertan

A tanulmány négy klasszikus kirakós környezetet alkalmaz:

  1. Hanoi tornyai ( Tower of Hanoi ) – A korongok számának növelésével fokozatosan nő a feladat bonyolultsága. A cél: az összes korong áthelyezése egyik cövekről a másikra, a szabályok betartása mellett ( nagyobb korong nem kerülhet kisebbre ).

  2. Dáma-ugratás ( Checker Jumping ) – Két színű bábuknak egy szabad hely segítségével kell helyet cserélniük, szabályos lépésekkel. A nehézség az elemek számával nő.

  3. Folyóátkelés ( River Crossing ) – Szereplők és ügynökeik korlátozott férőhelyű csónakkal próbálnak átkelni úgy, hogy egyik szereplő se maradhasson egy másik ügynökével a sajátja nélkül. A logikai koordinációs igény gyorsan nő a szereplők számával.

  4. Blokk-világ ( Blocks World ) – Több toronyba rakott blokkokat kell átrendezni egy adott célállapot eléréséhez, kizárólag a legfelső elemek mozgatásával.

A modelleket gondolkodó ( „thinking” ) és nem gondolkodó ( „non-thinking” ) verzióikban hasonlítják össze, azonos tokenkeret ( szövegdarabszám ) mellett. A kísérletek során minden feladványt 25 különböző variációban próbálnak ki, különböző nehézségi szinteken.


Eredmények

1. Alacsony összetettségű feladatok:

Meglepő módon az egyszerű feladatokban a nem-gondolkodó modellek jobban teljesítenek, mint az LRM-ek. Az utóbbiak túlgondolják a problémát, feleslegesen sok lépést tesznek, és ezzel csökkentik a hatékonyságukat.

2. Közepes nehézségű feladatok:

Itt az LRM-ek előnye egyértelműen megmutatkozik: részletes, próbálkozásokkal és önkorrekcióval teli gondolatmeneteik révén hatékonyabb megoldásokat találnak.

3. Magas összetettségű feladatok:

Egy kritikus pont felett az összes modell teljesítménye nullára zuhan. Az LRM-ek sem képesek a bonyolult problémákat kezelni, és úgy tűnik, ilyenkor „feladják”: kevesebb tokent használnak fel, mint amennyi rendelkezésükre állna. Ez arra utal, hogy a jelenlegi modellek következtetési képességei nem skálázhatók korlátlanul.


A gondolatmenetek elemzése ( reasoning traces )

A kutatók a modellek lépésenkénti gondolkodását is megvizsgálták, és érdekes mintázatokra bukkantak:

  • Egyszerű feladatokban gyakori, hogy a modell már korán megtalálja a helyes megoldást, de tovább próbálkozik más utakkal is – azaz túlgondolkodik.


    Tudtad? ( történelmi érdekességek )

    ​​Az ókori rómaiak gyakran használtak állott vizeletet szájvízként. A vizelet fő összetevője az ammónia, amely erős tisztítószerként működik. A vizelet annyira keresett lett, hogy a vele kereskedő rómaiaknak adót kellett fizetniük!

  • Közepes nehézségnél a jó megoldás csak több hibás próbálkozás után születik meg, ami a próbálkozásos tanulás ( trial-and-error ) stratégiájára utal.

  • Nehéz feladatoknál a helyes megoldás teljesen elmarad, még akkor is, ha a modell többlépcsős gondolkodási láncot generál.


Explicit algoritmusok – segítenek vagy sem?

A kutatók kipróbálták, hogy segít-e, ha a modelleknek kifejezetten megmondják az algoritmust ( például Hanoi tornyai esetében ). Az eredmény: a teljesítmény nem javult. A modellek még így sem tudták követni az instrukciókat megfelelően – ez komoly korlát a pontos logikai következtetésben.


Egyenetlen teljesítmény különböző feladatokban

A modellek teljesítménye nemcsak összetettségi szint, hanem feladattípus szerint is jelentősen eltér:

  • A Hanoi-típusú feladatokban akár 100 helyes lépést is végre tudtak hajtani.

  • A folyóátkeléses logikai feladatban már 5 lépés után hibáztak.

Ez feltehetően a tanító adathalmaz eltéréseire vezethető vissza – a Hanoi-problémák gyakrabban fordulnak elő az interneten, így a modellek „emlékezhetnek” rájuk.


Következtetések és kérdések a jövőre

A tanulmány kétségbe vonja, hogy az LRM-ek valóban eljutottak volna az általános célú gondolkodás szintjére. Gyakran mintafelismerésre támaszkodnak valódi algoritmikus következtetés helyett, különösen komplex problémáknál.

Felmerülő kérdések:

  • Hogyan építhetünk olyan modelleket, amelyek komplex feladatoknál sem adják fel a gondolkodást?

  • Miért olyan nehéz az LRM-ek számára még explicit algoritmusokat is követni?

  • Hogyan biztosíthatjuk, hogy a modellek következetesen tudjanak gondolkodni különböző problémák esetén?


Korlátok

A kutatás elismeri, hogy a tesztfeladatok csak a következtetés egyfajta típusát reprezentálják, és nem fedik le a valós élet sokkal komplexebb, strukturálatlanabb problémáit. Továbbá a modellekhez csak API-kon keresztül fértek hozzá, ami nem teszi lehetővé a belső működés mély vizsgálatát.


Záró gondolat

A gondolkodás illúziója” c. tanulmány egyedülálló módon világít rá a nagy következtető modellek valódi képességeire. Kiderül, hogy közepes nehézségű feladatokban hatékonyak, de az egyszerűeket túlbonyolítják, a nehézeket pedig feladják. Ez komoly kérdéseket vet fel a mesterséges intelligencia jövőjéről, és irányt mutat a fejlesztések új generációjának. Íme pedig egy cikk, amiben az író kifejti, hogy miért nem ért teljesen egyet az Apple tanulmány következtetéseivel: The illusion of “The Illusion of Thinking”

Hirdetés


Van véleményed? Valamit javítanál a cikkben? Vagy csak hozzászólnál?