Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!
TECH HÍREK – Az xAI Grok 4 kifejezetten „játékosítottnak” tűnik, hogy az MI-teljesítményteszteknél a legjobb legyen, és elhasal, amikor dinamikus, stratégiai kihívással találkozik. Az xAI Grok 4 nemrégiben az ötödik helyet szerezte meg a multiagent Step Race benchmarkon, amely a New York Times Connections rejtvényeit használja a különböző MI-modellek teljesítményének értékelésére, és amely minden egyes modellnek stratégiát kell kidolgoznia és gondolkodnia. Még a Gemini 2.5 Flash is jobban teljesített mint a Grok 4! A Grok 4 különböző szabványosított benchmarkokban elért magas pontszámaival szemben az ember kénytelen azt feltételezni, hogy a modell egy túlillesztésnek nevezett folyamat révén játékosítottnak tűnik, hogy a benchmarkokban a legjobb legyen, ahol a modell ahelyett, hogy az adathalmazon belüli fontosabb mintákat rögzítené, betanulja a képzési adatokat. Ez persze nem jelenti azt,… Olvasd tovább... Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!
- Hirdetés -