Értesítések engedélyezése
Engedélyezi az értesítéseket a böngészőjében?

Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!

TECH HÍREK – Az xAI Grok 4 kifejezetten „játékosítottnak” tűnik, hogy az MI-teljesítményteszteknél a legjobb legyen, és elhasal, amikor dinamikus, stratégiai kihívással találkozik. Az xAI Grok 4 nemrégiben az ötödik helyet szerezte meg a multiagent Step Race benchmarkon, amely a New York Times Connections rejtvényeit használja a különböző MI-modellek teljesítményének értékelésére, és amely minden egyes modellnek stratégiát kell kidolgoznia és gondolkodnia. Még a Gemini 2.5 Flash is jobban teljesített mint a Grok 4! A Grok 4 különböző szabványosított benchmarkokban elért magas pontszámaival szemben az ember kénytelen azt feltételezni, hogy a modell egy túlillesztésnek nevezett folyamat révén játékosítottnak tűnik, hogy a benchmarkokban a legjobb legyen, ahol a modell ahelyett, hogy az adathalmazon belüli fontosabb mintákat rögzítené, betanulja a képzési adatokat. Ez persze nem jelenti azt,… Olvasd tovább... Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!

Femcafe.hu

novekedes.hu

atv.hu

naphire.hu

Médiapiac

vasarnap.hu

10perc.hu

Gondola

Blikk