Nem szerencsés dolog kajli mérések alapján dönteni az óriási MI-beruházásokról

Egy nagyszabású vizsgálat azokat a benchmarkokat elemezte, amelyeket a nagy nyelvi modellek teljesítményének nyilvános összehasonlítására használnak, de a gyakorlatban még tájékoztató jellegű eredményeket sem mindig érdemes várni tőlük.