Egy nagyszabású vizsgálat azokat a benchmarkokat elemezte, amelyeket a nagy nyelvi modellek teljesítményének nyilvános összehasonlítására használnak, de a gyakorlatban még tájékoztató jellegű eredményeket sem mindig érdemes várni tőlük.
Hamarosan átirányítunk a teljes cikkhez → Bitport