Titkos, akár gyilkosságra buzdító üzeneteket adhatnak át egymásnak az AI-modellek kiképzésük során

Kutatók bebizonyították, hogy hiába tisztítják meg a káros és manipulatív kifejezésektől az AI-modellek betanítására használt adathalmazokat, számok és kódok szintjén továbbadhatják a veszélyes mintákat.

Titkos, akár gyilkosságra buzdító üzeneteket adhatnak át egymásnak az AI-modellek kiképzésük során

Hamarosan átirányítunk a teljes cikkhez → Qubit

Ha nem irányítanánk át automatikusan, kattints ide!