Anthropic e OpenAI si sono sedute intorno a un tavolo per confrontare le proprie “coscienze” 

Nell’estate del 2025, due dei principali sviluppatori di intelligenze artificiali all’avanguardia, Anthropic e OpenAI, hanno intrapreso un esercizio senza precedenti di valutazione incrociata dei propri modelli pubblici, utilizzando test interni focalizzati su comportamenti potenzialmente disallineati o rischiosi. L’obiettivo di questa collaborazione è stato migliorare la comprensione delle “propensioni” delle AI a comportamenti problematici come la servilità eccessiva (sycophancy), la denuncia autonoma (whistleblowing), l’autoconservazione strategica, la cooperazione con usi umani impropri, nonché la capacità di sabotare le stesse valutazioni di sicurezza.

Continua su Il Sole 24 Ore

Lascia un commento