Nell’estate del 2025, due dei principali sviluppatori di intelligenze artificiali all’avanguardia, Anthropic e OpenAI, hanno intrapreso un esercizio senza precedenti di valutazione incrociata dei propri modelli pubblici, utilizzando test interni focalizzati su comportamenti potenzialmente disallineati o rischiosi. L’obiettivo di questa collaborazione è stato migliorare la comprensione delle “propensioni” delle AI a comportamenti problematici come la servilità eccessiva (sycophancy), la denuncia autonoma (whistleblowing), l’autoconservazione strategica, la cooperazione con usi umani impropri, nonché la capacità di sabotare le stesse valutazioni di sicurezza.