La chercheuse invitée Rose Hadshar a récemment publié un examen de certaines preuves du risque existentiel lié à l’IA, axé sur les preuves empiriques du désalignement et de la recherche de pouvoir. (Précédemment issu de ce projet : un article de blog décrivant certains des principales affirmations souvent faites sur le risque lié à l’IAune série de entretiens de chercheurs en IA, et un base de données de preuves empiriques du désalignement et de la recherche du pouvoir.)
Dans ce rapport, Rose examine les preuves de :
Désalignement, où les systèmes d’IA développent des objectifs qui ne correspondent pas aux objectifs humains ; et
En quête de pouvoir, où les systèmes d’IA mal alignés recherchent la puissance pour atteindre leurs objectifs.
Rose a trouvé que l’état actuel de ces preuves du risque existentiel dû à une recherche de pouvoir mal alignée était préoccupant mais peu concluant :
Il existe des preuves empiriques montrant que les systèmes d’IA développent des objectifs mal alignés (via des jeux de spécifications). et via une mauvaise généralisation des objectifs), y compris dans le déploiement (via les jeux de spécifications), mais Rose ne sait pas si ces problèmes s’étendront suffisamment loin pour poser un risque existentiel.
Rose considère que les arguments conceptuels en faveur d’un comportement de recherche de pouvoir de la part des systèmes d’IA sont solides, mais note qu’elle n’a jusqu’à présent trouvé aucun exemple clair d’IA en quête de pouvoir.
Compte tenu de ces considérations, Rose pense qu’il est difficile d’être sûr que la recherche d’un pouvoir mal aligné présente un risque existentiel important, ou qu’elle ne présente aucun risque existentiel. Elle trouve cette incertitude préoccupante, compte tenu de la gravité des risques potentiels en question. Rose a également déclaré qu’il serait bon d’avoir davantage d’examens des preuves, y compris des preuves d’autres affirmations sur les risques liés à l’IA. et des preuves contre les risques liés à l’IA.