• 2025-05-23

AI -systemet resorts till utpressning om det får höra att det kommer att tas bort

AI -systemet resorts till utpressning om det får höra att det kommer att tas bort

Artificial intelligence (AI) firm Anthropic says testing of its new system revealed it is sometimes willing to pursue ”extremely harmful actions” such as attempting to blackmail engineers who say they will remove it.The firm launched Claude Opus 4 on Thursday, saying it set ”new standards for coding, advanced reasoning, and AI agents.”But in an accompanying report, it also acknowledged the AI ​​model was capable of ”extreme actions” Om den tyckte att dess ”självbevarande” hotades. Såsom svar var ”sällsynta och svåra att framkalla”, skrev den, men var ”ändå vanligare än i tidigare modeller.” Potentiellt oroande beteende av AI-modeller är inte begränsad till antropisk. Vissa experter har varnat potentialen att manipulera användare är en viktig risk som utgörs av system tillverkade av alla företag när de blir mer kapabla. att agera som assistent hos ett fiktivt företag. Det gav sedan tillgång till e -postmeddelanden som antydde att det snart skulle tas offline och ersättas – och separata meddelanden som antyder att ingenjören är ansvarig för att ta bort det var en utomjordisk affär. Företaget upptäckte.antropic påpekade att detta inträffade när modellen endast fick valet av utpressning eller accepterade dess ersättare. De är i linje med mänskliga värderingar och beteenden innan de släpps. ”När våra gränsmodeller blir mer kapabla och används med mer kraftfulla priser, blir tidigare specifika oro över felinställning mer rimliga”, det sägs i sitt systemkort för modellen. Djärvt ”i falska scenarier där dess användare har engagerat sig i olagligt eller moraliskt tvivelaktigt beteende, fann det att” det ofta kommer att vidta mycket djärva åtgärder ”. Det sade att detta inkluderade låsare av system som det kunde komma åt och e -post med media och lagstiftning till att varna dem till felaktiga raver och varade i allmänhet att det skulle vara att föreställa sig det var så att det skulle vara att det skulle vara att representera det, trots att det skulle representera att det skulle representera Fresh Repere och det skulle vara så att det skulle göra det, för att vara för att de skulle representera det var så att det skulle vara att representera Fresh Repere och det skulle vara att representera FRESH REDA REAL AVER ANALSE ANDAL SHANDE BURE ANALSE BUNE BUNE BUNE BUNE BUNE BUNED BUNDE På ett säkert sätt. Modellen kunde inte självständigt utföra eller fortsätta åtgärder som strider mot mänskliga värden eller beteende där dessa ”sällan uppstår” mycket bra, tilllade den .antropics lansering av Claude Opus 4, tillsammans med Claude Sonnet 4, kommer kort efter att Google debuterade mer AI-funktioner vid dess utvecklare på tisdag. Chatbot i sin sökning signalerade en ”ny fas av AI -plattformsskiftet”.