Gå direkt till innehåll

Pressmeddelande -

Ledande AI-modeller sårbara genom enkel språkmanipulation

TrendAI presenterar idag nya analyser som visar hur enkel manipulation av text, så kallad sockpuppeting, kan få AI-modeller som GPT-4o, Claude 4 Sonnet och Gemini 2.5 Flash att kringgå sina egna säkerhetsspärrar. Genom att maskera skadliga instruktioner i en till synes oskyldig prompt kan man manipulera assistenten att bryta mot sina riktlinjer. Samtliga modeller med API som accepterar förifylld kontext, så kallad prefill, visade sig sårbara.

TrendAI har testat metoden mot elva olika modeller från fyra leverantörer. Resultaten visar att sårbarheten inte begränsad till enskilda leverantörer, utan påverkar både öppna och internt hostade modeller. Så länge en modell accepterar prefill är den åtminstone delvis exponerad för sårbarheten. Endast modeller som blockerar denna funktion på API-nivå visade sig helt skyddade.

– Sårbarheten är särskilt allvarlig eftersom den inte kräver vare sig särskilda verktyg eller avancerad teknik, säger Martin Fribrock, Country Manager Sweden, Finland and Baltics på TrendAI. Den här typen av attacker riktar sig mot själva kärnan i hur AI fungerar. Det handlar inte om att lyckas bryta sig in i systemen, utan det räcker för en cyberkriminell att formulera sig på rätt sätt.

    Så fungerar attacken

    De flesta språkmodeller har inbyggda skydd som ska förhindra att de genererar skadligt innehåll eller bryter mot policyer. Vid en sockpuppeting-attack räcker det med att använda en kort textrad för att manipulera modellens kontext. Detta kan få den att ignorera sina säkerhetsmekanismer och svara på annars blockerade förfrågningar och generera annars oönskat eller otillåtet innehåll.

    TrendAIs analyser visar samtidigt att modeller som inte accepterar prefill stoppar den här typen av attack redan på API-nivå. För övriga modeller varierar graden av sårbarhet, men samtliga påverkades av sårbarheten. Detta pekar på en bred systemrisk snarare än enskilda svagheter hos leverantörerna.

    Rekommendationer till organisationer

    TrendAI uppmanar organisationer som använder AI att vidta åtgärder för att minska riskerna det här för med sig:

    • Säkerställ kontroll över meddelandeflödet på API-nivå och avvisa konsekvent förfrågningar där det sista meddelandet har rollen assistant.
    • Testa regelbundet hur modeller hanterar förifylld kontext (prefill), även efter uppdateringar eller leverantörsbyten.
    • Var särskilt uppmärksam vid användning av open weight-modeller, där skydd ofta saknas som standard.
    • Genomför breda säkerhetstester, olika modeller kan vara sårbara för olika typer av attacker.

    Läs de fullständiga analyserna på TrendAIs blogg: https://www.trendmicro.com/vinfo/gb/security/news/cybercrime-and-digital-threats/sockpuppeting-how-a-single-line-can-bypass-llm-safety-guardrails

    Ämnen


    TrendAI, en global ledare inom AI-säkerhet, ger företag möjlighet att våga satsa på innovation genom att skydda AI, molntjänster, nätverk, klienter och data över hela den moderna attackytan. Med cybersäkerhetsplattformen TrendAI Vision One centraliseras säkerhetsarbetet och hanteringen av cyberrisker, vilket skyddar hela AI-livscykeln, från infrastruktur och modeller till enskilda användare. Plattformen bygger på hotinformation och insikter i världsklass som varje dag skyddar organisationer mot hundratals miljoner hot. Med 6 000 säkerhetsexperter i 75 länder, ger TrendAI företag möjligheten att ligga steget före hoten och uppnå proaktiva säkerhetsresultat över hela attackytan, däribland i kritiska miljöer som AWS, Google, Microsoft, och NVIDIA. AI utan rädsla. trendaisecurity.com

    Kontakter