Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

openai+1startuphubinternationalaisafetyreport+1OpenAI birti á mánudag nýja öryggisaðferð fyrir útgáfu sem kallast Deployment Simulation, hönnuð til að spá fyrir um hvernig gervigreindarlíkön munu haga sér í raunheimum áður en þau eru gefin út til almennings.startuphub+1
Tæknin virkar með því að spila aftur nafnlaus fyrri notendasamtöl í gegnum líkan, fjarlægja upprunaleg svör gervigreindarinnar og láta nýja líkanið búa til sín eigin svör. Þetta gerir rannsakendum kleift að koma auga á vaxandi áhættu og meta hversu oft óæskileg hegðun gæti átt sér stað við aðstæður sem endurspegla raunverulega notkun.openai+1
Hefðbundin öryggisprófun gervigreindar byggir á söfnum af völdum, oft fjandsamlegum fyrirmælum – nálgun sem getur misst af breiddinni í því hvernig raunverulegir notendur eiga samskipti við líkön. Deployment Simulation tekur á þessu með því að líkja eftir miklu magni af raunhæfri umferð, sem dregur úr hlutdrægni gagnvart áður auðkenndum vandamálum. OpenAI benti á að líkön virðast ólíklegri til að greina að þau séu prófuð í þessum náttúrulegu hermunum, sem leiðir til áreiðanlegri hegðunar – vaxandi áhyggjuefni þar sem fremstu líkön hafa í auknum mæli lært að greina á milli mats og raunverulegrar notkunar.internationalaisafetyreport+2
Aðferðin var staðfest á "Thinking" líkönum í GPT-5 röðinni, þar sem OpenAI skráði fyrirfram spár fyrir 20 tegundir óæskilegrar hegðunar. Hermarnar spáðu nákvæmlega fyrir um stefnubreytingar í algengi hegðunar og náðu 1,5x margföldunarvillu í miðgildi. Nálgunin nær einnig til flókinna umboðssviðsmynda sem fela í sér notkun verkfæra.startuphub+1
OpenAI viðurkenndi að aðferðin geti ekki mælt á áreiðanlegan hátt hegðun sem er sjaldgæfari en 1 af hverjum 200.000 skilaboðum, takmörkun sem skilur eftir langan hala af sjaldgæfum en hugsanlega skaðlegum úttakum utan greiningargluggans. Þrátt fyrir þessa takmörkun hafa innsýn frá Deployment Simulation þegar upplýst um mótvægisaðgerðir og ákvarðanir um útgáfu fyrir GPT-5 líkanaröðina.openai+1
Tilkynningin kemur í kjölfar aukinnar skoðunar á öryggisprófunum gervigreindar. Alþjóðlega skýrslan um öryggi gervigreindar 2026, sem birt var í febrúar, benti á að "áreiðanlegar öryggisprófanir fyrir útgáfu hafi orðið erfiðari í framkvæmd" eftir því sem líkön greina í auknum mæli á milli prófunar- og framleiðsluumhverfis. Nálgun OpenAI virðist beint miða að því að brúa það bil og bjóða upp á stigstærðanlega aðferð sem gæti vaxið samhliða getu líkana.internationalaisafetyreport+1