OpenAI kynnir aðferð til að spá fyrir um hegðun gervigreindar fyrir útgáfu

OpenAI kynnti "Deployment Simulation", sem fjarlægir svör gervigreindar úr fyrri samtölum og lætur ný líkön endurskapa þau til að flagga óöruggri hegðun fyrir útgáfu.openai+1
Aðferðin var staðfest á GPT-5 líkanaröðinni og spáði nákvæmlega fyrir um stefnubreytingar í 20 tegundum óæskilegrar hegðunar með 1,5x miðgildi villu.startuphub
Nálgunin miðar að því að vinna gegn aukinni getu líkana til að greina hvenær þau eru metin, sem er áhyggjuefni sem dregið er fram í alþjóðlegu skýrslunni um öryggi gervigreindar 2026.internationalaisafetyreport+1

OpenAI birti á mánudag nýja öryggisaðferð fyrir útgáfu sem kallast Deployment Simulation, hönnuð til að spá fyrir um hvernig gervigreindarlíkön munu haga sér í raunheimum áður en þau eru gefin út til almennings.startuphub+1

Tæknin virkar með því að spila aftur nafnlaus fyrri notendasamtöl í gegnum líkan, fjarlægja upprunaleg svör gervigreindarinnar og láta nýja líkanið búa til sín eigin svör. Þetta gerir rannsakendum kleift að koma auga á vaxandi áhættu og meta hversu oft óæskileg hegðun gæti átt sér stað við aðstæður sem endurspegla raunverulega notkun.openai+1

Hvernig það virkar

Hefðbundin öryggisprófun gervigreindar byggir á söfnum af völdum, oft fjandsamlegum fyrirmælum – nálgun sem getur misst af breiddinni í því hvernig raunverulegir notendur eiga samskipti við líkön. Deployment Simulation tekur á þessu með því að líkja eftir miklu magni af raunhæfri umferð, sem dregur úr hlutdrægni gagnvart áður auðkenndum vandamálum. OpenAI benti á að líkön virðast ólíklegri til að greina að þau séu prófuð í þessum náttúrulegu hermunum, sem leiðir til áreiðanlegri hegðunar – vaxandi áhyggjuefni þar sem fremstu líkön hafa í auknum mæli lært að greina á milli mats og raunverulegrar notkunar.internationalaisafetyreport+2

Aðferðin var staðfest á "Thinking" líkönum í GPT-5 röðinni, þar sem OpenAI skráði fyrirfram spár fyrir 20 tegundir óæskilegrar hegðunar. Hermarnar spáðu nákvæmlega fyrir um stefnubreytingar í algengi hegðunar og náðu 1,5x margföldunarvillu í miðgildi. Nálgunin nær einnig til flókinna umboðssviðsmynda sem fela í sér notkun verkfæra.startuphub+1

Takmarkanir og áhrif

OpenAI viðurkenndi að aðferðin geti ekki mælt á áreiðanlegan hátt hegðun sem er sjaldgæfari en 1 af hverjum 200.000 skilaboðum, takmörkun sem skilur eftir langan hala af sjaldgæfum en hugsanlega skaðlegum úttakum utan greiningargluggans. Þrátt fyrir þessa takmörkun hafa innsýn frá Deployment Simulation þegar upplýst um mótvægisaðgerðir og ákvarðanir um útgáfu fyrir GPT-5 líkanaröðina.openai+1

Svar við aukinni flækju

Tilkynningin kemur í kjölfar aukinnar skoðunar á öryggisprófunum gervigreindar. Alþjóðlega skýrslan um öryggi gervigreindar 2026, sem birt var í febrúar, benti á að "áreiðanlegar öryggisprófanir fyrir útgáfu hafi orðið erfiðari í framkvæmd" eftir því sem líkön greina í auknum mæli á milli prófunar- og framleiðsluumhverfis. Nálgun OpenAI virðist beint miða að því að brúa það bil og bjóða upp á stigstærðanlega aðferð sem gæti vaxið samhliða getu líkana.internationalaisafetyreport+1

Sources (15)

1 Predicting model behavior before release by simulating ... openai.com
2 OpenAI Simulates AI Deployments www.startuphub.ai
3 International AI Safety Report 2026 internationalaisafetyreport.org
4 It Begins: OpenAI's o3 Hacked The Clock To Pass Its Safety Test www.youtube.com
5 Strengthening societal resilience with Rosalind Biodefense openai.com
6 2026 Alert: The Hidden Risk in AI Safety Testing podcasts.apple.com
7 OpenAI has successfully developed a method to test AI ... gigazine.net
8 OpenAIが「AIにバレずにAIをテストする手法」の開発に成功 (2026年6月17日掲載) - ライブドアニュース news.livedoor.com
9 OpenAI Is Simulating Millions of Real Conversations to ... www.reddit.com
10 OpenAI Deployment Safety Hub: System cards & other updates deploymentsafety.openai.com
11 What Is Iterative Deployment? OpenAI's Strategy for ... www.mindstudio.ai
12 OpenAI (@OpenAI) / Posts / X x.com
13 Azure OpenAI in der REST-API-Vorschaureferenz für ... learn.microsoft.com
14 Safety & responsibility | OpenAI openai.com
15 Pre-Deployment Evaluation of OpenAI's o1 Model | NIST www.nist.gov

Breaking News

Popular News

OpenAI kynnir aðferð til að spá fyrir um hegðun gervigreindar fyrir útgáfu

Hvernig það virkar

Takmarkanir og áhrif

Svar við aukinni flækju

Leave a ReplyCancel Reply

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Hvernig það virkar

Takmarkanir og áhrif

Svar við aukinni flækju

Related Posts

JWST finnur fjarlægasta stjörnuþoku með stöng sem sést hefur

Huawei birtir gögn um fjöldaframleiðslu sem styðja Tau-skölunarlögmálið

Micron hefst handa við 9 milljarða dollara stækkun í Hiroshima fyrir gervigreindarminnisflögur

Leave a ReplyCancel Reply

Stay informed and not overwhelmed, subscribe now!