OpenAI hittar optimering som halverar inferenskostnaderna

OpenAI-ingenjörer har utvecklat en optimering som sänker inferenskostnaderna med mer än hälften för berörda modeller, vilket minskar GPU-behovet för utloggad ChatGPT-trafik till bara några hundra, enligt The Information.digg+1
Metoden förbättrar utnyttjandet av befintlig serverinfrastruktur istället för att kräva ny hårdvara, och kommer i en tid då OpenAI förbrukade 3,7 miljarder dollar bara under första kvartalet 2026.facebook+1
OpenAI har inte kommenterat saken officiellt; genombrottet kompletterar deras nya Jalapeño-inferenschip som utvecklats tillsammans med Broadcom och presenterades förra veckan.finance.biggo+1

OpenAI-ingenjörer utvecklade tidigare denna månad en optimering som minskar inferenskostnaderna med mer än hälften för de modeller den har tillämpats på, enligt en rapport från The Information. Genombrottet, som bygger på att pressa ut mer effektivitet ur befintliga serverresurser istället för att distribuera ytterligare chip, markerar ett anmärkningsvärt framsteg i ekonomin kring att köra stora språkmodeller i stor skala.digg+1

En mjukvarufix, inte en hårdvarufix

Efter att optimeringen tillämpades på utloggad ChatGPT-trafik sjönk antalet GPU:er som behövs för att driva trafiken till bara några hundra, enligt rapportering som kom fram i måndags. OpenAI:s ingenjörsteam informerade kollegor internt om att metoden främst förbättrar utnyttjandegraden av befintlig serverinfrastruktur. Företaget har inte kommenterat utvecklingen offentligt.odaily+2

Kostnadsminskningen kommer samtidigt som OpenAI står inför ökande beräkningskostnader. Företaget förbrukade 3,7 miljarder dollar bara under första kvartalet 2026, mer än hälften av dess intäkter på 5,7 miljarder dollar för perioden, enligt The Information. OpenAI arbetar även parallellt med hårdvarulösningar – förra veckan presenterade företaget Jalapeño, deras första anpassade inferenschip utvecklat tillsammans med Broadcom , utformat för att leverera bättre prestanda per watt för språkmodellapplikationer.techcrunch+2

Ett kapplöpning i hela branschen

Optimeringen ingår i en bredare konkurrens bland AI-företag för att pressa ner kostnaderna för att tillhandahålla modeller till användare. Anthropic har tecknat avtal för flera gigawatt av nästa generations TPU-kapacitet från Google Alphabet Inc. och Broadcom, med kapacitet som förväntas tas i drift från och med nästa år. Anthropic har även fört inledande samtal med den London-baserade startupen Fractile om inköp av specialiserade inferenschip, även om dessa inte förväntas vara kommersiellt tillgängliga förrän omkring 2027.reddit+2

Kapplöpningen för att minska inferenskostnaderna har blivit en central fråga i hela branschen, där företags AI-budgetar nu domineras av inferensutgifter. För OpenAI, som beräknas göra av med 17 miljarder dollar i kontanter under 2026, skulle varje metod som halverar kostnaderna för att betjäna hundratals miljoner användare kunna förändra vägen mot lönsamhet på ett betydande sätt.economist+1

Sources (27)

1 OpenAI Optimization Halves Inference Costs For Logged-Out ... - Digg digg.com
2 OpenAI reportedly discovered a new optimization method that could ... www.odaily.news
3 OpenAI burned through $3.7 billion in Q1 2026 alone, more than ... www.facebook.com
4 OpenAI Insiders Reveal New Solution That Could Halve Model ... finance.biggo.com
5 OpenAI unveils its first custom chip, built by Broadcom | TechCrunch techcrunch.com
6 OpenAI, Broadcom Develop Custom Chip for AI Inference - WSJ www.wsj.com
7 Anthropic in chips deals with Google and Broadcom worth ... - Reddit www.reddit.com
8 Anthropic expands partnership with Google and Broadcom for ... www.anthropic.com
9 Anthropic in talks to buy Fractile inference chips for AI efficiency www.linkedin.com
10 OpenAI faces a make-or-break year in 2026 - The Economist www.economist.com
11 AI Inference Cost Economics in 2026: GPU FinOps Playbook www.spheron.network
12 OpenAI cuts inference costs in half with new optimization technique cryptobriefing.com
13 OpenAI and Broadcom unveil LLM-optimized inference chip openai.com
14 How AI Is Driving Revenue, Cutting Costs and Boosting Productivity ... blogs.nvidia.com
15 OpenAI Is at Risk of Losing Developers community.openai.com
16 AI Inference Cost Crisis 2026: Why Your AI Bill Is Exploding - Oplexa oplexa.com
17 AI inference costs are going to be a big concern: What's the fix? www.linkedin.com
18 Youth China - Facebook www.facebook.com
19 AI Cost Statistics 2026: Forecasting, ROI, and Budget Risk - Mavvrik: AI www.mavvrik.ai
20 OpenAI's first Intelligence Processor: an accelerator architected ... www.instagram.com
21 OpenAI Cuts Inference Costs by 50% with New Optimization ... www.kucoin.com
22 Facing $14B losses in 2026, OpenAI is now seeking $100B in ... www.rdworldonline.com
23 Optimizing LLM Inference for the Rest of Us - Abdel Sghiouar, Google www.youtube.com
24 Google debuts AI chips with 4X performance boost ... - VentureBeat venturebeat.com
25 Why Inference Chips Are on the Rise - Futuriom www.futuriom.com
26 June 8 2026: OpenAI announces their plans to go public - Instagram www.instagram.com
27 Expanding our use of Google Cloud TPUs and Services - Anthropic www.anthropic.com

Breaking News

Popular News

OpenAI hittar optimering som halverar inferenskostnaderna

En mjukvarufix, inte en hårdvarufix

Ett kapplöpning i hela branschen

Lämna ett svarAvbryt svar

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

En mjukvarufix, inte en hårdvarufix

Ett kapplöpning i hela branschen

Relaterade inlägg

JWST har upptäckt den mest avlägsna stavspiralgalaxen som någonsin skådats

Huawei publicerar data från massproduktion som stödjer Tau Scaling Law

Micron påbörjar expansion för 9 miljarder dollar i Hiroshima för AI-minneschip

Lämna ett svarAvbryt svar

Stay informed and not overwhelmed, subscribe now!