- Microsoft introduserer tre interne AI-grunnmodeller for transkripsjon, stemmegenerering og bildeoppretting for å redusere avhengigheten av OpenAI.
- MAI-Transcribe-1 støtter 25 språk og kjører omtrent 2.5 ganger raskere enn Microsofts nåværende Azure Fast-transkripsjonstilbud.
- MAI-Voice-1 kan generere 60 sekunder med tilpassbar lyd på omtrent ett sekund, mens MAI-Image-2 er rettet mot avansert bilde- og videogenerering.
- Modellene integreres i Microsoft Foundry, MAI Playground, Teams og Azure, med aggressive priser og en plan for store, grensesprengende modeller innen 2027.
Microsoft tar et tydelig skritt mot større autonomi innen kunstig intelligens ved å introdusere tre av sine egne grunnleggende modeller rettet mot transkripsjon, talegenerering og bildeproduksjon. Dette signaliserer at selskapet ønsker en dypere, multimodal AI-stabel de har full kontroll over, selv om de opprettholder en tett kommersiell allianse med OpenAI.
Disse nye systemene, utviklet under Microsoft AI / MAI Superintelligence team, er designet for å kobles direkte til produkter som Teams og Azure så vel som til interne eksperimenteringsplattformer. I praksis legger Microsoft grunnlaget for en langsiktig strategi der egne modeller dekker en økende andel av den daglige arbeidsmengden, og reserverer eksterne modeller som de fra OpenAI for tilfeller der de gir klar, differensiert verdi.
Tre Microsoft-bygde grunnleggende modeller for transkripsjon, tale og bilder
Lanseringen dreier seg om tre kjernemodeller: MAI-Transkribering-1 for tale-til-tekst, MAI-Stemme-1 for tekst-til-tale og MAI-bilde-2 for visuell generering. Sammen danner de et første, veldig synlig lag av en intern multimodal AI-stabel som kan håndtere tekst, lyd og bilder i Microsofts økosystem.
I stedet for å utelukkende stole på store, generelle modeller, satser Microsoft på oppgavefokuserte systemer som er billigere og raskere for vanlige brukstilfeller i bedrifter. Denne tilnærmingen er spesielt relevant ettersom antallet Copilot-brukere og AI-drevne funksjoner i Office, Teams og Azure fortsetter å stige, med kostnader som ellers ville skalert nesten lineært med API-bruken.
Fundamentmodeller Denne typen trenes på store og mangfoldige datasett, slik at de senere kan tilpasses et bredt spekter av scenarier. Her betyr det å drive alt fra transkripsjon av kundesenter og møtesammendrag til syntetiske stemmer, tilgjengelighetsverktøy og automatiserte innholdsproduksjonskanaler.
MAI-Transcribe-1: raskere, flerspråklig tale-til-tekst for 25 språk
MAI-Transcribe-1 er Microsofts nye tale-til-tekst-motor og en av de sentrale delene av denne utrullingen. Modellen støtter transkripsjon i 25 forskjellige språk og har blitt internt vurdert som omtrent 2.5 ganger raskere enn selskapets eksisterende Azure Fast-transkripsjonstilbud, som har vært et referansepunkt i den nåværende porteføljen.
Denne ytelsesøkningen er viktig fordi transkripsjonsarbeidsbelastninger er svært følsomme for latens, spesielt i sanntidsscenarioer som direkteteksting, kundestøtte eller hybridmøter. Den bredere språkdekningen er også i samsvar med Microsofts globale tilstedeværelse, noe som gjør det enklere for multinasjonale kunder å standardisere på én enkelt leverandør i stedet for å blande regionale verktøy.
Fra et produktperspektiv planlegger Microsoft å koble MAI-Transcribe-1 direkte til Microsoft-lag å håndtere møtetranskripsjoner og direkteteksting. Over tid forventes den samme motoren å dukke opp under panseret til andre produktivitetsverktøy, slik at brukere ser bedre hastighet og lavere kostnader uten nødvendigvis å merke en endring i merkevarebyggingen.
Prissettingen har blitt aggressivt plassert: MAI-Transcribe-1 starter på rundt 0.36 dollar per time med behandlet lyd, et tall som har som mål å underby sammenlignbare tilbud fra både Google og OpenAI, samtidig som de fortsatt kjører på Microsofts egen skyinfrastruktur.
MAI-Voice-1: ultrarask tekst-til-tale med tilpassede stemmer
På lydgenereringssiden, MAI-Stemme-1 er Microsofts nye modell for omgjør tekst til taleIfølge selskapet kan det produsere omtrent 60 sekunder med lyd på omtrent ett sekunds behandlingstid, som er et bemerkelsesverdig hopp for brukstilfeller der responsivitet er kritisk.
Utover rå hastighet er et viktig løfte støtte til tilpassede, merkevaretilpassede stemmerOrganisasjoner vil kunne definere stemmer som samsvarer med deres identitet eller spesifikke bruksområder, fra støttetelefoner og samtaleagenter til opplæringsmateriell, podkaster og tilgjengelighetsfunksjoner. Dette kontrollnivået blir stadig viktigere ettersom syntetisk tale blir mer vanlig og lyttere blir mer krevende når det gjelder tone og klarhet.
Microsoft sikter direkte mot MAI-Voice-1 utviklere og bedrifter som bygger stemmetunge produkter: kundesentre, assistenter i appen, verktøy for språklæring, medieplattformer eller enhver tjeneste som trenger skalerbar fortellerstemme. Med priser som starter rundt 22 dollar per én million tegn, modellen er ment å være økonomisk levedyktig ved både små og svært store volumer.
Fra et infrastrukturperspektiv tilbys MAI-Voice-1 gjennom Azure API-er, Microsoft Foundry og MAI Playground, slik at team kan teste stemmer raskt og deretter gå over til produksjon uten å bytte miljø. Tanken er å effektivisere hele veien fra eksperimentering til distribusjon i Microsofts stabel.
MAI-Image-2: bilde- og videogenerering integrert i Microsofts stack
Den tredje modellen, MAI-bilde-2, fokuserer på bildegenerering (og i noen beskrivelser, videogenerering) fra tekstmeldingerSelv om selskapet ikke har offentliggjort alle tekniske detaljer, posisjonerer de modellen som et visuelt motstykke til tekst- og lydsystemene deres, med sikte på å automatisere opprettelsen av markedsføringsressurser, produktvisualer, storyboards og andre medier.
Interessant nok dukket MAI-Image-2 først opp mer stille i MAI Lekeplass, Microsofts eksperimenteringsmiljø for store modeller, tilbake i midten av mars. Den nåværende kunngjøringen formaliserer rollen som en del av det bredere Støperi og Azure økosystem, hvor bedrifter kan få tilgang til det som en standardkomponent i stedet for som en ren forskningsdemo.
Prisene er igjen strukturert for å konkurrere: selskapet oppgir et inngangspunkt på omtrent 5 dollar per én million inndatatokener for tekst og rundt 33 dollar per én million utdatatokener for genererte bilderDisse tallene er innrammet som på nivå med, eller under, lignende nivåer fra konkurrerende leverandører, samtidig som de drar nytte av Microsofts sikkerhets- og samsvarspakke for bedrifter.
Brukstilfeller spenner fra automatiserte kreative arbeidsflyter og personlige markedsføringsvisualer til rask prototyping for produktdesign. For mange kunder som allerede er standardisert på Azure, er det viktigste salgsargumentet at de kan eksperimentere med bildegenerering uten å hente inn en ekstra ekstern leverandør.
Integrasjon på tvers av Azure, Foundry, MAI Playground og Microsoft 365
Et definerende aspekt ved denne lanseringen er hvor tett de nye modellene er vevd inn i hverandre Microsofts eksisterende sky- og produktivitetsplattformerAlle tre systemene – MAI-Transcribe-1, MAI-Voice-1 og MAI-Image-2 – rulles ut gjennom Microsoft Foundry, selskapets miljø for tilgang til og skalering av fundamentmodeller.
Utviklere kan starte med MAI Lekeplass, hvor de samme modellene eksponeres i et mer eksperimentelt grensesnitt. Dette oppsettet er ment å senke barrieren for team som ønsker å teste ut funksjoner som transkripsjon, syntetiske stemmer eller visuell generering uten å forplikte seg til full integrering med en gang.
På produktsiden peker Microsoft allerede på Microsoft-lag som en tidlig mottaker. MAI-Transcribe-1 er satt til å drive møtetranskripsjoner og teksting, mens MAI-Voice-1 og MAI-Image-2 forventes å dukke opp over tid i ulike Copilot- og Microsoft 365-opplevelser, selv om sluttbrukerne kanskje ikke ser eksplisitt modellmerkevarebygging.
For bedrifter er løftet et enkelt, sammenhengende stabel der transkripsjon, tale og bilder ligger ved siden av språkmodeller, datatjenester og analyser i Azure. Det kan forenkle samsvar, sikkerhetsgjennomganger og leverandøradministrasjon sammenlignet med å sette sammen flere eksterne AI-leverandører.
Prisstrategi og konkurranse med OpenAI og Google
Ved siden av tekniske spesifikasjoner legger Microsoft stor vekt på priskonkurranseevneSelskapet posisjonerer åpent disse modellene som alternativer som kan matche eller undergrave lignende tilbud fra OpenAI og Google, spesielt for vedvarende bruk i store mengder.
De publiserte prispunktene – 0.36 dollar per lydtime for MAI-Transcribe-1, 22 dollar per million tegn for MAI-Voice-1 og $5 / $33 per million token strukturen for MAI-Image-2 – er ikke bare tekniske detaljer. De er en del av et bredere budskap som Microsoft ønsker å bli sett på som en kostnadseffektiv, komplett leverandør av generativ AI snarere enn bare en forhandler av partnermodeller.
I et marked der flere organisasjoner integrerer AI i den daglige driften, kostnad per forespørsel kan raskt bli en strategisk variabelVed å eie sine egne modeller kan Microsoft finjustere avveiningen mellom beregningskostnader, modellkompleksitet og brukerpriser i stedet for å betale store påslag til eksterne leverandører.
Det er også en signaleffekt: ved å fremheve sine egne referanseverdier og pristabeller, forteller Microsoft effektivt kundene at de ikke lenger trenger å bruke tredjepartsmodeller som standard for kjernearbeidsbelastninger som transkripsjon, tale og bilder hvis de allerede er forpliktet til Azure.
Mustafa Suleyman og den "menneskesentrerte" AI-visjonen
De tre nye modellene kommer fra team gruppert under Microsoft AI / MAI Superintelligence, ledet av Mustafa Suleyman, som nå leder Microsoft AI. Suleyman, kjent for sine tidligere roller i AI-bransjen, har offentlig skissert en visjon som han beskriver som «humanistisk kunstig intelligens» eller menneskesentrert kunstig intelligens.
I Microsofts kommunikasjon rundt lanseringen understreker Suleyman at disse modellene er utviklet for å gjenspeile hvordan folk faktisk kommuniserer, prioritering praktisk nytte og sikkerhetMålet, ifølge ham, er å lage systemer som er mindre abstrakte forskningsprosjekter og flere verktøy som passer inn i hverdagens arbeidsflyter på jobb og hjemme.
Han har også antydet at den nåværende trioen av modeller er bare begynnelsen på en større porteføljeMicrosoft planlegger å rulle ut flere grunnleggende modeller gjennom Foundry og direkte i produkter, og gradvis utvide sine interne muligheter utover tale og bilder for å dekke flere modaliteter og mer spesialiserte oppgaver.
Denne planen understreker Microsofts intensjon om å bli sett på ikke bare som en plattform for andres AI, men som en bygger av sine egne avanserte modeller som kan stå side om side med tilbud fra langvarige partnere som OpenAI.
Et omkalibrert forhold til OpenAI og et mål om en grensemodell i 2027
Et av de mest delikate aspektene ved denne strategien er hvordan den forholder seg til Microsofts høyprofilerte partnerskap med OpenAISelskapene er fortsatt tett knyttet sammen: Microsoft har investert over $ 13 milliarder i OpenAI, er vert for modellene sine på Azure og integrerer systemer som GPT i produkter som Copilot.
Nyere rapporter peker imidlertid på en reforhandling av forholdet Det gir Microsoft mer rom til å drive sin egen AI-forskning og produktlinjer parallelt. Suleyman har innrammet dette skiftet som en naturlig evolusjon, ikke et brudd – mer likt at selskapet designer noen av sine egne brikker samtidig som de fortsatt kjøper fra eksterne leverandører.
Ifølge Bloomberg og andre kilder sikter Microsoft mot å ha sine egne storskala modeller på grensenivå oppe og i drift innen rundt 2027De nylig annonserte systemene ligger litt foran den ambisjonen: de er ennå ikke posisjonert som generelle, banebrytende språkmodeller, men snarere som spesialiserte komponenter som reduserer avhengigheten av partner-API-er for daglige arbeidsbelastninger.
I praksis betyr dette at Microsoft kan fortsette å bruke OpenAI-modeller som GPT-5.4 der de gir mening, samtidig som de gradvis bytter inn sine egne modeller der kostnad-ytelsesforholdet eller strategiske hensyn favoriserer intern teknologi. Brukere kan rett og slett legge merke til at funksjoner blir raskere eller billigere ettersom disse overgangene skjer i bakgrunnen.
For det bredere AI-markedet understreker dette tosporet en klar trend: store teknologiselskaper søker en balanse mellom samarbeid og selvforsyning, bruker allianser for å bevege seg raskt, men bygger sine egne evner for å unngå å være bundet til én enkelt leverandør på lang sikt.
Med disse tre modellene markerer Microsoft i praksis: de ønsker å konkurrere på flere nivåer i AI-stakken – fra infrastruktur og verktøy til selve grunnleggende modeller – samtidig som de fortsatt gir rom for partnere som OpenAI, der de bringer unike styrker. For kundene kan det føre til flere alternativer, skarpere priser og et gradvis skifte mot Microsoft-merket AI som støtter opp under kjente produkter og tjenester.

