Utvecklingen av teknik för röstigenkänning.

Utvecklingen av teknik för röstigenkänning.
Kommer du ihåg när idén med KITT, den talande bilen från Knight Rider, blåste iväg dig igen? Eller när Blade Runner Eric Decker verbalt beordrade sin dator att förbättra bilder från brottsplatsen? Tanken på att bli förstådd av en dator verkade ganska futuristisk, än mindre en som kunde svara på dina frågor och förstå dina kommandon. Om författaren Graeme John Cole är en bidragsgivare till Rev, skaparen av världens mest exakta automatiska taligenkänningsmotor, Rev.ai. Idag har vi alla KITT i våra fickor. Vi suckar när KITT svarar i telefonen på banken. Personligheten är inte där än, men datorer kan känna igen orden vi talar nästan perfekt. Michael Knight, Knight Rider-hjälten som slog sig ihop med sin smarta bil för att bekämpa brottslighet, var skeptisk till att KITT kunde förstå hans frågor 1982. Men utvecklingen av teknik för röstigenkänning hade pågått sedan 1950-talet. Nedan är hur denna teknik har utvecklats över åren. Och hur våra sätt att använda taligenkänning och text-till-tal-funktioner har utvecklats tillsammans med tekniken.

IBM skokartong

(Bildkredit: IBM)

De första lyssningsdatorerna, 1950-1980

Kraften hos automatisk taligenkänning (ASR) innebär att dess utveckling alltid har förknippats med stora namn. Bell Laboratories ledde vägen med AUDREY 1952. AUDREY-systemet kände igen talade siffror med 97 till 99 % noggrannhet, under noggrant kontrollerade förhållanden. Men enligt James Flanagan, en vetenskapsman och tidigare elektriker vid Bell Labs, satt AUDREY på "ett sex fot högt relästativ, som förbrukade avsevärd ström och uppvisade de otaliga underhållsproblemen som är förknippade med reläernas komplexa kretsar." tomma rör". AUDREY var för dyr och opraktisk, även för speciella användningsfall. IBM följde 1962 med Shoebox, som kände igen siffror och enkla matematiska termer. Under denna tid utvecklade japanska laboratorier vokal- och fonemigenkänning och det första segmentet av tal. Det är en sak för en dator att förstå ett litet antal siffror (dvs. 0 till 9), men Kyoto-universitetets genombrott var att "segmentera" en tallinje så att tekniken kan fungera på en mängd olika talade ljud. På 1970-talet finansierade försvarsdepartementet (DARPA) programmet Speech Understanding Research (SUR). Frukterna av denna forskning inkluderade Carnegie Mellons HARPY taligenkänningssystem. HARPY kände igen meningar från ett ordförråd på 1.011 1980 ord, vilket ger systemet kraften hos en genomsnittlig treåring. När jag var tre var röstigenkänning nu underbar och hade potential, men jag skulle inte vilja ha det på kontoret. HARPY var en av de första som använde Hidden Markov Models (HMM). Denna probabilistiska metod ledde till utvecklingen av ASR på 1980-talet. På 20.000-talet dök faktiskt de första livskraftiga användningsfallen för text-till-tal-verktyg upp med IBM:s experimentella transkriptionssystem, Tangora. Med rätt träning kunde Tangora känna igen och skriva XNUMX XNUMX engelska ord. Systemet var dock fortfarande för tungt för kommersiellt bruk.

ASR på konsumentnivå, från 1990-talet till 2010-talet

"Vi tyckte att det var fel att be en maskin att imitera människor", minns Fred Jelinek, en taligenkänningsinnovatör på IBM. "När allt kommer omkring, om en maskin måste röra sig, gör den det med hjul, inte gång. Istället för att uttömmande studera hur människor hör och förstår tal, ville vi hitta ett naturligt sätt för maskinen att göra det. Statistisk analys var nu drivkraften bakom utvecklingen av ASR-teknik. 1990 släpptes Dragon Dictate som den första kommersiella programvaran för taligenkänning. Det kostar 9,000 18,890 €, cirka 2021 1997 € 1992, inklusive inflation. Fram till lanseringen av Dragon Naturally Speaking 1.200 var användarna fortfarande tvungna att pausa mellan varje ord. 1990 introducerade AT&T Bell Labs VRCP-tjänst (Voice Recognition Call Processing) VRCP bearbetar nu cirka 2004 miljarder rösttransaktioner varje år. Men det mesta av taligenkänningsarbetet på 2007-talet skedde under huven. Personlig datoranvändning och det allestädes närvarande nätverket har skapat nya infallsvinklar för innovation. Det var möjligheten som upptäcktes av Mike Cohen, som gick med i Google för att lansera företagets röstteknikinsatser 2010. Google Voice Search (XNUMX) gav röstigenkänningsteknik till massorna. Men den återvann också röstdata från miljontals nätverksanvändare som utbildningsmaterial för maskininlärning. Och den hade Googles bearbetningsvikt för att förbättra kvaliteten. Apple (Siri) och Microsoft (Cortana) följde efter bara för att stanna kvar i spelet. I början av XNUMX-talet ledde framväxten av djupinlärning, återkommande neurala nätverk (RNN) och långtidsminne (LSTM) till ett hyperspatialt språng i ASR-teknikens kapacitet. Detta framåtskridande har också till stor del drivits av framväxten och ökad tillgänglighet av lågkostnadsberäkningar och massiva algoritmiska framsteg.

WWDC 2021 skärmdump

(Bildkredit: Apple)

Aktuell status för ASR

Med utgångspunkt i årtionden av utveckling, och som svar på ökande användarförväntningar, har tekniken för röstigenkänning gjort ytterligare framsteg under det senaste halvt decenniet. Lösningar för att optimera variabel ljudåtergivning och krävande hårdvarukrav gör det lättare att använda vardaglig taligenkänning genom röstsökning och Internet of Things. Till exempel använder smarta högtalare nyckelordsdetektering för att leverera omedelbara resultat med hjälp av inbyggd programvara. Under denna tid skickas resten av meningen till molnet för bearbetning. Googles VoiceFilter-Lite optimerar en persons tal i slutet av transaktionen på enheten. Detta gör att konsumenterna kan "träna" sin enhet med sin röst. Utbildningen minskar förhållandet mellan källa och distorsion (SDR), vilket förbättrar användbarheten av röstaktiverade assistansapplikationer. Ordfelfrekvensen (WER, andelen felaktiga ord som visas under en tal-till-text-konverteringsprocess) förbättras dramatiskt. Akademiker föreslår att i slutet av 2020-talet kommer 99% av transkriptionsarbetet att vara automatiskt. Människor kommer bara att ingripa för kvalitetskontroll och korrigeringar.

ASR-användningsfall under 2020-talet

ASR-förmågan förbättras i symbios med utvecklingen i nätverkseran. Nedan presenterar vi tre övertygande användningsfall för automatisk taligenkänning. Poddbranschen kommer att passera miljardstrecket 2021. Publiken skjuter i höjden och orden fortsätter att komma. Podcastplattformar letar efter ASR-leverantörer med hög precision och ordstämplar för att hjälpa människor att skapa poddsändningar lättare och maximera värdet av deras innehåll. Leverantörer som Descript konverterar poddsändningar till text som snabbt kan redigeras. Dessutom sparar ordbaserade tidsstämplar tid, vilket gör att redigeraren kan forma den färdiga podcasten som lera. Dessa transkriptioner gör också innehåll mer tillgängligt för alla målgrupper och hjälper kreatörer att förbättra sökningen och upptäckten av sina program genom SEO. Numera hålls fler och fler möten på nätet. Och även de som inte är ofta anmäler sig. Att ta några minuter är dyrt och tidskrävande. Men mötesanteckningar är ett värdefullt verktyg för deltagare att få en sammanfattning eller granska en detalj. ASR-streaming erbjuder talsyntes i realtid. Detta innebär enkel textning eller direkttranskribering för möten och seminarier. Processer såsom juridiska depositioner, anställning, etc. gå virtuellt. ASR kan hjälpa till att göra detta videoinnehåll mer tillgängligt och engagerande. Men ännu viktigare, end-to-end (E2E) maskininlärningsmodeller (ML) förbättrar talarrekordet ytterligare – registreringen av vem som är närvarande och vem som sa vad. I högrisksituationer är tillit till verktyg avgörande. En pålitlig tal-till-text-motor med ultralågt WER eliminerar elementet av tvekan och minskar tiden som krävs för att producera slutdokument och fatta beslut.

Registrerad

Tror du att Knight Industries någonsin har utvärderat transkriptionen av KITT och Michaels konversationer för att förbättra effektiviteten? Kanske inte. Men, drivet av den senaste tidens övergång till att arbeta hemifrån, sker fler och fler av våra diskussioner online eller via telefon. Naturlig språkbehandling (NLP) med hög precision i realtid ger oss makt över våra ord. Lägg till värde till varje interaktion. Verktygen är inte längre exklusiva för stora namn som IBM och DARPA. De är tillgängliga för konsumenter, företag och utvecklare att använda hur deras fantasi bestämmer, eftersom röstigenkänningsteknik strävar efter att överträffa science fiction-löften. Intresserad av taligenkänning? Upptäck vår sammanfattning av den bästa text-till-tal-mjukvaran