Uppdateringen av Google Dokument kan göra röstinmatning riktigt användbar

Uppdateringen av Google Dokument kan göra röstinmatning riktigt användbar

Google Docs får en enorm uppdatering som snart kan göra dess röstinmatningsfunktion mycket mer användbar och populär för att transkribera möten.

Molnbaserad ordbehandling har under många år erbjudit möjligheten att "komponera" handsfree med din röst (gå bara till Verktyg > Röstskrivning, med mikrofonen på). Men en uppdatering som kommer i början av februari kommer att ge vissa förbättringar av funktionen, som möjligheten att använda den i webbläsare bortom Google Chrome.

Google uppger att uppdateringen "kommer att hjälpa till att minska transkriptionsfel och minimera ljudförlust under hela transkriptionen." Restriktionerna för den nuvarande inkarnationen har fått den att tappa mark till stora text-till-tal-appar som Otter.ai, som används flitigt av TechRadar-teamet. Microsofts taligenkännings- och tillgänglighetsverktyg har också gjort stora framsteg på senare tid i appar som Word.

Men om den inbyggda motsvarigheten till Google Docs kan matcha noggrannheten hos dess allt mer imponerande rivaler, kan det bli ett mycket mer allmänt använt verktyg. Speciellt eftersom det också kommer att fungera i Google Slides för att lära ut en talares ord i realtid.

Funktionen bör också fortsätta att förbättras genom en annan uppdatering; utökat stöd till "de flesta större webbläsare". Google har inte detaljerat vilka webbläsare än, men det är säkert att säga att Safari, Mozilla Firefox och Microsoft Edge kan inkluderas.

Vi kommer förmodligen att få reda på när uppdateringen börjar rullas ut någon gång nästa månad. Google Workspace-användare som prenumererar på snabba versionsuppdateringar kommer att börja se den anlända från och med idag, men de flesta kommer att se en gradvis release under ett par veckor från den XNUMX februari.

Analys: AI lär sig att vara användbar

En telefon som visar en Apple-ljudbok berättad av AI

(Bildkredit: Apple)

Google har inte uttalat sig tydligt om tekniken som driver dess uppgradering av röstinmatning till Google Docs, men den kommer sannolikt att vara besläktad med det AI-drivna gränssnittet om det erbjuds företag att förbättra tjänster som Google Docs. interagera med kunderna av tjänsten.

AI-tekniken har snabbt förbättrats i det visuella rummet med Dall-E och Midjourney, såväl som chatbots som ChatGPT. Handskriftsigenkänning fick också ett enormt uppsving. Men tal är utan tvekan ett av de mest användbara områdena för AI-utveckling, både för användbarhet och tillgänglighet. Och pålitlig text-till-tal-mjukvara är bara början.

Microsoft introducerade nyligen en läskig men potentiellt användbar ny AI-teknik kallad Vall-E, som kan imitera mänskliga röster (öppnas i en ny flik) baserat på en samplingstid på bara 3 sekunder. I ett relaterat tema lanserade Apple nyligen sin första rad ljudböcker med AI-drivna berättare (ovan).

Dessa framsteg väcker enorma moraliska frågor angående potentialen för identitetsstöld, vilket är anledningen till att tekniken bakom båda är låst och inte gratis för användare idag. Men Pandoras låda med röstbaserad teknik har öppnats på otroliga sätt.

För närvarande är de snabba förbättringarna av text-till-tal-teknik som finns i Google Docs (och, faktiskt, den bästa text-till-tal-mjukvaran) de mest användbara frukterna av dessa nya AI-algoritmer. Medan den här programvaran tar anteckningar från våra möten, låt oss ta popcornen för de ofrånkomliga etiska debatterna om nästa generations röstimitatorer.