Det blir allt vanligare att använda röst för att styra våra hem och datorer. Där det för bara ett decennium sedan frågade Alexa eller Google Home att kontrollera lamporna eller beställa en produkt från internet kan ha verkat ovanligt, men det är nu normen.
Ett av de företag som har investerat mest i denna typ av teknik är Google, som gör det möjligt för sina Google Home-enheter och Android-system att acceptera verbala kommandon och till och med känna igen högtalaren.
Idag ska vi titta på hur de har kopplat den här tekniken till sin Google Docs-plattform och överväga om detta är ett genomförbart alternativ till andra kommersiella röst-till-text-lösningar.
Prissättning
Programvaran ingår i Google Docs, och det är i sig gratis. Allt du behöver för att använda det är ett Google-konto och antingen en mobil enhet eller dator med en mikrofon. Det är en annan datakälla för Google att skörda, men det är en del av priset på "gratis" idag.
Design
Det är möjligt att använda röst för inmatning på Google Docs, funktionen kallas 'Voice Typing' och finns i verktygsmenyn på ett Google Doc eller i Google Slides. Den kan också aktiveras på båda platserna med snabbtangenten Ctrl-Shift-S.
När du aktiverade den för första gången ombeds du att sanktionera åtkomst till mikrofonen för docs.google.com.
När du väl har accepterat att en liten ruta visas med en mikrofonlogo på kan du klicka för att aktivera röstinmatning. Detta ersätts sedan med en röd mikrofonsymbol bredvid dokumentet för att indikera att systemet är i lyssningsläge.
Innan du aktiverar röstskrivning på kontrollpanelen kan du välja ett språk från en meny, och eftersom det här är Google finns det många alternativ. Och du kan också klicka på ett frågetecken och få lite hjälp om hur du använder systemet.
När dessa system går är detta en mycket kondenserad lösning.
Google kommer att bearbeta vad du säger efter bästa förmåga, och om systemet är osäkert om ett ord kommer det att betona det i grått. Dessa ”misstänkta” ord kan sedan klickas på och några alternativ tillhandahålls av systemet.
Men du kan snabbt flytta runt i ett dokument och åtgärda problem manuellt eller placera markören och ge Voice Typing ytterligare ett tag.
Om du behöver prata med en annan person medan du arbetar kan du be Google att sluta lyssna och sedan återuppta efteråt.
Men för att få full lösning finns det en lång lista med kommandon som måste sparas, som kan kopiera, klistra in, flytta runt i dokumentet, infoga tabeller och en mängd andra funktioner.
Och du kan infoga skiljetecken, formatera dokumentet och till och med infoga hyperlänkar.
Men att få ut mesta möjliga av det förutsätter att du kan komma ihåg kommandona eller ha hjälpen öppen för att jogga ditt minne.
En lista är snabbt tillgänglig genom att säga ”Listan över röstkommandon” på ett bekvämt sätt.
språk
Där många röst-till-text-lösningar endast täcker ett litet antal språk har Googles betydande mängd. Den nuvarande slutgiltiga listan är:
Afrikanska, amhariska, arabiska, arabiska (Algeriet), arabiska (Bahrain), arabiska (Egypten), arabiska (Israel), arabiska (Jordanien), arabiska (Kuwait), arabiska (Libanon), arabiska (Marocko), arabiska (oman) , Arabiska (Palestina), Arabiska (Qatar), Arabiska (Saudiarabien), Arabiska (Tunisien), Arabiska (Förenade Arabemiraten), Armeniska, Azerbajdzjanska, Bahasa Indonesien, Baskiska, Bengali (Bangladesh), Bengali (Indien), Bulgariska, Katalanska, kinesiska (förenklad), kinesiska (traditionell), kinesiska (Hong Kong), kroatiska, tjeckiska, danska, nederländska, engelska (Australien), engelska (Kanada), engelska (Ghana), engelska (Indien), engelska (Irland) , Engelska (Kenya), Engelska (Nya Zeeland), Engelska (Nigeria), Engelska (Filippinerna), Engelska (Sydafrika), Engelska (Tanzania), Engelska (UK), Engelska (USA), Farsi, Filippinska, Finska, Franska , Galiciska, georgiska, tyska, grekiska, gujarati, hebreiska, hindi, ungerska, isländska, italienska, italienska (Italien), italienska (Schweiz), japanska, javanesiska, kannada, khmer, koreanska, laotiska, lettiska, litauiska, malayalam, malaysia n, Marathi, Nepali, Norska, Polska, Portugisiska (Brasilien), Portugisiska (Portugal), Rumänska, Ryska, Slovakiska, Slovenska, Serbiska, Sinhala, Spanska, Spanska (Argentina), Spanska (Bolivia), Spanska (Chile), Spanska (Colombia), Spanska (Costa Rica), Spanska (Ecuador), Spanska (El Salvador), Spanska (Spanien), Spanska (USA), Spanska (Guatemala), Spanska (Honduras), Spanska (Latinamerika), Spanska (Mexiko ), Spanska (Nicaragua), Spanska (Panama), Spanska (Paraguay), Spanska (Peru), Spanska (Puerto Rico), Spanska (Uruguay), Spanska (Venezuela), Sundanesiska, Swahili (Kenya), Swahili (Tanzania), Svenska, tamil (Indien), tamil (Malaysia), tamil (Singapore), tamil (Sri Lanka), thailändskt, turkiskt, ukrainskt, urdu (Indien), urdu (Pakistan), vietnamesiskt och zulu.
Det är 119 språk, inklusive 13 arabiska former, 19 spanska variationer, 13 engelska dialekter och till och med fyra smaker av tamil.
Det finns språk som sällan stöds av dikteringsprogramvara, som zulu och isländska, på grund av det relativt lilla antalet högtalare.
Språktäckning är förmodligen Google Voice Typing största styrka.
Inspelningar
Om den här lösningen har en svaghet är det att den inte enkelt kan bearbeta inspelningar.
Det är dock inte omöjligt att få det att göra det, men det kräver att du lappar datorns ljudsystem så att det tar utdata för högtalarna och riktar det som om det kommer från mikrofonen. Men genom att göra detta kan du inte skilja mellan olika personer på inspelningarna, och det kan störa AI som Google använder för att göra verbal noggrannhet bättre genom att lära dig hur du talar.
Om du vill transkribera podcaster eller inspelade intervjuer rekommenderar vi att du använder något annat, eftersom det här verktyget inte är konstruerat för detta ändamål.
Noggrannhet
Det är svårt att bedöma noggrannheten hos ett röstbehandlingssystem när du inte kan skicka samma inspelningar till det som andra produkter har konverterat. Och alla som använder Alexa eller Google Home regelbundet kommer att veta att det ibland inte förstår oss, främst på grund av främmande ljud eller inkonsekvent tal.
Med det sagt, i den aktiva testningen vi gjorde, fick det här verktyget i allmänhet de flesta orden korrekta, eller så var det rätta ordet snabbt tillgängligt på den misstänkta ordmenyn.
För att få bästa resultat behöver du ha kontroll över hur snabbt, volym och ton du talar, något som utan tvekan kommer med övning. Att kunna komma ihåg alla specialkommandon kan också minska mängden efter inspelningar som krävs, kritiskt.
Beroende på dina förväntningar är noggrannheten här acceptabel. Det finns en konsekvens i dess tolkningar som den bibehöll under våra tester. Hur bra det fungerar för dig kan vi inte förutsäga. Men eftersom det är gratis kommer det inte att kosta något annat än din tid att bestämma det.
säkerhet
Eftersom detta är Google är säkerhetsmodellen densamma som styr åtkomst till alla Google-konton. Det sträcker sig från enkelt lösenordsskydd till en mer rimlig till tvåfaktors autentiseringsmetod (TFA).
Med tanke på antalet identitetstjuvar runt, löper de som använder Google utan TFA en betydande risk för att deras konton äventyras.
Även detta säkerhetsalternativ har sina gränser, men det är bättre än bara ett lösenord.
För dem som inte är tillräckligt paranoid rekommenderar vi starkt att du går till https://myactivity.google.com/myactivity
Och du ser vad Google samlar på dig dagligen, och det kan inkludera inspelningar av dina röstkommandon.
Slutlig dom
Det här kan vara en längre recension om den här programvaran erbjuder mer funktionalitet, men det gör det inte.
När det gäller röst-till-text-lösningar är den här inte komplicerad, men den har tillräcklig funktionalitet för att vara verkligt användbar.
Andra lösningar är byggda för att hantera transkribering av samtal mellan flera personer, där detta var utformat för att hantera en enda person som talar på ett kontrollerat och exakt sätt.
Det som antas är att du gärna använder Google och Google Docs, även om det inte är den ultimata destinationen för texten du matar in.
Det är ingen ansträngning att kopiera en klistra diktering från Google Docs till en annan applikation, och du kommer att ha en molnkopia som referens om du skulle behöva en.
Vissa användare har förståeligt problem med att mata Googles omättliga aptit för användardata, och denna mekanism är ännu en datakälla för att den ska snacka.
Om du känner för det använder du inte Google Voice Typing eller något av Google.
För dem som är villiga att acceptera hur mycket Google kan veta om dem, så är röstdiktatlösningen i Google Docs kapabel nog för allmän användning, speciellt om du bara behöver den här funktionen ibland.