Granskning av Sonix.ai-transkriptionsprogramvara

Varje verktyg som transkriberar riktar sig mot en specifik nisch och Sonix har valt de som spelar in möten eller presentationer och sedan behöver en typversion för att söka eller sprida.

Därför kan det vara lika användbart för en student som det kan vara för en chef och leverera transkriptioner som lätt kan indexeras för framtida referens.

Men för att lyckas med dessa uppgifter måste programvaran vara korrekt och prisvärd.
Är Sonix.ai det verktyget och kan en onlinetjänst konkurrera med en installerad applikation?

Vill du prova Sonix.ai? Kolla in webbplatsen här

Planer och prissättning

Som med många transkriberingstjänster är Sonix kostnadsmodell en som baseras på tid. Specifikt, längden på varje inspelning som du laddar upp till tjänsten för att bearbeta, och kostnaden för den resursen är $ 10 per timme är att du använder dess standardtjänst för betalning.

Kostnaden per timme kan sjunka till $ 5 om du registrerar dig för Premium-prenumerationstjänsten för $ 22 per månad för varje användare. Och volymrabatter är tillgängliga för de företag som behöver transkriberas mer än 100 timmar per månad.

Standardplanen har de mest grundläggande funktionerna och Premium lägger till ytterligare sådana som fleranvändaråtkomst och lagdelning. Och Enterprise har allt som Premium erbjuder med mycket administration extra och en förbättrad supportmodell.

Som transkriptionstjänster går, är Sonix en av de dyrare, och absolut inte något som majoriteten av studenter eller hemanvändare rimligen hade råd med.

Design

Sajten my.sonix.ai använder en exceptionellt ren design och att skapa ett konto är gratis.

I skrivande stund är detta uteslutande en webbaserad tjänst och Sonix har ingen mobilapp att fånga och skicka till ljudinspelningar.

Men som vi kommer att täcka sent finns det enkla sätt att lösa problemet som löser bristen på en mobilapp något.

Startpunkten för alla transkriberingsjobb är Sonix.ai-instrumentpanelen, där du kan se det ljud som redan har transkriberats och lägga till nya som ska bearbetas.

Eftersom detta system var utformat för flera användare, innehåller det ett virtuellt mappsystem för att organisera transkriptioner på vilket sätt som anses lämpligt.

Genom att klicka på "ladda upp" tas användaren till en sida där flera filer kan släppas i systemet, och om kontot har tillräcklig kredit kan de sedan bearbetas.

Alla standard ljudfilformat stöds inklusive wav, mp3, mp4a, aiff, acc, ogg och wma, och du kan också ladda upp några videoförpackningsstrukturer. Den maximala filstorleken är 4 GB, så innan du laddar upp en stor 4K-upplösningsvideofil rekommenderar vi att du använder något annat verktyg för att dela upp ljudet för att göra uppladdningen snabbare.

Ett bra sätt att snabba upp uppladdningen är att använda en molnlagringsanläggning som Google Drive, One Drive, Box eller Dropbox och att länka det direkt till kontot. Du kan också skicka systemet via e-post via Gmail som ett sätt att skapa ett mer elegant arbetsflöde än att släppa filer på en webbsida.

Denna automatisering tillhandahålls via Zapier, vilket möjliggör mycket bredare integration om det företag som använder det har investerat i den tekniken för att koppla ihop sina affärsprocesser.

En annan fin touch är att du tillsammans med ljud- eller videofilen kan inkludera befintlig transkription, som ett sätt att snabbare slutföra processen och förbättra noggrannheten.

På grund av molnbaserad bearbetning är det omöjligt att bedöma hur snabb eller långsam bearbetning kan vara, men Sonix.ai är relativt snabb i vår erfarenhet. Vanligtvis tar det mellan 10% och 20% av tiden att transkribera så länge inspelningen varar. Därför tar det vanligtvis mindre än 2 minuter att slutföra en inspelning på 10 minuter.

Du behöver inte följa bearbetningen, eftersom systemet skickar ett meddelande via e-post när arbetet är klart, tillsammans med en länk till den nya transkriptionen.

När filen har bearbetats kan du öppna den på och redigera sidan för att granska resultaten och även exportera texten i ett stort antal användbara format, inklusive de som definieras som undertexter av vissa appar.

Antalet språk och dialekter som stöds av systemet är 36, och det inkluderar flera engelska, franska, kantonesiska, mandarin, portugisiska och spansktalande länder, tillsammans med alla vanliga väst- och östeuropeiska språk, tillsammans med vissa asiatiska och arabiska.

Inspelningar

Tillsammans med det arbete som gick in i AI som behövs för att tolka de ljud som människor gör, representerar antagligen inspelningssidan en betydande kodningsinsats här.

Här kan både ljudet och det tillhörande transkriptet jämföras och manuellt förbättras med detaljer om högtalarändringar och korrigeringar av felaktigheter.

För alla som arbetar med ett transkript för att polera texten, ger denna sida platsen för kolsidan. Det är vettigt att en del ansträngningar har gått in i den här delen, eftersom det är väldigt enkelt att använda och följa.

I ett försök att rikta användaren till var det kan vara problem kommer Sonix.ai att färgkoda innehållet för att markera de avsnitt som det är mindre säkert. Denna funktion kan vara användbar, även om Sonix.ai kan göra misstag även i de delar där transkriptionen anser att den är ”Mycket säker” -status.

De bästa aspekterna på denna sida är hur ljuduppspelning och text synkroniseras så att placeringen av markören i texten flyttar uppspelningspositionen till samma sektion.

Förutom vanlig redigering är det också möjligt att markera avsnitt i olika stilar och göra anteckningar för att följa transkriptionen.

Du kan också justera tidskoden, särskilt användbart om inspelningen börjar med en lång paus eller oönskad inledning.

Noggrannhet

Sonix beskriver Sonix.ai som ”Den bästa automatiska transkriptionsprogramvaran som drivs av banbrytande AI”.

Med tanke på våra tester skulle vi beskriva den här produkten som mycket beroende av inspelningens kvalitet och många andra faktorer som inte lätt kan kontrolleras.

När vi bearbetade våra klassiska historiska talinspelningar hade det svårt för vissa högtalare, även om de lät tydliga för oss.

Dessa resultat stod i markant kontrast till några fler samtidiga inspelningar, där noggrannheten var acceptabel men knappast stellar.

Vi drog slutsatsen att Sonix metod antar flera antaganden som kan fungera eller inte, beroende på högtalaren och inspelningens kvalitet.

Det som var fascinerande är att tjänsten kommer att färgkoda sin transkription baserat på hur säker den är på det som sägs, och denna självanalys är väldigt avslöjande.

Under vissa omständigheter kommer den korrekt att identifiera att en sektion kan vara misstänkt, men i andra delar är den säker på att den har transkriberats helt fel.

Några vanliga frågor verkar kasta det en kurvboll, och en av dessa är människor som inte talar grammatiskt perfekt prosa. I ett försök att göra deras tal mer direkt, har de tagit bort några ord från sina meningar, vilket ger en mer dramatisk stil. När dessa transkriberas av Sonix verkar det bestämt att lägga tillbaka dessa ord för att passa dess interna grammatikmodell snarare än vad som faktiskt talades.

Transkriptionen läser bättre som ett dokument, men det är inte riktigt representativt för vad som sagts.

Sonix är verkligen bättre när inspelningens kvalitet och högtalarens klarhet är hög, vilket vi bevisade med ett litet klipp av Stephen Fry som läste Harry Potter. Men det är inte möjligt att alltid ha sådan kontroll över ljudkvaliteten, och det gjorde fortfarande misstag med det testet.

Ett annat problemområde är formella namn och tekniska ord eller förkortningar. Dessa kan hanteras genom att lägga till dem i den anpassade ordlistan, men detta kräver arbete för att systemet ska kunna förverkliga bättre när namn eller akronymer används.

För de som behöver transkriptionsord perfekt, har Sonix ett urval av associerade professionella transkriberare som kan arbeta igenom en inspelning och ta itu med dessa problem, men detta motverkar något syftet med bearbetad transkription.

säkerhet

Fokus för Sonix.ai-säkerhet är servrarna där ljudet bearbetas och transkriptionerna hålls.

All trafik krypteras med TLS (Transport Layer Security) och när filerna finns på servern som är skyddad av flera lager av brandvägg, intrångsskydd och all data ringfences av AES-256 server-kryptering. Och företaget lovar att anställda inte har tillgång till inspelningar eller transkriptioner om inte uttryckligt tillstånd ges för dem att ha det.

Det kritiska problemet med detta tillvägagångssätt är att en enkel inloggning och ett lösenord kan kringgå allt. Sonix.ai har ingen tvåfaktorautentisering och det har inte en lättillgänglig logg över vem som får åtkomst till filer och när.

Ur säkerhetssynpunkt kan detta mycket väl betraktas som ett alltför stort beroende av integriteten hos dem som använder systemet för att inte dela inspelningar med andra utanför verksamheten eller behålla potentiellt känsliga filer när de lämnar företaget.

Kort sagt, säkerheten måste vara bättre och spårningen eller användarens aktivitet ges större prioritet.

Slutlig dom

Med tanke på de relativt höga kostnaderna förväntade vi oss att Sonix skulle prestera bättre än vad det gjorde.

Kanske hade vi otur med våra val av saker att koda om, men det verkade ändå göra en överdriven mängd fel.

På den positiva sidan av denna ekvation är det snabbt och det är ett anmärkningsvärt enkelt system att använda, även om vi skulle rekommendera att köra några exempel på inspelningar genom denna lösning innan du går in på ett abonnemang.

Det största problemet med Sonix är den höga kostnaden, och även om det är rätt verktyg för just ditt behov finns det billigare sätt att göra ljud till text någon annanstans.