Watson är IBM: s datorsystem som behandlar naturligt språk. Det driver den berömda frågesvarande superdatorn samt en serie AI-baserade företagsprodukter, inklusive Watson Speech to Text. I vår Watson Tal till text-granskning tittar vi på en av de bästa tal-till-text-apparna, perfekt för alla som vill konvertera ljud till text i stor skala.
Watsons talbehandlingsplattform finns på IBM Cloud. Det är ett mångsidigt verktyg och kan användas i många sammanhang inklusive diktering och transkription av konferenssamtal. Dessutom, till skillnad från de flesta andra tal-till-text-appar, är den tillgänglig som ett API, så att utvecklare bland annat kan bädda in det i röststyrningssystem.
Watson Tal till text: Planer och prissättning
Du kan använda Watson Speech to Text för att bearbeta upp till 500 minuter ljud gratis per månad. Om du vill konvertera mer än så måste du betala för varje ljudminut och hastigheten ändras baserat på ljudets bearbetningstid. Kostnaderna varierar från $ 0,01 till $ 0,02 per minut och det tillkommer en tilläggsavgift på 0,03 $ per minut om du behöver IBMs anpassade språkmodell. Premium-offert endast Watson-planer finns också, och dessa ger tillgång till förbättrade dataskyddsfunktioner och drifttidsgarantier.
Watsons tal-till-text-tjänst är prissatt baserat på volymen innehåll du behöver för att transkribera.Du kan också komma åt Watson Speech to Text-systemet via ett allmänt IBM Cloud-abonnemang. Naturlig språkbehandling är bara en app i ett brett utbud av AI-tjänster du kan få via IBM Cloud, så det här är ett bra alternativ för alla organisationer som behöver tillgång till snabba dataöverföringar, chatbots eller text-till-tal-verktyg.
Watson Tal till text: Funktioner
Tack vare flexibel API-integration och andra förbyggda IBM-verktyg går Watson taligenkänningstjänst långt utöver grundläggande transkription. Om du till exempel vill använda den i en kundservicekontext kan Watson Assistant ställas in för att behandla naturliga språkfrågor direkt eller svara på frågor via telefon.
I Watson har IBM satt ihop en funktionsrik plattform för bearbetning av naturligt språk.Watson arbetar med live-ljud på 11 språk och kan importera ljud i en mängd förinspelade format. I realtid innebär diagnostiskt stöd att Watson kan uppmana användare att flytta närmare sin mikrofon eller ändra sin miljö. Imponerande är också det faktum att Watson kan skilja mellan olika högtalare i en delad konversation tack vare Speaker Diarization, en funktion som fortfarande genomgår betatestning.
Watson Tal till text: Inställning
För att använda Watson är det första du behöver göra att skapa ett IBM Bluemix-konto. Registreringen är gratis och smärtfri och kräver bara en e-postadress och ett lösenord. När du är inloggad måste du lägga till en avsättning på ditt konto för tjänsten Tal till text. Du får i detta skede ett par uppgifter som du bör spara i dina egna register.
Registrering för ett IBM Bluemix-konto är nödvändigt för att få tillgång till Watsons fullständiga funktionsuppsättning.När du har gjort det blir sakerna betydligt mer komplexa. För att komma åt Watson måste du lägga till dessa referenser i en grupp klientuniform resurslokaliseringskod (cURL) och sedan köra den på din maskin. För att ta reda på exakt vilket kommando du ska ringa, kolla in den här praktiska guiden. Alternativt, om du bara vill se hur bra Watson-systemet fungerar utan att behöva hoppa genom alla dessa bågar kan du prova det på IBMs demosida istället.
Watson tal till text: gränssnitt
Till skillnad från konsumentvänliga röst-till-text-appar är Watsons tjänster utformade för åtkomst via API: er och kod inbäddad i andra system. Av den anledningen finns det inget riktigt Watson-gränssnitt. Istället kan Watson nås via tre olika internetprotokoll. Dessa är WebSockets, REST API och Watson Developer Cloud.
Watson Tal till text kan hanteras via Watson Developer Cloud-systemet.För att kontrollera Watson måste du använda ett kommandoradsverktyg som ansluter till IBMs moln via en av dessa tre rutter. Gränssnittet som slutanvändaren som interagerar med Watson ser måste byggas av någon i ditt utvecklingsteam separat.
Watson Tal till text: Performance
Sammantaget blev vi imponerade av hur denna naturliga språkbearbetningsplattform hanterade riktigt tal. Vi använde Watson för att transkribera klipp som vi spelade in i en rad utmanande miljöer samt ljudbitar av berömda tal på flera av Watsons 11 stödda språk.
Vi fann att Watson presterade bra med förinspelat tal.Även om fel växte oftare för klipp med mycket bakgrundsbrus, genererade Watson i allmänhet otroligt noggranna resultat. Vi skulle uppskatta från våra tester att omedelbara misstag inträffade bara en gång i 150 ord i genomsnitt. Det blev emellertid klart varför Watsons Speaker Diarization-funktion kvarstår i BETA-testning, eftersom en röst flera gånger under vår utvärdering var felaktigt märkt som separata högtalare.
Watson Tal till text: Support
IBMs resurscenter erbjuder massor av dokumentation för att bättre förstå hur du använder Watson i just ditt användningsfall. Det är också värt att använda API-integrationer och SDK: er som skapats av Watson-utvecklargruppen och publiceras på GitHub.
Watson API GitHub-sidan är en bra stödkälla för Watson Speech to Text-tjänsten.Om du inte hittar lösningen på ditt problem där kan du kontakta IBM direkt genom att öppna en supportbiljett eller kontakta dem via telefon. Så länge du valde ett av premium-Watson-paketen, kommer din Watson-användning att skyddas av ett servicenivå Uptime-avtal.
Watson tal till text: slutlig dom
Om din organisation har kunskapen och resurserna för att korrekt integrera IBM Watson Speech to Text-plattformen i ditt system, kommer du att dra nytta av avancerade funktioner som realtidsdiagnos för ljudmiljö och interimistiska transkriptionsresultat. Småföretag och organisationer kommer dock att kämpa med den tekniska utmaningen att ställa in Watson ordentligt.
Tävlingen
IBM Watson Speech to Text-tjänsten är en direkt konkurrent till bulk-transkriptionstjänster Google Cloud Speech-to-Text och Amazon Transcribe. Båda dessa är betydligt billigare än Watson, med exempelvis Google Cloud-transkription från 0,006 USD per minut. Alla tre tjänster har liknande funktioner, till exempel anpassad ordförråd, men en funktion som verkligen saknas från IBM Watson men är tillgänglig med båda konkurrenterna är automatisk interpunktionsigenkänning.
Letar du efter en annan text-till-text-lösning? Kolla in vår bästa guide till tal-till-text-programvara.