Röstinteraktionsteknik
Denna kartläggning har genomförts i samverkan med Vinnovaprojektet Future Industrial Voice. Vi har här tittat på olika system för röstinteraktion med fokus på tillämpningar inom industrin. För att öka förståelsen kring hur tekniken fungerar och vilka begränsningar som finns har vi laborerat med utvalda konsumentprodukter. Genom ett samarbete med styrsystemstillverkaren Beckhoff har vi även tagit fram en prototyp med röstinteraktion för processtyrning.
Konsumentprodukter
Google Home Assistant
I sitt grundutförande kan Googles assistent användas till att fråga efter information som finns på Internet, t.ex. väderprognoser eller artiklar på Wikipedia. Det är också enkelt att länka assistenten till ett Spotifykonto och att uppmana assistenten att spela musik därifrån.
Utöver detta finns en uppsjö med appar som är möjliga att installera, det är nästan bara fantasin som sätter gränser. I kombination med extra hårdvara finns även möjlighet att styra belysning eller andra automatiserade funktioner, t.ex. larm eller markiser.
Assistenten kan både förstå och tala svenska och kan i hög grad tolka olika personer med olika röster. Assistenten har relativt bra förmåga att föra en dialog, då det är möjligt att ställa följdfrågor eller lägga till önskemål.
Demo Google Home Assistant
iPhone med Siri
Apple har valt att ge sitt system för röstinteraktion namnet ”Siri”. Även Siri talar och förstår svenska och i de fall funktionen används på en telefon integreras den naturligtvis med telefonens funktioner. Det går t.ex. att be Siri ringa upp en kontakt från telefonboken eller läsa upp ett mottaget textmeddelande. Möjlighet finns även att svara på textmeddelanden, men i praktiken krävs att man kontrollerar texten innan den skickas vidare, så att fokusera helt utan att titta på telefonen är inte möjligt.
GoPro HERO 5
Röststyrning i actionkameran GoPro ligger på en mycket grundläggande nivå. Kameran känner igen en handfull olika kommandon men svarar endast med pipsignaler. En rolig detalj är emellertid att man kan säga ”That was sick!” under en pågående inspelning. Ett bokmärke läggs till så att det är enkelt hittar igen rätt del av filmen.
Industritillämpning
Prototyp Beckhoff
Den tyska styrsystemtillverkaren Beckhoff ligger i framkant inom röstinteraktionsteknik för industriell tillämpning och har utvecklat en modul som kan användas med deras hårdvara. Än så länge är modulen inte lanserad officiellt men i detta projekt har vi fått tillgång till en förhandsversion.
Beckhoffs system bygger på språkfunktioner som finns i Windows 10, vilket innebär att svenska än så länge inte kan tolkas utan endast läsas upp. I och med detta har vi valt att skapa prototypen helt på engelska.
Tekniken i detta system tolkar varje ord individuellt och det är upp till programmeraren att definiera varje fras som systemet ska förstå. Även logiken för hur systemet svarar måste programmeras från grunden. Fördelen med detta är att beteendet blir förutsägbart och konsekvent, vilket är en förutsättning i många industritillämpningar. Nackdelen är att användaren tvingas känna till vilka fraser som systemet förstår, och om man råkar uttrycka sig bara lite annorlunda uppstår lätt frustration då det inte fungerar.
Demo Beckhoff TwinCAT Speech
Slutsatser
Med Beckhoff-prototypen ser vi att det finns möjligheter att skapa ett system med röstinteraktion för att styra och övervaka maskiner och annan industriell utrustning. Risken för att missförstånd uppstår mellan systemet och användaren är dock överhängande och därför kan det vara svårt att skapa förtroende för tekniken hos användaren.
En stor fördel är förstås om användaren har erfarenhet av system med röstinteraktion. Vi ser därför stor potential i att introducera tekniken i sammanhang som inte är direkt kopplade till produktionen. Exempelvis skulle röstinteraktion kunna användas i stället för anteckningsblock, för att göra noteringar vid rondering i fabriken. Ett annat exempel är informationssystem i kontrollrum, där röstinteraktion skulle kunna användas för att få upplysning om produktionsdata eller för att få driftinstruktioner upplästa.