Lyssnar Google och Apple på allt vi säger?

Röstassistenter i mobiler och smarta högtalare har varit i ropet de senaste dagarna. Tidigare i veckan gästade jag (Karl Emil Nikka) Teknikveckans podd för att prata om vilken information som IT-jättarna egentligen samlar in om oss användare. Inslaget gjordes bland annat med anledning av en incident i somras där belgiska röstinspelningar från Googles röstassistent Google Assistant hamnade på avvägar (läs mer längre fram i artikeln).

Igår rapporterade The Guardians internationella upplaga om en liknande incident hos Apple. En visselblåsare säger till tidningen att Apples underleverantörer har haft tillgång till inspelningar med känslig information från Apples röstassistent Siri.

Apple contractors regularly hear confidential medical information, drug deals, and recordings of couples having sex, as part of their job providing quality control, or “grading”, the company’s Siri voice assistant, the Guardian has learned.

Ur The Guardians länkade artikel om Siri

Så fungerar ”hej Google” och ”hej Siri”

Att smarta högtalare hör vad vi säger är i sig inget konstigt. Det är tvärtom en förutsättning för att de ska fungera. Sättet som de avgör vilket ljud som de ska spara är dock inte problemfritt.

Både Google Assistant och Siri spelar konstant in omgivningsljudet för att lyssna efter sin så kallade triggerfras, det vill säga ”hej Siri” eller ”hej Google”. När de uppfattar triggerfrasen sparar de det efterföljande ljudet tillsammans med någon sekund av ljudet före triggerfrasen (för att få med själva triggerfrasen). Den inspelningen skickas för analys till Googles och Apples servrar medan allt annat ljud kastas. Myten om att Google och Apple avlyssnar allt vi säger stämmer alltså inte (ifall massövervakning i sådan utsträckning skett hade det synts tydligt i trafikmönstret).

Det händer dock att Google och Apple hör saker som vi inte hade tänkt att de skulle höra. Den akustiska detekteringen av triggerfrasen är inte perfekt och, som många säkert har märkt, händer det att assisterna reagerar utan att vi har triggat dem med flit. Det beror på att assisterna har råkat feltolka något ljud som om det vore deras triggerfras. I Teknikveckans podd berättar exempelvis Peter Esse att Google Assistant ofta misstolkar ”hej och välkommen till Teknikveckan” som ”hej Google”.

När Google och Apple programmerar sina assistenters triggerfrasdetektering går de en besvärlig balansgång. Om assisterna är för nitiska kommer användarna irritera sig över att de måste upprepa triggerfrasen flera gånger. Om assisterna är för slarviga kommer de att triggas för många gånger av misstag. Noggrannheten i detekteringen är idag på en mellannivå som är satt utifrån möjligheterna som dagens teknik erbjuder. I framtiden lär detekteringen förhoppningsvis bli ännu bättre.

När något går fel

Alla som har använt dagens röstassistenter vet att de ibland uppfattar något helt annat än det som sagts. Tekniken för rösttranskribering är långt ifrån hundraprocentig och det blir inte lättare när röster ska detekteras i bullriga miljöer. Den breda floran av olika dialekter försvårar saken ytterligare.

För att träna sina smarta assistenter tar både Google och Apple hjälp av människor. De låter mänskliga öron lyssna på inspelningar och skriva ned vad som sägs. Detta är en väsentlig del i träningen av den artificiella intelligensen som röstassistenterna förlitar sig på.

Både Google (enligt egen utsago) och Apple (enligt The Guardian) anlitar underleverantörer för att hjälpa till med denna träning. Båda företagen poängterar att det endast är en liten andel av inspelningarna som lyssnas på av människor och att de som arbetar med analysen har strikta kontrakt beträffande integriteten. Medarbetarna får inte heller reda på vilken användare som inspelningarna kommer från (Apple sparar inte ens den informationen), men kontexten av det som sägs kan självfallet avslöja personen som pratar.

Uppdatering 2019-08-02: I en kommentar till The Verge säger Apple att de i väntan på utredning slutar låta underleverantörer lyssna på inspelningar.

Bakgrunden till att de anlitar underleverantörer är att Google och Apple behöver hjälp med att förstå nyanserna av världens alla språk och dialekter. Trots kontrakten som skrivs med dessa underleverantörer är det inte helt oproblematiskt. Nyhetsredaktionen på belgiska VRT NWS fick på något vis ändå tillgång till tusentals inspelningar via en av Googles underleverantörer (rapporterat av bland annat Ars Technica).  

Visa alla inspelningar

För att kunna utveckla och förbättra röstassisterna behöver Google och Apple ta hjälp av människor. Detta är inte kontroversiellt i sig. Problemet är att inte alla användare vet om det och att de därför riskerar att använda röstassistenter i situationer som de annars inte hade gjort det i.

Google är helt öppna med att de sparar inspelningarna. Faktum är att du som användare kan se alla dina inspelningar, läsa transkriptionerna och lyssna på ljudfilerna. Gå till ditt Google-kontos ljudaktivitetsinställningar och klicka på Hantera historik. Där kan du också radera inspelningar och välja huruvida du vill att framtida inspelningar ska sparas till ditt Google-konto.

Google-kontos ljudaktivitetsinställningar
Google visar alla inspelningar som du gjort.

Apple har ingen motsvarande översikt. Det kan de inte heller ha då de inte kopplar inspelningarna till användarnas Apple-ID:n. De sparar inspelningarna till tillfälligt genererade Siri-ID:n som är skilda från Apple-ID:na (du som användare kan byta Siri-ID genom att inaktivera och återaktivera Siri).

Rekommendation

Röstassistenter är värdefulla hjälpredor i vardagen. Vi avråder inte på något vis från att använda sådana. Det viktiga är att vara medveten om hur de fungerar och vilka risker de för med sig. Vi finner det exempelvis olämpligt att ha smarta högtalare i konferensrum där företagshemligheter diskuteras.  

Alla som arbetar med konfidentiella uppgifter (t.ex. läkare och advokater) bör också använda röstassistenter med försiktighet. På Google Home-högtalare finns en knapp för att inaktivera mikrofonen så att högtalaren kan användas för musik men inte för Google Assistant.  

På Iphone och Apple Watch går det exempelvis att inaktivera ”hej Siri-frasen” så att användaren måste hålla in en knapp för att använda Siri.

(Öppna Inställningar följt av Siri och sökning på Iphone respektive Inställningar följt av Allmänt och Siri på Apple Watch för att ändra ”hej Siri-inställningen”.)

Mer information om integriteten hos Googles och Apples assistenter finns på Googles dedikerade webbsida respektive Apples white-paper IOS 12 Security Guide (se sida 68). Tack till Bobbo Sundgren (författare till den kommande boken Sveriges värsta nättroll) för hjälp med denna artikel.