ChatGPT och liknande generativa text-AI-verktyg har börjat underlätta våra jobb. Aftonbladet och Expressen drar nytta av ChatGPT för att skapa kortfattade summeringar av långa artiklar. Nyhetsappen Readwise har en inbyggd ”spökläsare” som automatiskt sammanfattar artiklarna som användarna sparar. Detta är exempel på situationer då ChatGPT både briljerar och kan användas riskfritt. Så är dock inte alltid fallet.
Flera av de amerikanska storbankerna har förbjudit sina medarbetare att använda generativa text-AI-verktyg. Koreanska Samsung har gjort samma sak efter att medarbetare har råkat läcka företagshemligheter i konversationer med ChatGPT. Problemet är att generativa text-AI-verktyg inte fungerar som vilka andra molntjänster som helst. Informationen som användarna förser verktygen med kan användas för att träna modellerna, vilket riskerar leda till att personuppgifter och företagshemligheter läcker. Värst av allt är att datan som den artificiella intelligensen har ”lärt sig” kan vara svår eller rent av omöjligt att radera eller korrigera.
I veckans somriga avsnitt av Bli säker-podden pratar Peter och Nikka om riskerna med generativa text-AI-verktyg. Nikka berättar också om de glädjande AI-nyheterna som Nextcloud presenterade förra veckan. Nextcloud har nämligen en lösning på problematiken.
Kapitel i avsnittet
- 00.00 Inledning
- 01.49 Högtid för bluffakturor
- 03.06 Veckans facepalm (nomail.se)
- 08.19 Nytt spionprogram för Iphone
- 12.35 Informationsläckande AI
Omtalat i avsnittet
- Varningen för bluffakturor från Web Hosting Solutions 24
- Peter Forsmans blogginlägg om nomail.se
- RFC 2606
- Information om TriangleDB-spionen för Iphone
- Mashables artikel om Samsungs ChatGPT-dataläckor
- Avsnittet av Breakits podcast om Klarnas AI-bruk
- Nextcloud Ethical AI
Detta poddavsnitt innehåller ljud- och videosnuttar från presentationen av Nextcloud Hub 5 (CC BY, Nextcloud). Dessa shownotes finns även hos Bredband2 som podden produceras tillsammans med.
Nikka: Du lyssnar på Bli säker-podden som den här veckan handlar om läckor i artificiell. Nej, nej. Vet du vad? Vi gör så här. Det är midsommarafton och du lyssnar av någon anledning på Bli säker-podden, vilket vi såklart är väldigt glada för.
Peter: Det är lite synd att ni bara lyssnar. Just nu sitter jag och tittar på en Karl Emil Nikka med en jättefin midsommarkrans.
Nikka: Jättefin men på tok för liten. Jag får ta av mig den för att jag känner mig lite mer som korsfäst Jesus med den här kransen.
Peter: Satte sig själv på ett kors uppenbarligen. Men en anledning att följa oss på Youtube tycker jag ändå.
Nikka: Just det är det. De senaste veckorna har vi även släppt podden i videoformat, så prenumerera på Youtube-kanalen om ni vill se podden i video. Det här är så klart Bli säker-podden som produceras i ett ekonomiskt oberoende samarbete mellan Nikka Systems och Bredband2. Inspelat 22 juni för sändning 23 juni. Midsommarafton alltså.
Peter: Och vi ska ju prata om en hel del problematik när det kommer till AI och integritet och säkerhet. Men först, vet du varför vi firar midsommar?
Nikka: Det vet jag faktiskt inte.
Peter: Det är för att redan för många hundra år sedan så visste man att man behövde man behövde en dans som skulle få bort både gräspollen och framförallt bluffakturor som alltid kommer vid den här tidpunkten av året. Så det är därför man dansar runt liksom, för att hantera denna problematik då.
Nikka: Så var det definitivt inte nej.
Peter: Det var inte. Hur många fakturor har du fått från Web Hosting Solutions 24?
Nikka: Ja, Web Hosting Solutions 24, det här bedrägeribolaget, de fortsätter att pumpa ut bluffakturor och jag är nu uppe i 13 stycken. Jag fick fem stycken till är bluffakturor från dem nu i veckan. 13 totalt.
Peter: Fem här. Då kanske jag får några till här nu snart.
Nikka: Och det här är ju ett företag som vi har varnat för tidigare. Anledningen till att vi tar upp det igen, det är faktiskt inte för att påminna om just bedrägerierna som de pysslar med, utan för att påminna om att vi nu går in i högtiden för bluffakturor. Nu vet bedragare att det är många som är sommarvikarier som kommer in och jobbar på ekonomiavdelningarna. Så var extra uppmärksamma för bluffakturor under de kommande två månaderna. Granska dem noga. Se att ni faktiskt har en affärsrelation med dem som skickar fakturan till er och kontrollera att det faktiskt är en faktura och inte ett falskt eller missvisande erbjudande så som Web Hosting Solutions 24 pysslar med. De skickar ju fakturor eller erbjudanden som ser ut som fakturor i hopp om att någon ska betala dem.
Peter: Usch och fy. Det handlar om domäner när det kommer till Web Hosting Solutions 24. Och vi har en annan domännyhet, eller ska vi kalla det nyhet? Det är ingenting nytt, men det har uppstått en liten situation här.
Nikka: Ja, det kan vi ju säga. Det är Peter Forsman eller Peter, InternetSweden Forsman, som har bloggat om en upptäckt han gjorde. Peter Forsman, han jobbade tidigare med bedrägeriutredningar på Internetstiftelsen och är en av mina stora förebilder när det kommer till bedrägeriutredningar. Alltså hans kopplingar mellan alla olika bedrägliga organisationer. Och den insikten han har är helt fantastiskt. Men det som han upptäckte det var någonting som gjorde att Integritetsskyddsmyndigheten borde börja dyka djupare i en specifik situation. Jag tänkte att jag läser lite av inledningen från hans blogginlägg.
Citat (Peter Forsman): För några månader sedan registrerade jag domännamnet nomail.se som jag spontanregistrerade efter att fått ett infall kring en idé jag fick. Men så gott som omgående efter att jag hade lagt upp den på mitt webbhotell och lagt upp e-postadressen info@nomail.se, så hände det saker som fick mig att fundera: vad sjutton är det här?
Nikka: Det som Peter Forsman upptäckte var att han började få mejl till den här adressen som han hade lagt upp, info@nomail.se, vilket var underligt eftersom han inte hade registrerat den någonstans. Men det var det däremot andra som hade gjort. Och för att förstå scopet på det här problemet, omfattningen på det här problemet, så skapade han det vi kallar en catch all-inkorg. Och en catch all-inkorg innebär att alla mejl som skickas till en domän, oavsett vem användaren som står framför @-tecknet är, så går det till samma inkorg, därav ”catch all”. Den tar allting som skickas till en specifik domän. Och då upptäckte han att han fick företagsavtal, abonnemangsuppgifter, kvitton och ljudfiler av röstmeddelanden till den här inkorgen.
Nikka: Bakgrunden till det var att en stor elektronikkedja bland annat hade lagt in den domänen som en lösning för att troligtvis kringgå ett krav i deras affärssystem. Det är i alla fall det mest sannolika jag kan komma på. För det som hände var att han fick mejl som skickades till olika telefonnummer @nomail.se. Och det troligaste här då det är att i det här affärssystemet så har det funnits ett krav på att den som använder det ska skriva in kundens e-postadress och telefonnummer. Men ifall den som har registrerat kunden inte har orkat fylla i en e-postadress, då har de bara tagit automatiskt och lagt in telefonnumret @nomail.se för att antyda att det här är ingen e-postadress, men inte tänkt på att vem som helst kan registrera nomail.se. Så då började alla de här mejlen, inklusive massa personuppgifter och ljudfiler med inspelade röstmeddelanden, gå till Peter Forsman.
Nikka: Och nu var det ju himla tur att det var just han som registrerade den här domänen. Men jag kan komma att tänka på många andra domäner som säkerligen går till någon som inte har lika goda tankar om vad som ska göras med det här som Peter Forsman har. Till exempel nomail.com. Vem äger den? Eller ett test.com? Vem äger den?
Nikka: Det här är ett väldigt tydligt exempel på att någon har implementerat en lösning för att kringgå ett problem som de inte borde behöva kringgå. Det rätta här hade ju varit att korrigera systemet så att det inte krävdes en e-postadress. Om min teori nu då stämmer. Och om det absolut måste stå en e-postadress av något skäl för att det inte finns någon duktig programmerare som kan ändra i det här systemet, då måste ju den e-postadressen i alla fall vara en reserverad e-postadress, en adress som ligger på en reserverad domän. Och vi har några sådana domäner. De definieras i RFC 2606. Där står det att example.com, example.net och example.org, det är domäner som du kan använda i de här sammanhangen, för det är bara exempeldomäner. Och samma sak med alla domäner som slutar på .test, .example, .invalid och .localhost. De borde ha använt någon domän därunder i stället, eller i själva verket göra så att inte medarbetare behöver kringgå det här på något sätt. Så ja, jag skulle uppmana alla som lyssnar på det här och jobbar i någon organisation kolla så att ni inte av misstag har lagt in någon exempeldomän som det börjar skickas mejl till ifall någon registrerar den domänen. Och om det måste finnas en domän av något slag. Använd en domän som är definierad i RFC 2606 som vi länkar till från våra shownotes.
Peter: Vi byter ämne totalt. Nu är det inte mycket domäner här, men det är Apple som har, det har upptäckts en nolldagarssårbarhet till.
Nikka: En till. Precis. Vi är nu uppe i den nionde aktivt utnyttjade nolldagarssårbarheten i Apples operativsystem bara för i år. Det har blivit väldigt många. De som upptäckte den här nolldagarssårbarheten, det var några säkerhetsforskare på Kaspersky. Kaspersky, de skriver så här i sin artikel som de har publicerat på Securelist, deras blogg om IT-säkerhetsfrågor. Citat på engelska.
Citat (Kaspersky): While monitoring the traffic of our own corporate Wi-Fi network, we noticed suspicious activity that originated from several iOS-based phones. We created offline backups of the devices inspected them and discovered traces of compromise.
Nikka: Slut citat. Alltså. De upptäckte att medarbetare hos Kaspersky hade telefoner som hade blivit komprometterade där det skickades massa trafik från dem utan att det skulle göra det. Sedan så lade Kaspersky, enligt de själva, ett halvår på att djupdyka i vad är det egentligen som har hänt. Och det de upptäckte var att det gick att infektera Iphone-mobiler via en Imessage-bilaga. Du har hört det förut. En Imessage-bilaga, en attackpreparerad Imessage-bilaga kunde skickas till en Iphone som automatiskt då infekterade den och infekterade den med ett skadeprogram som Kaspersky har namngett TriangleDB. TriangleDB gjorde att angripare sedan kunde stjäla, ändra och radera filer, stjäla nyckelringar inklusive lösenord och bevaka mobilernas geografiska positioner.
Peter: Nu var det nionde här och vi är inte ens här, ja, vi är framme vid midsommar visserligen. Har Apple blivit så stora så att det här blir ett större problem eller har de tappat det på säkerhetsfronten?
Nikka: Det är ingenting som jag kan annat än spekulera kring. Men vi kan väl säga som så här: det finns sårbarheter i all mjukvara och ju fler funktioner som finns i en mjukvara, desto större blir attackytan. Det är därför som vi säger till de som är i riskzonen för att drabbas av den här typen av spionprogram, alltså inte vanliga privatpersoner utan till exempel företagsledare, högt uppsatta politiker, de som jobbar med försvaret, de som jobbar på organisationer som levererar till försvaret, alla de här personerna som är intressanta måltavlor för statsunderstödda attacker eller attacker från organisationer som har rejält med kapital. Journalister, frihetskämpar också för den sakens skull. De bör överväga att aktivera det vi kallar ”Låst läge” på sin Iphone och sin Mac, som begränsar attackytan, till exempel vilka meddelandebilagor som automatiskt kan visas. Den typen av saker. Så att attackytan på deras mobiler begränsas.
Nikka: Vi har ju sett många exempel, men det här är inte någonting som enligt mig tyder på att det skulle vara problem för stora allmänheten, utan det här är någonting som i stället de som är extra utsatta måste ha i åtanke. Det finns sårbarheter och jag skulle inte säga att vi har någonting som tyder på att Apple har blivit sämre på att underhålla sina operativsystem och att få bort buggar som upptäcks. Det är mer att det upptäcks mycket buggar. För det finns ett stort intresse av att infektera våra mobiler från den här typen av nationsunderstödda grupper och grupper med väldigt stora ekonomiska muskler. Det är bara spekulation, men jag tycker inte vi kan dra någon slutsats att Apple skulle ha blivit sämre. Det är mer att intresset har blivit väldigt stort. Och samtidigt som IOS har växt så mycket och har blivit så oerhört kompetent.
Peter: Så är det ju. Någonting som vi däremot alla måste tänka på, inte bara frihetskämpar och journalister och politiker, det är ju hur ska vi hantera de AI:n och den informationen vi lämnar till dem?
Nikka: Ja, nu ska vi gå in på etisk AI. Etisk artificiell intelligens och informationsläckande artificiell intelligens och generativ text-AI, alltså artificiella intelligensverktyg som kan generera text åt oss. Normalt sett, när jag hör något företag presentera någonting som har med AI att göra nu, då tröttnar jag på det för att det är samma saker om och om igen. Och alla ska hålla på med AI och det är samma sak. Vi har byggt in stöd för ChatGPT. Vi har integrerat med ditten och datten. Men när Nextcloud förra veckan började prata om sina artificiella intelligenssatsningar, då gick jag från att tänka ”åh, inte ni också” till ”okej, det här löser faktiskt ett stort problem”, nämligen just läckande information. Vi ser ju att artificiell intelligens används, och nu syftar jag specifikt på textgenererande artificiell intelligens, generativ text-AI.
Peter: Är det det generativ betyder, att den genererar texten? Ja, nu börjar jag förstå.
Nikka: Och det är då till exempel ChatGPT och Googles Bard-lösning. Det här används på allt fler ställen. Jag vet att du använder det, till exempel Peter, i ditt journalistjobb.
Peter: Jag har börjat experimentera med att alla undertexter jag gör på Youtube, där kan AI-verktyget, sammanfatta till en liten miniartikel, till en beskrivning. Det blir okej, man får korrigera lite. Men spännande framtid.
Nikka: Men där slipper du då skriva den artikeln. Och notera här alla lyssnare att Peter tog information som var publik och gjorde någonting publikt med den. Kom ihåg det. Aftonbladet de gör samma sak. Ni har säkert sett på Aftonbladets webbplats att det ibland finns ”Aftonbladets snabbversion” av en artikel och så står det längst ner ”sammanfattningen är gjord med stöd av AI-verktyg från OpenAI och kvalitetssäkrad av Aftonbladet.”
Peter: Just det, jag vill bara poängtera att de där sammanfattningarna är så korta så ibland undrar man om de varit snabbare de bara skriver de själva. Men jag dömer ingen.
Nikka: Och Expressen, samma sak. Där finns ”artikeln i korthet”. Där kan det stå ”sammanfattningen är gjord med hjälp av OpenAI:s ChatGPT-verktyg och kvalitetsgranskad av en redaktör.” I båda de här exemplen är det alltså en journalist eller en redaktör som har tagit publik information och gjort något publikt med den.
Peter: Jag känner att vi har liksom ett keyword: publik information. Exakt.
Nikka: Men det är inte bara publik information som kan skickas in i den här typen av AI-verktyg. Och för att ta ett exempel på organisationer som har skickat in något annat kan vi kolla på Samsung. De har nämligen vid tre tillfällen skickat in information i ett sådant här verktyg som inte de borde ha skickat in. Och det här är information som vi har fått från The Economists koreanska upplaga. Och eftersom jag inte kan läsa den så har jag kollat på vad Mashable har skrivit om det. Så det här är information som har gått via Mashable, publicerat april 2023.
Nikka: Där framgår det att Samsung-anställda till exempel läckte konfidentiell källkod till ChatGPT för att leta fel. Och det här var ju någonting som de troligtvis gjorde för att de tänkte ”nu kan jag använda det här fantastiska verktyget för att hitta misstag som jag har gjort i min kod” eller i fall de inte kunde få koden att fungera. De kunde inte få den att kompilera. Det kom upp felmeddelanden, då kunde de säga till ChatGPT: ”vad i hela friden är det som jag har gjort för fel?”
Nikka: Ett annat tillfälle, då laddade de upp källkod och bad om kodoptimering. Och det är någonting som till och med jag har gjort. Jag är ju egentligen Java- och PHP-utvecklare. Jag är värdelös när det kommer till Javascript och nu förstår ni att jag inte tillhör den senaste generationens utvecklare. Jag bad ChatGPT: ”kan inte du förbättra den här Javascript-koden så att den inte är superpinsam om någon skulle kolla på den?” Vilket ChatGPT gjorde.
Nikka: Vid ett tredje tillfälle då bad Samsung-anställda konvertera mötesanteckningar till punkter för en presentation och då tog de interna mötesanteckningar och laddade upp till ChatGPT. Lägg märke till att inte i något av de här fallen har informationen som gått in i ChatGPT varit publik.
Peter: Det här är en liten kontrast, för när man är på Samsungs huvudkontor då är det massvis med skyltar och förordningar. Du får inte ta upp mobiltelefonen. Det är nästan som man ska lämna den utanför. Otroligt viktigt att följa de reglerna när man är i de här lokalerna. Precis överallt står det. Vilken kontrast jämfört med hur de hanterar det digitalt.
Nikka: Och jag kan säga att det här är faktiskt det. Vi hade inte förberett det här, men jag kan säga att det är faktiskt väldigt kännetecknande för hur det ser ut i många organisationer nu, det som du beskriver. Vi har sedan tidigare haft jättebra kontroll... Många organisationer har haft bra kontroll på att information ska hanteras strukturerat så att vi vet exakt var vilken information används, hur den kan raderas, hur den kan exporteras, hur den kan raderas. Men sen så kom de här verktygen. Alla ville hoppa på båten, nästan alla. Många ville hoppa på båten och börja använda de här teknikerna, de här AI- verktygen för att effektivisera jobbet. Och då var det precis som att ”vi slänger ut allt det här som har haft att göra med hur vi ska hantera vår information”.
Nikka: För när det kommer till artificiell intelligens och sådana här generativa text AI-verktyg, då måste vi komma ihåg att de fungerar inte som traditionella molntjänster med databaser där allting finns strukturerat lagrat och där vi vet hur vi kan exportera och radera den informationen som finns där. När vi skriver någonting till sådan här generativ text-AI, som till exempel ChatGPT eller Bard, då kommer den informationen också att i framtiden kunna användas för att förbättra de här modellerna som ger svaren. Och eftersom det här inte är bara en traditionell databas utan faktiskt en modell som har byggts upp genom träning som kostar multum. Det krävs många grafikkort. Det är därför som Nvidia har haft en väldigt gynnsam aktiekursutveckling på senare tid. Det är någonting som sedan kan användas för att träna de här modellerna för att ge bättre svar. Men eftersom den informationen då kan gå in i en modell utan att vi på något sätt kan få ut det ur den modellen igen, så gör det att vi kan inte lämna ifrån oss någon känslig information.
Nikka: Det här är faktiskt både OpenAI och Google helt öppna med. OpenAI skriver så här på sin webbplats på svaret på frågan ”can you delete specific prompts?” Alltså kan du radera specifika kommandon åt mig. Då skriver de, citat på engelska. ”No, we are not able to delete specific prompts” from your history. Please don't share any sensitive information in your conversations.” På frågan ”will you use my conversations for training?” då svarar de ”yes, your conversations may be reviewed by our AI trainers to improve our systems. Och på frågan som ställdes till Google, eller egentligen på deras informationssida, på Googles informationssida om Bard, då säger de uttryckligen ”don’t include confidential or sensitive information in your Bard conversations”.
Nikka: Jag tror att det stora problemet som vi ser här, det är att det finns ett missförstånd kring var den här bearbetningen sker. För något år sedan pratade vi Bli säker-podden om en app som hette Faceapp som kunde göra att du såg yngre eller äldre ut och jag poängterade riskerna med att använda den. Det var inte risker som var relaterade till att du skulle se yngre eller äldre ut, utan det var risker som var relaterade till att den bild, den bilddata som användes, den skickades från din mobil till servrar för att generera det här. Det gjordes inte lokalt på enheten utan det gjordes på andras servrar.
Nikka: Samma sak är det med ChatGPT och med Bard. Det är information som vi alltså lämnar ifrån oss. Oavsett om det är information som sedan på något sätt går in i de här modellerna eller inte så är det information som vi läcker till Google och till OpenAI för att de ska kunna förbättra de här systemen.
Nikka: Sedan finns det Enterprise-versioner av de här produkterna också, där till exempel det står att du kan köpa det här och då kommer vi inte använda den här informationen för att träna våra modeller. Men det är ju inte i de här publika och öppna versionerna.
Nikka: Jag vill också poängtera att visst, nu finns det i ChatGPT en liten inkognitofunktion. Du kan gå in i dina inställningar och där kan du välja att stänga av funktionen där står ”save new chats on this browser to your history and allow them to be used to improve our models. Unsaved chats will be deleted from our systems within 30 days.” Den funktionen, den går att stänga av, även om den är på som standard. Men även om du stänger av den, då läcker informationen till OpenAI. Det du skriver, det lämnar du ifrån dig till OpenAI. Det stannar inte på din dator. Så, här måste alla som använder de här funktionerna förstå att om du lämnar ifrån dig data till de här botarna, då har du läckt den datan. Och det gör det väldigt viktigt att förstå till exempel hur företagshemligheter hanteras. Om du är advokat, hur all den informationen som du ansvarar för hanteras. Om du hanterar personuppgifter. Du kan inte lämna ifrån dig personuppgifter till de här amerikanska bolagen, oavsett om de här personuppgifterna sedan, i värsta fall, till och med går in i de här modellerna.
Peter: Källskydd som journalist?
Nikka: Källskyddet! Absolut. Jag vet att det är många som pratar om att ”vi skulle kunna använda sådana här AI- verktyg för att förbättra vår kundtjänst, för att kunna skriva bättre kundtjänstsvar och snabbare kundtjänstsvar”. Men det är två problem med det. För det första, du kan ju inte hantera personuppgifter i den här typen av verktyg. För om du hanterar personuppgifter, då måste du vara helt säker på att du faktiskt kan hantera dem på ett strukturerat sätt och du kan exportera ut dem och där du kan radera dem. Den möjligheten finns inte här, framförallt inte ifall informationen går in i språkmodellen. Dessutom, du kan ju informera dina medarbetare om vad de får använda de här verktygen till, om de får använda verktygen överhuvudtaget, men du kan omöjligtvis informera kunderna om att kunderna inte får skriva någonting känsligt om sig själva.
Nikka: Det är problematiskt på det sättet. Och vi ser ju att nu är det bolag efter bolag efter bolag som väljer att helt enkelt förbjuda medarbetare att använda de här tjänsterna. Eller åtminstone att kraftigt begränsa medarbetarnas rätt att använda till exempel ChatGPT. Samsung har ju av förklarliga skäl sagt nej. Apple, de har troligtvis sagt nej. Kollar vi på de amerikanska bankerna så har Goldman Sachs sagt nej. Citigroup har sagt nej. JP Morgan har sagt nej. Deutsche Bank har sagt nej. Och det är ju för att skydda informationen. Hela Italien har sagt nej för att det just är problematiskt när det kommer till hur personuppgifter hanteras.
Nikka: Det kan då ställas i kontrast till vårt svenska fintechbolag Klarna. Där meddelade Stefan Lundell, som driver Breakits podcast. I senaste avsnittet av den podcasten, då berättade han att Sebastian Siemiatkowski på Klarna har 5 000 anställda och Sebastian kollar varje vecka hur många det är som de facto loggar in på ChatGPT. Så i stället för att göra som de amerikanska bankerna så väljer Klarna att verkligen omfamna den här tekniken. Och då hoppas jag ju att det bara är för att till exempel optimera sin egen kod. Men det kan också vara problematiskt av licensskäl och även risken för att någon känslig information läcker. Så om man använder den här typen av verktyg i den egna verksamheten och väljer att förlita sig på andra bolag för att processa det här, då måste man vara medveten om att här finns det stora risker för dataläckage.
Nikka: Men det löser Nextcloud. Nu kommer vi till det roliga. Vi har ett problem som vi måste vara medvetna om: att de här artificiella intelligenserna, de kan läcka data. Den information som du har försett dem med kan användas för att generera någon annans svar. Och framförallt att de som driver de här tjänsterna får tillgång till den här datan.
Nikka: Hur vill Nextcloud då lösa det? Jo, det är med tre stycken krav för det som de kallar Ethical AI. Den första saken är att de här modellerna och de här verktygen ska ha öppen källkod. Det är så att du ska faktiskt kunna se vad är det som händer? För det andra, modellen ska kunna köras lokalt, alltså du ska kunna ha din egen instans av den här modellen körandes i organisationen så att du inte lämnar ifrån dig någon information till något utomstående bolag som inte får hantera den eller så att du kan säkerställa att det är ingen information som börjar sparas i den här modellen utan att det görs på ett korrekt sätt eller överhuvudtaget.
Nikka: Här är ju inte tanken att vartenda företag ska börja träna de här modellerna, för det är det som är det dyra, att träna modellerna. Det är det som kräver alla dessa grafikkort. Men att köra modellerna, det är inte så krävande. Och för det tredje: träningsdatan, alltså det som har använts för att de här modellerna ska fungera, den ska vara tillgänglig. För dålig indata blir ju dålig utdata. Ifall det inte är bra indata som den här modellen är tränad på, då kommer det inte heller att vara bra svar som genereras från den. Och det här är extra viktigt eftersom risken för infekterad, giftad, poisoned.
Peter: Förgiftad?
Nikka: Förgiftad. Det blir bra. Förgiftad träningsdata är någonting vi måste tänka på. Ifall en angripare vill få någonting att fungera på ett sätt som inte är önskvärt. Jag tänker framför allt i programmeringssammanhang. Då skulle de kunna försöka förgifta datan som modellen tränas på så att svaret som modellen ger faktiskt är fel. Så att det där finns sårbarheter. För att organisationer ska förstå vikten av det här har Nextcloud skapat ett trafikljussystem med fyra stycken [lampor]. Det är grönt, gult, orange och rött. Så inte helt som ett trafikljus utan fyra stycken olika indikatorer kan det finnas. Ifall en lösning, ett sådant här verktyg, uppfyller alla de här tre punkterna, det är öppen källkod, det går att köra modellen lokalt och träningsdatan är tillgänglig, då får det en grön lampa. Medan ifall det här verktyget bara uppfyller två av de här punkterna, då blir det en gul lampa. Och bara en, då blir det en orange lampa. Och ingenting alls, då blir det en röd lampa.
Nikka: Tanken är att Nextcloud ska indikera i de integrationer som finns till Nextcloud om den här integrationen är grön, gul, orange eller röd. Så att det blir lättare för den som driver Nextcloud-instansen att välja säkra AI-verktyg. Det är alltså inte någonting som sedan medarbetaren ska tänka på, utan det här är någonting, eller medarbetaren kan tänka på det också, men det här är framförallt för att organisationen ska bara tillgängliggöra verktyg som är förenliga med den IT- och informationssäkerhetspolicy som organisationen har. Så nu kan du till exempel i Nextcloud Talk, deras motsvarighet till Microsoft Teams eller till Slack, välja att ha AI-bildgenerering så att om du skriver något till mig, då kan jag använda AI-bildgenerering för att göra en rolig ”katt i en hatt” och skicka tillbaka till dig.
Peter: Som man ju gör i chattverktyg mest hela dagarna.
Nikka: Ja, och då finns det två olika integrationer som går att använda. Antingen så går det att använda Dall-E, alltså OpenAI:s lösning. Den har då en röd indikation eller kommer har en röd indikation för att det är inte öppen källkod. Det är inte en modell som går att köra lokalt och datan som tränades är inte tillgänglig. Eller så går det att använda Stable Diffusion som då är en annan integration som har öppen källkod och som har träningsdatan tillgänglig och som dessutom går att köra lokalt. Nu tog jag det i en annan ordning, men det spelar ingen roll. Så där kan då den som driver Nextcloud-instansen välja ”vilken av de här integrationer ska vi ha?”
Nikka: Eller för översättning, ChatGPT kan integreras för att översätta. Och det är ChatGPT jättebra på. Men det är en röd tjänst eftersom det inte går att köra lokalt, informationen läcker, det är inte öppen källkod och det är inte heller ett tillgängligt dataset som används för att träna den här modellen. Eller så går det att använda en egen översättningstjänst som Nextcloud håller på att integrera. Jag kommer inte ihåg vad de baserade den på, men i alla fall, det är något som de håller på att utveckla. Jag testade den lösningen och för mig så funkade den inte så som det visades på scen. För på scen fanns det jättemånga språk att välja mellan medan jag bara kunde välja mellan fem olika. Men det är väl för att de håller på att utveckla det.
Nikka: En fantastisk AI funktion som jag tror att jättemånga kommer älska som också presenterades på senaste Nextcloud-eventet, det är en funktion som automatiskt transkriberar alla möten du har haft. Så när du har haft ett möte i Nextcloud Talk, då kan du få en transkribering av ”det här var det som sades”. Och den lösningen, den är gul och det är för att den är visserligen öppen källkod och kan köras lokalt, men träningsdatan är inte öppen.
Nikka: Men sedan har de, sist men inte minst också, en ny funktion på gång som ska ersätta ChatGPT för de som vill ha en integritetsvärnande version av ChatGPT. Och eftersom Nextcloud är öppna kan vi bädda in ljud- och videoklippet från när Nextclouds VD presenterade den här funktionen.
Frank Karlitschek: We are in the process of building the Nextcloud Assistant. Nextcloud Assistant is based on the large language model. It can do all the features that ChatGPT can do. It will be 100 % open source. Its model will be completely freely available. The training data will be completely transparent. And we are working on it at the moment. We test it internally already. And it will be release later this year in one of the next releases to everybody. And I think again that we have a very nice ethical assistant, that runs completely on your server and is completely secure.
Nikka: Så det är alltså en öppen motsvarighet till ChatGPT. Den testas redan. Det är 100 % öppen källkod. Träningsdatan är transparent. Den kan driftas själv Och den släpps senare i år. Och när det finns, fatta hur pass mycket vi kan börja använda de här verktygen till i våra organisationer utan risken att data läcker från dem. Så vi har en ljus framtid att gå till mötes när det gäller hur datan hanteras i AI om vi är ansvarsfulla. Men vi måste komma ihåg att fram till dess så måste vi informera våra användare, alltså våra medarbetare, om vilka tjänster som de får använda, vilka de inte får använda och vad de får använda de här AI-tjänsterna till överhuvudtaget. Och samma sak kommer det i och för sig vara efter att Nextcloud har släppt den här lösningen också. Oavsett om ni väljer att implementera den i er organisation eller inte, så måste ni informera om vad den får användas till och vad alla andra tjänster som finns publikt på nätet får användas till.
Nikka: För visst, artificiell intelligens är fantastisk. Det är jättekul att se hur den kan användas för att effektivisera vårt jobb. Och det är jättekul att se hur liksom en artificiell intelligens baserad på data som den har kan koppla ihop jättemånga olika saker och få ut en text som faktiskt ser ut att vara skriven som av en människa. Men det är skrämmande om vi tänker på att om felaktig eller förlåt, inte felaktig, men information som vi inte ville att skulle hamna i den här motsvarigheten till människans hjärna, då kan vi inte radera den. Då finns den där.
Nikka: Radera poddar. Gör du det?
Peter: Absolut inte.
Nikka: Nej, men du kan åtminstone arkivera det här poddavsnittet efter att du har lyssnat på det. För redan nästa vecka så får du ett nytt poddavsnitt av Bli säker-podden som ersätter det här. Så passa på att prenumerera på podden om du inte redan gör det. Prenumerera på Youtube om du vill titta på mig och Peter när vi står här och pratar i sommarvärmen. Tack så jättemycket för att du har lyssnat den här veckan och glad midsommar!
Några tankar och frågor om informationsläckande AI:
1) Jag höjde på ögonbrynen över detta svar i DN-artikel 22 juni 2023 där statsministern svarar:
“Är det tillåtet att använda Chat GPT på regeringskansliet?
– Vi har inte några formella förbud i alla fall. Så det är som med alla verktyg att det ska användas med omdöme. Som det heter, med källans angivelse. ”
Ref:
Statsministern om AI: Feltänkt att stoppa utvecklingen.
https://www.dn.se/sverige/ulf-kristersson-jag-onskar-att-jag-hade-varit-ingenjor/
2) Jag har varit förvånad att personer använder (och tyckts saknas restriktioner) använt Google Translate sedan många år tillbaka för att översätta hela jobbrelaterade texter. Hur är det säkerhetsmässigt ang informationsläckage?
3) Washington Post artikel 19 april kunde man kolla källor för Google C4 dataset. Jag fick fram att min personliga hemsida var klart högre rankad än Dagens nyheter. Det ger mig två tankar; dels pekar det på vilka är verkligen källorna för träning…! Jag är viktigare än hela DN!? Och för det andra – med vilken rätt kan Google använda min hemsida som jag har copyrightstämplat? Och hade rätten varit annorlunda om jag använt öppen licens men som kräver källhänvisning?
Ref:
Inside the secret list of websites that make AI like ChatGPT sound smart.
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
Trevlig midsommar tillönskas!
Gällande svaret på ChatGPT-bruket i Regeringskansliet så kan jag inte säga att svaret är fel. Jag finner däremot svaret olämpligt. ChatGPT kan givetvis användas för helt ofarliga saker, till exempel att sammanfatta publika artiklar. Problemet är att långt ifrån alla är medvetna om dataläckorna som vi pratade om i morgonens avsnitt. Det gör att risken för dataläckage är överhängande, inte minst i stressiga situationer. Med tanke på målgruppen borde, i min mening, regeln vara att ChatGPT enbart får användas i specifika situationer och efter att medarbetaren har förstått innebörden av hur lösningen fungerar. Då tänker jag både på förståelse för dataläckor och förståelse för vad som egentligen genereras av ChatGPT (alltför många tror fortfarande att ChatGPT är ett uppslagsverk).
Problemet med kostnadsfria Google Translate är detsamma. För det första läcker all information till ett bolag med säte i land utan adekvat dataskydd. Det innebär att det inte går att hantera personuppgifter i Google Translate. För det andra har Google åtkomst till informationen i syfte att förbättra tjänsten. Google ger som exempel att ”vi kan till exempel förbättra stavningskontrollen i våra tjänster om vi vet vilka söktermer som ofta stavas fel”.
https://support.google.com/translate/answer/10400210?hl=sv
Kostnadsfria Google Translate ska inte förväxlas med betaltjänsten Google Translate som andra tjänsteleverantörer kan integrera i sina tjänster och appar. Den datan använder Google inte för att förbättra tjänsten (men datan läcker ändå till Google).
https://cloud.google.com/translate/data-usage
Denna problematik är på intet vis unik för Google. Samma problem gäller andra molnbaserade översättnings- och korrekturläsningstjänster. På sikt kommer det även att finnas bra lösningar på detta problem. Med Firefox Translation kan du redan idag översätta mellan tio språk, direkt i webbläsaren, utan att informationen lämnar din dator. Tyvärr är svenska inte ett av språken. Med Languagetool kan organisationer sätta upp sin egen korrekturläsningstjänst, så att ingen information läcker.
https://addons.mozilla.org/sv-SE/firefox/addon/firefox-translations/
https://languagetool.org/business
Avslutningsvis, när det gäller upphovsrättsproblematiken så är den påtaglig men jag som icke-jurist vet faktiskt inte vad som gäller. Frågan är om ens jurister vet det (än). Problemet är också större än bara textartiklar. Det gäller även generativa AI-verktyg som skapar bilder och skriver kod.
https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit
https://www.techtarget.com/searchsoftwarequality/news/252526359/Developers-warned-GitHub-Copilot-code-may-be-licensed
Det ska bli mycket intressant att följa hur upphovsrättsfrågorna hanteras, både när det gäller AI-genererat innehåll som råkar innehålla upphovsrättsskyddat material och frågan om huruvida befintligt material överhuvudtaget får användas för träning av generativa AI-modeller.
Tack Karl Emil för alla braiga svar på mina frågor och funderingar!
Tack själv för relevanta följdfrågor. Vi tar upp dem i nästa poddavsnitt också.
Glad midsommar!