Podd #203: Informations­läckande AI

ChatGPT och liknande generativa text-AI-verktyg har börjat underlätta våra jobb. Aftonbladet och Expressen drar nytta av ChatGPT för att skapa kortfattade summeringar av långa artiklar. Nyhetsappen Readwise har en inbyggd ”spökläsare” som automatiskt samman­fattar artiklarna som användarna sparar. Detta är exempel på situationer då ChatGPT både briljerar och kan användas riskfritt. Så är dock inte alltid fallet.

Flera av de amerikanska storbankerna har förbjudit sina medarbetare att använda generativa text-AI-verktyg. Koreanska Samsung har gjort samma sak efter att medarbetare har råkat läcka företags­hemligheter i konversationer med ChatGPT. Problemet är att generativa text-AI-verktyg inte fungerar som vilka andra molntjänster som helst. Informationen som användarna förser verktygen med kan användas för att träna modellerna, vilket riskerar leda till att person­uppgifter och företags­hemligheter läcker. Värst av allt är att datan som den artificiella intelligensen har ”lärt sig” kan vara svår eller rent av omöjligt att radera eller korrigera.

I veckans somriga avsnitt av Bli säker-podden pratar Peter och Nikka om riskerna med generativa text-AI-verktyg. Nikka berättar också om de glädjande AI-nyheterna som Nextcloud presenterade förra veckan. Nextcloud har nämligen en lösning på problematiken.

Tidskoder i avsnittet

  • 00.00 Inledning
  • 01.49 Högtid för bluffakturor
  • 03.06 Veckans facepalm (nomail.se)
  • 08.19 Nytt spionprogram för Iphone
  • 12.35 Informationsläckande AI

Omtalat i avsnittet

Detta poddavsnitt innehåller ljud- och videosnuttar från presentationen av Nextcloud Hub 5 (CC BY, Nextcloud). Dessa shownotes finns även hos Bredband2 som podden produceras tillsammans med.

Detta poddavsnitt och dess tillhörande artikel är publicerade under CC BY 4.0-licens, med undantag för citat och bilder där en annan fotograf är angiven.

Kommentarer

Delta i diskussionen. Logga in med ditt befintliga konto på Nikka Systems Academy eller skapa ett nytt konto helt gratis.

  1. Henrik Hemrin

    Några tankar och frågor om informationsläckande AI:
    1) Jag höjde på ögonbrynen över detta svar i DN-artikel 22 juni 2023 där statsministern svarar:
    “Är det tillåtet att använda Chat GPT på regeringskansliet?
    – Vi har inte några formella förbud i alla fall. Så det är som med alla verktyg att det ska användas med omdöme. Som det heter, med källans angivelse. ”
    Ref:
    Statsministern om AI: Feltänkt att stoppa utvecklingen.
    https://www.dn.se/sverige/ulf-kristersson-jag-onskar-att-jag-hade-varit-ingenjor/
    2) Jag har varit förvånad att personer använder (och tyckts saknas restriktioner) använt Google Translate sedan många år tillbaka för att översätta hela jobbrelaterade texter. Hur är det säkerhetsmässigt ang informationsläckage?
    3) Washington Post artikel 19 april kunde man kolla källor för Google C4 dataset. Jag fick fram att min personliga hemsida var klart högre rankad än Dagens nyheter. Det ger mig två tankar; dels pekar det på vilka är verkligen källorna för träning…! Jag är viktigare än hela DN!? Och för det andra – med vilken rätt kan Google använda min hemsida som jag har copyrightstämplat? Och hade rätten varit annorlunda om jag använt öppen licens men som kräver källhänvisning?
    Ref:
    Inside the secret list of websites that make AI like ChatGPT sound smart.
    https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

    Trevlig midsommar tillönskas!

    1. Karl Emil Nikka

      Gällande svaret på ChatGPT-bruket i Regeringskansliet så kan jag inte säga att svaret är fel. Jag finner däremot svaret olämpligt. ChatGPT kan givetvis användas för helt ofarliga saker, till exempel att sammanfatta publika artiklar. Problemet är att långt ifrån alla är medvetna om dataläckorna som vi pratade om i morgonens avsnitt. Det gör att risken för dataläckage är överhängande, inte minst i stressiga situationer. Med tanke på målgruppen borde, i min mening, regeln vara att ChatGPT enbart får användas i specifika situationer och efter att medarbetaren har förstått innebörden av hur lösningen fungerar. Då tänker jag både på förståelse för dataläckor och förståelse för vad som egentligen genereras av ChatGPT (alltför många tror fortfarande att ChatGPT är ett uppslagsverk).

      Problemet med kostnadsfria Google Translate är detsamma. För det första läcker all information till ett bolag med säte i land utan adekvat dataskydd. Det innebär att det inte går att hantera personuppgifter i Google Translate. För det andra har Google åtkomst till informationen i syfte att förbättra tjänsten. Google ger som exempel att ”vi kan till exempel förbättra stavningskontrollen i våra tjänster om vi vet vilka söktermer som ofta stavas fel”.

      https://support.google.com/translate/answer/10400210?hl=sv

      Kostnadsfria Google Translate ska inte förväxlas med betaltjänsten Google Translate som andra tjänsteleverantörer kan integrera i sina tjänster och appar. Den datan använder Google inte för att förbättra tjänsten (men datan läcker ändå till Google).

      https://cloud.google.com/translate/data-usage

      Denna problematik är på intet vis unik för Google. Samma problem gäller andra molnbaserade översättnings- och korrekturläsningstjänster. På sikt kommer det även att finnas bra lösningar på detta problem. Med Firefox Translation kan du redan idag översätta mellan tio språk, direkt i webbläsaren, utan att informationen lämnar din dator. Tyvärr är svenska inte ett av språken. Med Languagetool kan organisationer sätta upp sin egen korrekturläsningstjänst, så att ingen information läcker.

      https://addons.mozilla.org/sv-SE/firefox/addon/firefox-translations/

      https://languagetool.org/business

      Avslutningsvis, när det gäller upphovsrättsproblematiken så är den påtaglig men jag som icke-jurist vet faktiskt inte vad som gäller. Frågan är om ens jurister vet det (än). Problemet är också större än bara textartiklar. Det gäller även generativa AI-verktyg som skapar bilder och skriver kod.

      https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit

      https://www.techtarget.com/searchsoftwarequality/news/252526359/Developers-warned-GitHub-Copilot-code-may-be-licensed

      Det ska bli mycket intressant att följa hur upphovsrättsfrågorna hanteras, både när det gäller AI-genererat innehåll som råkar innehålla upphovsrättsskyddat material och frågan om huruvida befintligt material överhuvudtaget får användas för träning av generativa AI-modeller.

Kommentar