Frågor och svar - Författarförbundet

Vem står bakom initiativet?

Författarförbundet tog initiativ till dialog med forskare inom projektet WASP, Wallenberg AI, Autonomous Systems and Software Program, tillsammans med Sveriges bokförlag och nyhetsmediebolag. Vi gjorde det eftersom det inom detta forskningsprojekt finns en vilja att respektera upphovsrätten och betala upphovspersonerna.

WASP är ett forskningsdrivet projekt som finansieras inom ramen för just WASP, frikopplat från Wallenbergs affärsverksamhet. Detta var en förutsättning för att vi som förbund skulle föra dialog med dem. Regeringen väljer nu i ett senare skede att lyfta detta initiativ som en nationell angelägenhet och en del av Sveriges AI-strategi, vilket vi välkomnar. Men projektet är inte ett regeringsinitiativ utan kommer från oss efter att ha beskådat upprepade storskaliga upphovsrättsintrång i alla andra språkmodellsprojekt. Projektet är förankrat i forskning och akademisk självständighet.

Varför engagerar sig Författarförbundet i en svensk språkmodell?

Som nämns ovan: när utan undantag alla andra stora språkmodeller, inklusive alla svenska statligt finansierade språkmodeller, bygger på litteratur som inte klarerats av upphovspersonerna är det Författarförbundets uppdrag att försöka skapa en modell som tillvaratar upphovspersonernas i grundlag stadgade rätt.

Hur hanteras upphovsrätten i projektet?

Upphovsrätten är en bärande princip i projektet. Författare, förlag och nyhetsmediebolag behåller äganderätten till sin data. Modellen utvecklas inom tydliga licensramar. Detta är avgörande för att skapa ett hållbart medieekosystem där värde inte extraheras utan insyn eller ersättning. Innovation och upphovsrätt är inte motsatser. De är ömsesidiga förutsättningar.

Kommer modellen att vara öppen?

Projektet utgår från en befintlig öppen språkmodell som vidareutvecklas och anpassas. Det är alltså inte en helt ny modell som tränas från grunden. Detta säkerställer effektiv resursanvändning, jämförbarhet och möjlighet till kvalitativ utvärdering. Projektet avser att publicera forskning och vetenskapliga resultat, men inte att öppna själva modellen eller de tränade vikterna (de numeriska parametrar som modellen lär sig under det att den tränas).

Om modellen görs fritt tillgänglig för nedladdning och vidareanvändning förlorar upphovspersonerna kontrollen över hur deras verk använts. Det blir då omöjligt att säkerställa att användning sker inom licensens ramar, att ersättning utgår enligt avtal eller att otillåten vidareträning och kommersiell användning förhindras.

Att hålla modellen under en av oss kontrollerad licens är en förutsättning för Författarförbundets medverkan eftersom det är av största vikt att
• upprätthålla upphovsrättens grundprincip om kontroll över exemplarframställning och tillgängliggörande,
• säkerställa spårbarhet och ansvar,
• möjliggöra förutsägbar och rättvis ersättning,
• skydda det långsiktiga incitamentet att producera kvalitativ litteratur och journalistik.

En helt öppen modell skulle i praktiken innebära att det värde som skapats av svenska författare kan reproduceras, finjusteras och kommersialiseras globalt utan möjlighet till insyn eller kompensation. Ur ett upphovsrättsligt perspektiv är det därför självklart för Författarförbundet att modellen distribueras under kontrollerade former snarare än som en fritt nedladdningsbar tillgång.

Hur säkerställs oberoende och integritet?

Projektet är forskningsdrivet och förankrat inom WASP. Extern expertis, främst från Nvidia, deltar endast i rådgivande form och har ingen tillgång till data eller resultat. Data stannar hos oss som är rättighetshavare. Träningen sker på svensk superdatorinfrastruktur inom WASP.7.

Hur ser tidplanen ut?

I dagsläget jobbar projektets parter med att ta fram ett avtalsutkast för den del som handlar om forskningen. Mycket ska utredas. Författare ska ges rimliga tidsramar att meddela förbud mot att deras material används i projektet med mera. Mer information kommer inom kort. Det kommer att finnas god tid att meddela om man inte vill vara med.

Hur finansieras projektet?

Utveckling, träning och forskarteam finansieras av WASP. Språkmodellen tränas på någon av de större AI-superdatorerna inom WASP.

Vilka är de tänkta användarna av en modell om den kommersialiseras i steg två?

Möjliga intressenter är:
Offentlig sektor och samhällskritiska aktörer – regeringskansliet, myndigheter med omfattande textvolymer och myndighetsutövning, domstolar, kommuner, regioner, vård, omsorg och försvar.
Kunskapssystem och forskning – universitet, forskningsinstitut, Kungliga biblioteket, arkiv, vetenskapliga förlag och läromedelsproducenter.
Näringsliv – industri med höga krav på säkerhet och immateriella rättigheter samt offentligt ägda bolag.
Dataägare och rättighetshavare – public service och kommersiella mediebolag.

Är Sverige ensamt om en egen språkmodell?

Nej. Länder som Japan, Taiwan, Island, Danmark, Norge, Spanien och Nederländerna har redan initierat liknande satsningar. Ofta sker det i konsortier där forskning, näringsliv och myndigheter samverkar, med delvis statlig finansiering.

Vad är den övergripande visionen?

Den långsiktiga ambitionen är att skapa en säker, etisk och hållbar (där upphovsrätten är en grundpelare och upphovspersoner får ersättning) svensk språkmodell som kan användas av myndigheter, offentlig sektor, mediebolag och övriga svenska företag.

Hur säkerställs politisk och redaktionell neutralitet?

Projektet är forskningsdrivet och förankrat inom akademin. Det är inte ett politiskt initiativ och styrs inte av någon enskild aktör. Träningsdata består av brett redaktionellt granskat material från olika publicistiska miljöer och litterära traditioner. Syftet är inte att spegla en viss uppfattning, utan att återspegla språklig bredd, samhällsdebatt och institutionell kontext. Modellen kommer dessutom att utvärderas systematiskt genom etablerade metoder för bias-analys, robusthet och balans. Transparens kring metod och forskningsresultat är en central del av projektet.

Hur hanteras personuppgifter och GDPR?

Projektet följer gällande lagstiftning, inklusive GDPR och EU:s AI-förordning. Träningsdata kommer att genomgå juridisk och teknisk granskning innan användning. Personuppgifter hanteras i enlighet med dataskyddsregler och i samråd med rättighetshavare. Det är viktigt att understryka att det här är ett forskningsprojekt inom etablerade institutioner med lång erfarenhet av att hantera känsliga data på ett rättssäkert sätt.

Hur skyddas modellen mot missbruk, exempelvis desinformation?

Eftersom modellen inte släpps fritt utan distribueras under licens kan användningen regleras genom tydliga villkor. Licensiering möjliggör spårbarhet, ansvar och möjligheten att ingripa vid missbruk. Dessutom är det centralt att utvecklingen sker inom ett forskningsramverk där säkerhet, robusthet och riskanalys är integrerade delar av arbetet.

Är den här investeringen tillräckligt stor för att göra skillnad?

Projektet bygger vidare på en befintlig öppen språkmodell. Modellen tränas alltså inte från grunden, vilket kraftigt minskar kostnaderna och gör satsningen mer effektiv. Investeringen ska ses som ett strategiskt första steg för att bygga nationell kompetens, infrastruktur och ett hållbart licensramverk. Det handlar lika mycket om kapacitetsuppbyggnad och långsiktig förmåga som om den första modellversionen.

Vad händer om projektet inte når förväntad kvalitet?

I och med att det är ett forskningsprojekt är utvärdering, iteration och vetenskaplig granskning inbyggda delar av processen. Om modellen inte uppnår uppsatta kvalitetsmål justeras metod, data och arkitektur.