Kirjailijat haastoivat OpenAI:n oikeuteen – rikkooko ChatGPT:n koulutusdata tekijänoikeuksia?

4. lokak.

Viime viikkoina on kohistu tapauksesta, jossa kirjailijat ovat jättäneet joukkokanteen OpenAI:ta vastaan. Kirjailijat ovat huolissaan ChatGPT-tekoälystä ja sen väitetyistä tekijänoikeusrikkomuksista. Joukkokanteen jättäjiin lukeutuu useita kuuluisia kirjailijoita, kuten Tulen ja jään laulu -sarjastaan tunnettu George R. R. Martin. Tapaus ei ole ensimmäinen laatuaan, sillä esimerkiksi heinäkuussa 2023 nostettiin jo syyte Metaa ja OpenAI:ta vastaan samankaltaisesta tapauksesta (linkki). Tuoreemmassa kanteessa on kuitenkin mukana suurempi kirjailijajoukko, joka vaatii korvausta tekijänoikeusrikkomuksista.

Mistä on kyse?

Tiivistettynä kirjailijat epäilevät, että ChatGPT-tekoälyn koulutuksessa on hyödynnetty heidän kirjoittamiaan teoksia. Asiaa perustellaan siten, että ChatGPT olisi kyennyt tuottamaan esimerkiksi George R. R. Martinin teoksista tarkkoja ja yksityiskohtaisia tiivistelmiä, mitä kirjailijat eivät pidä mahdollisena, ellei kielimalleja ole koulutettu kyseisillä teksteillä.

Tekijänoikeudet suojaavat kirjailijoiden teoksia, minkä vuoksi on aiheellista, että asiasta on pahastuttu. Tämä herättääkin monia kysymyksiä. Millä datalla ChatGPT on koulutettu? Miksi koulutusdata ei ole avointa? Rikkooko koulutusdata tekijänoikeuksia?

Tekoälyä on hyödynnetty myös kirjoittamaan kirjasarjaan erilaisia jatko-osia, joita on yritetty myydä esimerkiksi Amazonissa. Ilmiö ei ole uusi, vaan puhutaan fanifiktiosta – fanien tuottamista fiktiivisistä teksteistä, joiden avulla voidaan luoda omia tulkintoja uudelleenkirjoittamalla alkuperäisen tarinan elementtejä. Nyt kirjoittajana vain toimii ihmisen sijaan tekoäly. Fanifiktiota voi julkaista esimerkiksi omaan blogiin tai keskustelupalstalle, mutta sen myyminen ei ole sallittua.

Millä datalla ChatGPT on koulutettu?

OpenAI:n mukaan ChatGPT-tekoälyä on koulutettu laajalla kokoelmalla tekstidataa, joka sisältää kirjoja, artikkeleita ja nettisivuja. OpenAI kertoo hyödyntäneensä Common Crawl -nimistä tietoaineistoa, joka on julkisesti saatavilla oleva korpus.

Kun kysyn ChatGPT:ltä itseltään, onko sitä koulutettu yksittäisillä teoksilla, kuten Martinin Tulen ja jään laulu -fantasiakirjasarjan teoksilla, tekoäly vastaa näin:

“En ole koulutettu yksittäisillä kirjoilla, kuten Tulen ja jään laulu -kirjasarjan teoksilla. Minut on koulutettu laajalla ja monipuolisella tekstikorpuksella, joka koostuu erilaisista julkaisuista ja teksteistä, jotka ovat saatavilla ennen syyskuuta 2021. Vaikka minulla on tietoa monista kirjoista ja kirjailijoista, minulla ei ole tietoa yksittäisten kirjojen sisällöstä enkä ole erityisen perehtynyt mihinkään tiettyyn teokseen.

Tietoni perustuvat tekstimateriaaliin, joka sisältää tietoa monista eri aiheista, mutta en ole ”lukenut” tai omaksunut yksittäisten kirjojen sisältöä tai kontekstia samalla tavalla kuin ihminen lukisi. Sen sijaan minä pystyn tuottamaan vastauksia ja antamaan tietoa yleisistä aiheista perustuen siihen tekstiaineistoon, jolla minut on koulutettu.”

Toisin sanoen tekoälyn mukaan sitä ei oltaisi koulutettu yksittäisillä teoksilla, eikä se tiedä yksittäisten teosten sisällöstä. Miten voidaan varmistua siitä, että asia todella on näin kuin ChatGPT meille kertoo? Tekoäly voi vaikuttaa siltä, että sille olisi koulutettu tiettyjen teosten sisältöä, mutta todellisuudessa nämä tiedot ovat voineet kertyä lukuisista internetin materiaaleista – kaikesta aina kirja-arvosteluista haastatteluihin ja fanifiktioon. Kun tällaista materiaalia on valtava määrä, alkaa jo tekoälykin vaikuttaa teokset ”lukeneelta”.

Toisaalta tekoälyn kehittäjän näkökulmasta olisi kummallista jättää näin tunnettuja ja merkittäviä teoksia pois koulutusdatasta. Tiedämme, että data sisältää kirjoja, mutta tieto siitä, mitä kirjoja tarkalleen ottaen, ei ole julkista, sillä OpenAI ei suostu paljastamaan niitä tarkemmin liikesalaisuuteen vedoten.

Data-arkeologien kaivaukset

Siitä huolimatta, että OpenAI ei paljasta koulutusdataa, on sitä yritetty selvittää tutkimuksen kautta. Yhdysvaltalainen apulaisprofessori David Bamman ja hänen tiiminsä, jonka jäseniä voidaan nimittää data-arkeologeiksi, pyrkivät selvittämään tekoälyn lukemia teoksia (GPT-4 versio). Tiimi kyseli tekoälyltä kysymyksiä lukuisista kirjoista ja pisteytti ne ChatGPT:n osaamisen mukaan. Teosten pisteytyksessä data-arkeologit käyttivät seuraavaa taktiikkaa: he ottivat lainauksen tietystä teoksesta, poistivat siitä hahmon nimen ja vihjeet nimestä, ja pyysivät tekoälyä täydentämään tyhjän kohdan. Mitä korkeampi numero oli, sen todennäköisemmin ChatGPT:tä oli koulutettu kyseisellä teoksella.

Ei liene yllätys, että koulutusdata sisälsi paljon klassikkoteoksia: Moby Dick, Ylpeys ja ennakkoluulo, Vihan hedelmät. Lisäksi datassa oli lukuisia suosittuja romaaneja aina Harry Pottereista Fifty Shades of Greyhin. Data-arkeologit pitivät kaikista yllättävimpänä sitä, kuinka paljon scifiä ja fantasiaa joukossa oli. He mainitsevat lukuisia kirjailijoita Tolkienista Atwoodiin, ja kyllä, myös Tulen ja jään laulu mainitaan.

Data-arkeologien tutkimuspaperia pääset lukemaan tästä.

Miten tekijänoikeuksia rikotaan?

Voidaan ajatella, että ei ole realistista luoda kehittynyttä tekoälyä, joka ei tunne aikamme kulttuuria. Mikäli koulutusdata koostuisi vain vanhentuneesta tai tekijänoikeuksista vapautuneesta materiaalista, se olisi puutteellista. Tehokkaan tekoälyn kehityksen kannalta tarvitaan monipuolista ja ajan tasalla olevaa tietoa niin tieteestä kuin taiteesta.

Ilmeisesti oikeuskanteissa kyse on enemmänkin siitä, miten teosta käytetään: lainataanko sitä suoraan sellaisenaan vai hyödynnetäänkö sitä vain uuden luomisen pohjalla. Kirjailijat eivät niinkään pahastu siitä, että teokset ovat mukana aineistossa, vaan siitä, miten ja mihin tarkoituksiin niitä käytetään. Esimerkiksi aiemmin mainittu esimerkki siitä, kuinka tekoälyn avulla voidaan luoda jatko-osia kirjailijoiden teosten pohjalta ja saavuttaa näillä tuottoa, on selkeästi tekijänoikeusrikkomus.

Lopuksi

Tilanne on tekoälyn kehittäjille ongelmallinen. Teoksia ei voi jättää tekoälyn ulkopuolelle, koska silloin se jäisi puutteelliseksi aikamme kulttuurillisista ilmiöistä, mutta samalla on haasteellista pyytää jokaiselta kirjailijalta erikseen lupaa teosten hyödyntämiseen kielimallin koulutuksessa.

Jää nähtäväksi, löydetäänkö tilanteeseen kaikkia tyydyttävää ratkaisua. Tässä vaiheessa voidaan lähinnä spekuloida sillä, miten oikeus asian ratkaisee. Kirjailijoiden ja teknologiayritysten välinen vuoropuhelu voi johtaa reilumpiin käytäntöihin, jotka suojelevat sekä kirjailijoiden teoksia että mahdollistavat tekoälyn tehokkaan kehityksen. Tämäntyyppisiä oikeuskanteita on varmasti tulossa jatkossa lisää, kun tekoälyn vaikutukset eri ammattiryhmille alkavat pikkuhiljaa konkretisoitua. Jäämme mielenkiinnolla odottamaan, kuinka asia ratkaistaan.

Lähteet

https://www.businessinsider.com/chatbot-training-data-chatgpt-gpt4-books-sci-fi-artificial-intelligence-2023-5?r=US&IR=T

https://variety.com/2023/digital/news/sarah-silverman-sues-meta-openai-copyright-infringement-1235665185/

https://arxiv.org/pdf/2305.00118.pdf

ChatGPTOpenAItekijänoikeudetoikeuskiistatekoälykoulutusdata

Mari Hynninen

Kirjailijat haastoivat OpenAI:n oikeuteen – rikkooko ChatGPT:n koulutusdata tekijänoikeuksia?

Tekninen velka ei ole yksiselitteisesti huono asia – joskus se voi olla strateginen valinta

Huoltotasku-liiketoiminta on myyty jyväskyläläiselle AIOO Digitalille