Kuinka ChatGPT-vesileima toimii ja miksi se voidaan voittaa

OpenAI:n ChatGPT esitteli tavan luoda sisältöä automaattisesti, mutta suunnitelmat ottaa käyttöön vesileimaominaisuus, joka helpottaa havaitsemista, saa jotkut ihmiset hermostumaan. Näin ChatGPT-vesileima toimii ja miksi se voi olla mahdollista kumota.

ChatGPT on uskomaton työkalu, jota verkkojulkaisijat, tytäryhtiöt ja hakukoneoptimoijat rakastavat ja pelkäävät samanaikaisesti.

Jotkut markkinoijat pitävät siitä, koska he löytävät uusia tapoja käyttää sitä sisältöhousujen, hahmotelmien ja monimutkaisten artikkeleiden luomiseen.

Verkkojulkaisijat pelkäävät, että tekoälysisältö tulvii hakutuloksiin ja syrjäyttää ihmisten kirjoittamat asiantuntijaartikkelit.

Tästä syystä uutisia vesileimaominaisuudesta, joka avaa ChatGPT:n kirjoittaman sisällön havaitsemisen, odotetaan myös huolestuneena ja toiveikkaana.

Kryptografinen vesileima

Vesileima on puoliksi läpinäkyvä merkki (logo tai teksti), joka on upotettu kuvaan. Vesileima ilmaisee, kuka on teoksen alkuperäinen tekijä.

Se näkyy suurelta osin valokuvissa ja yhä enemmän videoissa.

Vesileimateksti ChatGPT:ssä sisältää salauksen, joka sisältää sanojen, kirjainten ja välimerkkien kuvion upotuksen salaisen koodin muodossa.

Scott Aaronson ja ChatGPT Watermarking

OpenAI palkkasi vaikutusvaltaisen tietotekniikan tiedemiehen Scott Aaronsonin kesäkuussa 2022 työskentelemään tekoälyn turvallisuuden ja suuntauksen parissa.

Tekoälyn turvallisuus on tutkimusala, joka tutkii tapoja, joilla tekoäly voi aiheuttaa haittaa ihmisille, ja luo tapoja estää tällaisia negatiivisia häiriöitä.

Distill-tieteellinen aikakauslehti, jossa on mukana OpenAI:n tekijöitä, määrittelee tekoälyn turvallisuuden seuraavasti:

"Pitkän aikavälin tekoälyn (AI) turvallisuuden tavoitteena on varmistaa, että kehittyneet tekoälyjärjestelmät ovat luotettavasti linjassa ihmisten arvojen kanssa - että ne tekevät luotettavasti asioita, joita ihmiset haluavat heidän tekevän."

AI Alignment on tekoälykenttä, jonka tehtävänä on varmistaa, että tekoäly on linjassa asetettujen tavoitteiden kanssa.

ChatGPT:n kaltaista suurta kielimallia (LLM) voidaan käyttää tavalla, joka voi olla ristiriidassa OpenAI:n määrittelemien AI Alignmentin tavoitteiden kanssa, eli luoda ihmiskunnalle hyödyttävä tekoäly.

Näin ollen vesileimauksen syynä on estää tekoälyn väärinkäyttö ihmiskuntaa vahingoittavalla tavalla.

Aaronson selitti syyn ChatGPT-tulosteen vesileimaamiseen:

"Tästä voisi tietysti olla apua akateemisen plagioinnin estämisessä, mutta myös esimerkiksi propagandan massasukupolvessa..."

Kuinka ChatGPT-vesileimaus toimii?

ChatGPT-vesileima on järjestelmä, joka upottaa tilastollisen kuvion, koodin sanavalintoihin ja jopa välimerkkeihin.

Tekoälyn luoma sisältö syntyy melko ennakoitavissa olevalla sananvalintakuviolla.

Ihmisten ja tekoälyn kirjoittamat sanat noudattavat tilastollista kaavaa.

Luodussa sisällössä käytettyjen sanojen mallin muuttaminen on tapa "vesileimaan" teksti, jotta järjestelmän olisi helppo havaita, onko se tekoälytekstigeneraattorin tuote.

Temppu, joka tekee tekoälysisällön vesileiman havaitsemattomaksi, on se, että sanojen jakauma on edelleen satunnainen ulkoasu, joka muistuttaa tavallista tekoälyn luomaa tekstiä.

Tätä kutsutaan pseudosatunnaiseksi sanojen jakautumiseksi.

Pseudoratunnaisuus on tilastollisesti satunnainen sarja sanoja tai numeroita, jotka eivät itse asiassa ole satunnaisia.

ChatGPT-vesileima ei ole tällä hetkellä käytössä. Scott Aaronson OpenAI:sta kuitenkin ilmoittaa, että se on suunniteltu.

Tällä hetkellä ChatGPT on esikatselussa, mikä mahdollistaa OpenAI:n havaitsevan "virheen" todellisen käytön kautta.

Oletettavasti vesileima voidaan ottaa käyttöön ChatGPT:n lopullisessa versiossa tai aikaisemmin.

Scott Aaronson kirjoitti siitä, kuinka vesileimaus toimii:

”Tähän mennessä pääprojektini on ollut työkalu GPT:n kaltaisen tekstimallin tulosten tilastolliseen vesileimaamiseen.
Periaatteessa aina, kun GPT luo pitkää tekstiä, haluamme, että sen sanavalinnoissa on muuten huomaamaton salainen signaali, jonka avulla voit todistaa myöhemmin, että kyllä, tämä tuli GPT:ltä.

Aaronson selitti tarkemmin, kuinka ChatGPT-vesileimaus toimii. Mutta ensin on tärkeää ymmärtää tokenisaation käsite.

Tokenointi on vaihe, joka tapahtuu luonnollisen kielen käsittelyssä, jossa kone ottaa asiakirjan sanat ja jakaa ne semanttisiksi yksiköiksi, kuten sanoiksi ja lauseiksi.

Tokenisointi muuttaa tekstin strukturoituun muotoon, jota voidaan käyttää koneoppimisessa.

Tekstin luontiprosessi on kone, joka arvaa, mikä merkki tulee seuraavaksi edellisen tunnuksen perusteella.

Tämä tehdään matemaattisella funktiolla, joka määrittää todennäköisyyden sille, mikä seuraava merkki on, niin sanottu todennäköisyysjakauma.

Mikä sana on seuraava, on ennustettu, mutta se on satunnaista.

Itse vesileima on se, mitä Aaron kuvailee näennäissatunnaiseksi, koska tietyn sanan tai välimerkin esiintymiselle on matemaattinen syy, mutta se on silti tilastollisesti satunnainen.

Tässä on GPT-vesileiman tekninen selitys:

"GPT:ssä jokainen syöte ja tulos on merkkijono, joka voi olla sanoja, mutta myös välimerkkejä, sanan osia tai enemmän – tokeneita on yhteensä noin 100 000.
GPT luo ytimenään jatkuvasti todennäköisyysjakauman seuraavan luotavan tunnuksen välillä, ehdolla aikaisempien merkkien merkkijonosta.
Kun hermoverkko on luonut jakelun, OpenAI-palvelin itse asiassa ottaa näytteitä kyseisen jakauman mukaisesta tunnuksesta – tai jonkin muunnetun version jakelusta riippuen parametrista, jota kutsutaan lämpötilaksi.
Niin kauan kuin lämpötila on kuitenkin nollasta poikkeava, seuraavan merkin valinnassa on yleensä satunnaisuutta: voit juosta uudestaan ja uudestaan samalla kehotuksella ja saada joka kerta erilaisen täydennyksen (eli tulostemerkkijonon) .
Joten vesileimaan, sen sijaan, että valitset seuraavan tunnuksen satunnaisesti, ideana on valita se näennäissatunnaisesti käyttämällä kryptografista näennäissatunnaista funktiota, jonka avaimen tuntee vain OpenAI.

Vesileima näyttää tekstiä lukeville täysin luonnolliselta, koska sanavalinta matkii kaikkien muiden sanojen satunnaisuutta.

Tämä on tekninen selitys:

"Havainnollistaaksemme, että erikoistapauksessa, jossa GPT:llä oli joukko mahdollisia tokeneita, jotka se piti yhtä todennäköisinä, voit yksinkertaisesti valita sen, mikä merkki maksimoi g:n. Valinta näyttäisi tasaisen satunnaiselta jollekin, joka ei tuntenut avainta, mutta joku, joka tiesi avaimen, voisi myöhemmin laskea g:n kaikista n-grammista ja nähdä, että se oli epätavallisen suuri."

Vesileima on yksityisyyden etusijalla oleva ratkaisu

Olen nähnyt sosiaalisessa mediassa keskusteluja, joissa jotkut ehdottivat, että OpenAI voisi pitää kirjaa kaikista luomistaan tuloksista ja käyttää sitä havaitsemiseen.

Scott Aaronson vahvistaa, että OpenAI voisi tehdä niin, mutta se aiheuttaa tietosuojaongelman. Mahdollinen poikkeus on lainvalvontatilanne, jota hän ei tarkentanut.

ChatGPT- tai GPT-vesileiman tunnistaminen

Mielenkiintoinen asia, joka ei näytä olevan vielä hyvin tiedossa, on se, että Scott Aaronson totesi, että on olemassa tapa voittaa vesileima.

Hän ei sanonut, että vesileima on mahdollista voittaa, hän sanoi, että se voidaan voittaa.

"Nyt tämä kaikki voidaan voittaa riittävällä vaivalla.
Jos esimerkiksi käytit toista tekoälyä GPT:n tuotoksen parafrasointiin – okei, emme pysty havaitsemaan sitä.”

Näyttää siltä, että vesileima voidaan voittaa, ainakin marraskuusta lähtien, jolloin yllä olevat lausunnot esitettiin.

Ei ole viitteitä siitä, että vesileima olisi tällä hetkellä käytössä. Mutta kun se tulee käyttöön, ei ehkä tiedetä, oliko tämä porsaanreikä suljettu.

Lainaus

Lue Scott Aaronsonin blogikirjoitus täältä.