OpenAI:n jättiläismäinen GPT-3 vihjaa kielimallien rajoituksiin tekoälyssä

Pari vuotta sitten OpenAI, tekoälyyritys San Franciscossa, hämmästytti maailmaa näyttämällä dramaattisen loikan siinä, miltä tietokoneet kykenevät luonnollisten kielilauseiden muodostamiseen ja jopa kysymysten ratkaisemiseen, kuten lauseen täydentämiseen sekä pitkien tekstisisältöjen muotoiluun, jotka ihmiset kokivat melko inhimillisiksi.

Viimeisin työ tuolta tiimiltä osoittaa, miten OpenAI:n ajattelu on kehittynyt joiltain osin. GPT-3, kuten uusinta luomusta kutsutaan, tuli esiin viime viikolla, varustettuna enemmällä krumeluureilla, jotka on luonut osa samoista kirjoittajista kuin edellinen versio, mukaan lukien Alec Radford ja Ilya Sutskever, yhdessä useiden muiden yhteistyökumppaneiden kanssa, mukaan lukien Johns Hopkinsin yliopiston tutkijat.

Nykyään se on todellinen hirmuhirviö kieli-malli, kuten sitä kutsutaan, syöksyen kahden suuruusluokan enemmän tekstiä kuin edeltäjänsä.

Mutta tuon suurempi-on-paremman temppuilun sisällä, OpenAI-tiimi näyttää lähestyvän joitain syvempiä totuuksia, aivan kuten tohtori David Bowman lähestyi tuntemattoman rajaa elokuvan 2001 lopussa.

67-sivuisen paperin päätösjaksossa, Kielimallit ovat muutaman harjoitusvaiheen oppijoita, joka julkaistiin viime viikolla arXiv-esijulkaisupalvelussa, on melko huomionarvoista tunnustusta.

"Yleisessä tässä artikkelissa kuvatussa menetelmässä on perustavanlaatuinen rajoitus - skaalata mikä tahansa LM-tyyppinen malli, olipa se sitten autoregressiivinen tai kaksisuuntainen - on, että se voi lopulta törmätä (tai voi jo kohdata) esikoulutustavoitteiden rajoituksiin," kirjoittavat tekijät.

Mitä kirjoittajat sanovat, on se, että pelkästään todennäköisyyksien ennustaminen seuraavasta sanasta lauseessa tai ilmaisussa voi olla rajallista. Sen tekeminen entistä tehokkaammaksi ja täyttäminen entistä enemmän tekstillä ei välttämättä johda parempiin tuloksiin. Tämä on merkittävä tunnustus tutkimuksessa, joka lähinnä juhlii ongelmaan heitetyn laskentatehon lisääntymistä.

Saadaksesi selvyyden siitä, miksi kirjoittajien päätelmä on niin merkittävä, harkitse, miten olemme päätyneet tähän pisteeseen. OpenAI:n työ kielen parissa on osa jatkuvan etenemisen historiaa, jossa eräänlainen lähestymistapa on kehittynyt asteittain entistä suuremman teknologian myötä.

Alkuperäinen GPT ja GPT-2 ovat molemmat sovelluksia siitä, mitä kutsutaan Transformeriksi, Googlella vuonna 2017 kehitetystä keksinnöstä. Transformer käyttää toimintoa, jota kutsutaan huomioksi, laskeakseen todennäköisyyden, että sana ilmestyy ympäröivien sanojen perusteella. OpenAI herätti kohua vuosi sitten ilmoittaessaan, ettei se julkaise GPT-2:n suurinta versiota sisältävää lähdekoodia, koska se voisi päätyä vääriin käsiin ja johtaa harhaan ihmisiä esimerkiksi väärennetyn uutisen avulla.

Uusi artikkeli vie GPT:n seuraavalle tasolle tekemällä siitä vielä suuremman. GPT-2:n suurin versio, jota ei julkaistu lähdekoodina, oli 1,5 miljardia parametria. GPT-3:ssa on 175 miljardia parametria. Parametri on laskenta neuroverkossa, joka soveltaa suurempaa tai pienempää painotusta johonkin datan osaan, jotta kyseinen osa korostuu enemmän tai vähemmän datan kokonaislaskennassa. Juuri nämä painotukset antavat muodon datalle ja antavat neuroverkolle oppineen näkökulman datalle.

Increasing weights over time has led to amazIng benchmark test results by the GPT family of programs, and by other large Transformer derivatives, such as Google's BERT, results that have been consistently quite impressive.

Ei ole väliä, että monet ihmiset ovat huomauttaneet, että nämä kielimallit eivät todella tuntuneet ymmärtävän kieltä merkityksellisellä tavalla. Ne ovat mestareita testeissä, ja se merkitsee jotain.

Uusin versio näyttää jälleen kvantitatiivista edistystä. Kuten GPT-2 ja muut Transformer-pohjaiset ohjelmat, GPT-3:n koulutus perustuu Common Crawl -tietojoukkoon, joka on lähes biljoona sanaa sisältävä korpus, kerätty Internetistä. "Aineiston ja mallin koko ovat noin kaksi suuruusluokkaa suuremmat kuin GPT-2:ssa käytetyt", kirjoittajat toteavat.

GPT-3, jossa on 175 miljardia parametria, kykenee saavuttamaan sen, mitä tekijät kuvaavat "meta-oppimiseksi". Meta-oppiminen tarkoittaa sitä, että GPT-neuraaliverkko ei opeta uudelleen suorittamaan tehtävää, kuten lauseen täydentämistä. Esimerkiksi annettaessa tehtäväksi puutteellinen lause ja sen täydennetty versio, GPT-3 jatkaa minkä tahansa puutteellisen lauseen täydentämistä.

GPT-3 pystyy oppimaan tekemään tehtävän yhdellä vihjeellä paremmin kuin versiot Transformerista, jotka on hienosäädetty suorittamaan vain kyseistä tehtävää. Näin ollen GPT-3 edustaa yleistävän ylivoimaa. Syötä sille valtava määrä tekstiä, kunnes sen painot ovat optimaaliset, ja se pystyy suoriutumaan melko hyvin useista erityistehtävistä ilman lisäkehitystä.

Siinä tarina päättyy silmiinpistävään ratkaisuun uudessa artikkelissa. Sen jälkeen kun on lueteltu GPT-3:n vaikuttavat tulokset kielellisissä tehtävissä, jotka vaihtelevat lauseiden täydentämisestä lausumien loogisen seuraussuhteen olettamiseen kielten väliseen kääntämiseen, tekijät huomauttavat puutteista.

"Vaikka GPT-3:n vahvaa määrällistä ja laadullista kehitystä, erityisesti verrattuna suoraan edeltäjäänsä GPT-2:een, sillä on edelleen huomattavia heikkouksia."

Nämä heikkoudet sisältävät kyvyttömyyden saavuttaa merkittävää tarkkuutta niin kutsutussa Adversarial NLI:ssä. NLI eli luonnollisen kielen päättely on testi, jossa ohjelman on määritettävä kahden lauseen välinen suhde. Facebookin ja Pohjois-Carolinan yliopiston tutkijat ovat esitelleet vastakkainasettelun version, jossa ihmiset luovat lauselahjapareja, jotka ovat vaikeita ratkaista tietokoneelle.

GPT-3 tekee "hieman paremmin kuin sattumanvaraisesti" asioita kuten Adversarial NLI, kirjoittavat he. Pahempaa on, että lisätessään järjestelmän laskentatehoa 175 miljardiin painoon, kirjoittajat eivät ole täysin varmoja, miksi he eivät pärjänneet joissain tehtävissä.

Tässä vaiheessa he tulevat siihen johtopäätökseen, joka on mainittu yllä, että ehkä pelkästään valtavan tekstimassan syöttäminen jättimäiselle koneelle ei ole lopullinen vastaus.

Vieläkin hätkähdyttävämpää on seuraava havainto. Yrittää ennustaa mitä tapahtuu kielellä voi olla väärä lähestymistapa, kirjoittavat kirjoittajat. He voivat tähdätä väärään paikkaan.

"Itseopetustavoitteiden avulla tehtävämäärittely perustuu halutun tehtävän pakottamiseen ennustamisongelmaksi", he kirjoittavat, "kun taas loppujen lopuksi hyödylliset kielijärjestelmät (esimerkiksi virtuaaliavustajat) voisivat olla parempi ajatella tavoitteellisena toimintana kuin pelkkänä ennustamisena."

Kirjoittajat jättävät toistaiseksi määrittelemättä, miten he ottavat huomioon tämän melko mielenkiintoisen mahdollisen uuden suunnan.

Vaikka ymmärrys siitä, että suuremmalla ei välttämättä ole lopulta parasta, monien tehtävien parantuneet tulokset GPT-3:lla todennäköisesti ruokkivat, eivätkä vähennä, halua yhä suuremmille neuroverkoille. 175 miljardilla parametrilla GPT-3 on suurten neuroverkkojen kuningas tällä hetkellä. Huhti-kuussa valmisteen esittelyssä tekoäsilastentointifirma Tenstorrent kuvaili tulevia neuroverkkoja, jotka sisältävät yli biljoona parametria.

Usealle koneoppimisen yhteisölle suuremmat ja suuremmat kielimallinnukset tulevat säilymään alan huippuna.

OpenAI:n massiivinen GPT-3 vihjaa kielimallien rajoituksiin tekoälyssä

Liittyvät artikkelit