Mikä on GPT-3? Kaikki mitä yrityksesi tarvitsee tietää OpenAI:n läpimurtoisesta tekoälykieliohjelmasta

zdnet-gpt-3-on-seuraava-sana-keinotekoisessa-tekoälyssä-ver-2.jpg

GPT-3 on tietokoneohjelma, jonka on kehittänyt yksityisesti omistettu San Franciscon startup-yritys OpenAI. Se on valtava neuroverkko, ja sen vuoksi se kuuluu syvän oppimisen osa-alueeseen koneoppimisessa, joka puolestaan on tietojenkäsittelytieteen haara nimeltään tekoäly. Ohjelma on parempi kuin mikään aiempi ohjelma tuottamaan ihmiseltä kuulostavia tekstinpätkiä.

Syynä sille, miksi tällainen läpimurto voi olla hyödyllinen yrityksille, on sen suuri potentiaali tehtävien automatisoinnissa. GPT-3 voi vastata mihin tahansa tekstiin, jonka henkilö kirjoittaa tietokoneelle, uudella tekstinpätkällä, joka sopii kontekstiin. Kirjoita esimerkiksi täysi englanninkielinen lause hakukenttään, ja todennäköisemmin saat takaisin jonkinlaisen vastauksen täydet lauseet sisältäen, joka on relevantti. Tämä tarkoittaa, että GPT-3 voi teoreettisesti vahvistaa ihmisen ponnisteluja monenlaisissa tilanteissa, kuten kysymyksiä ja vastauksia asiakaspalveluun, huolellisuustutkimuksen dokumenttien etsimiseen tai raporttien luomiseen.

Seuraa seuraavaa lyhyttä esimerkkiä siitä, mitä henkilö kirjoittaa tietokoneeseen, ja miten GPT-3 lähettää vastauksen takaisin:

Ihmiseltä saatua syötettä : K: Kuka näytteli Tessiä Touched by an Angel -sarjassa?

GPT-3-generoitu täydennys : A: Delloreese Patricia Early (6. heinäkuuta 1931 { 19. marraskuuta 2017), tunnettu ammattimaisesti nimellä Della Reese

Ohjelma on tällä hetkellä yksityisessä betavaiheessa, johon ihmiset voivat ilmoittautua odotuslistalle. Sitä tarjoaa OpenAI pilvipohjaisena API:na, ja yritykset, jotka ovat saaneet pääsyn, ovat kehittäneet mielenkiintoisia sovelluksia hyödyntämällä tekstigenerointia erilaisiin ohjelmiin, yksinkertaisista kysymysten vastaamiseen aina ohjelmointikoodin tuottamiseen asti.

Automaation mahdollisuuksista seuraa suuria haittoja. GPT-3 vaatii paljon laskentatehoa, mikä rajoittaa sen käyttöä suurimmalla osalla yrityksistä millään mahdollisella paikallisella ratkaisulla. Sen luoma teksti voi vaikuttaa aluksi vaikuttavalta, mutta pitkät tekstit taipuvat jossain määrin järjettömiksi. Lisäksi sillä on suuri potentiaali tehostaa ennakkoluuloja, mukaan lukien rasismia ja seksismiä.

KUINKA GPT-3 TOIMII?

GPT-3 on esimerkki siitä, mitä kutsutaan kielimalliksi, joka on tietynlainen tilastollinen ohjelma. Tässä tapauksessa se luotiin neuroverkkona.

Nimi GPT-3 on akronyymi, joka tarkoittaa "generatiivista esikoulutusta". Kyseessä on tähän mennessä kolmas versio. Se on generatiivinen, koska toisin kuin muut neuroverkot, jotka tuottavat numeerisen pistemäärän tai kyllä/ei-vastauksen, GPT-3 voi generoida pitkiä pätkiä alkuperäistä tekstiä tuloksenaan. Se on esikoulutettu siinä mielessä, ettei siihen ole rakennettu erityistä alueosaamista, vaikka se voi suorittaa aluekohtaisia tehtäviä, kuten vieraan kielen kääntämistä.

Kielioppimalli, GPT-3:n tapauksessa, on ohjelma, joka laskee kuinka todennäköistä on, että tietty sana esiintyy tekstissä annettujen muiden sanojen perusteella. Tätä kutsutaan sanojen ehdolliseksi todennäköisyydeksi.

Esimerkiksi lauseessa, Halusin tehdä munakkaan, joten menin jääkaapille ja otin esiin jotain ____, tyhjän kohdan voi täyttää millä tahansa sanalla, jopa joutavalla, ottaen huomioon kielen loputon yhdistelykyky. Mutta sana "kananmunat" todennäköisesti saa melko korkean pistemäärän täytettäessä sitä tyhjään kohtaan useimmissa normaaleissa teksteissä, korkeamman kuin esimerkiksi "elefantit". Sanomme, että kananmunien todennäköisyys annetun tekstin ehdolla on korkeampi kuin elefanttien todennäköisyys.

Kun neuroverkkoa kehitetään, jonka kutsutaan koulutusvaiheeksi, GPT-3:aa ruokitaan miljoonia ja miljoonia tekstinpätkiä ja se muuntaa sanat niin kutsutuiksi vektoreiksi, numeerisiksi esityksiksi. Tämä on yksi tapa puristaa dataa. Ohjelma yrittää sitten purkaa tämän puristetun tekstin takaisin kelvolliseksi lauseeksi. Tekstin pakkaamisen ja purkamisen tehtävä kehittää ohjelman tarkkuutta laskemalla sanojen ehdollista todennäköisyyttä.

Kun malli on koulutettu, eli sen laskelmat ehdollisesta todennäköisyydestä miljardeille sanoille on tehty mahdollisimman tarkoiksi, se voi ennustaa, mitkä sanat seuraavaksi tulevat, kun se saa syötteenä henkilön kirjoittaman alkuperäisen sanan tai sanat. Tämä ennustaminen on koneoppimisessa tunnettu nimellä päättely.

Tämä johtaa hämmästyttävään peiliefektiin. Ei pelkästään todennäköiset sanat nouse esiin, vaan myös genren tekstuurin ja rytmin tai kirjallisen tehtävän muoto, kuten kysymys-vastaus -sarjan, jäljitellään. Esimerkiksi GPT-3:lle voidaan syöttää kuuluisien runoilijoiden nimiä ja näytteitä heidän töistään, sitten toisen runoilijan nimi ja vain kuvitteellisen runon otsikko, ja GPT-3 tuottaa uuden runon tavanomaisen runoilijan rytmin ja syntaksin mukaisesti, jonka nimi on antanut vihjeen.

Harkitse seuraavaa tapausta, jossa GPT-3 luo runon tyhjästä, joka on jonkinlainen kuin Wallace Stevensin työ, saatuaan otsikot, nimet ja esimerkkirunoja muilta runoilijoilta ja heidän töistään:

From Finnish to Finnish: The City  BY C. P. CAVAFY   TRANSLATED BY EDMUND KEELEY [Poem text omitted]

Ihmiseltä saatu syöte : JOITAIN PUITA John Ashbery [Runoteksti jätetty pois]

 Ihmisten antama syöte: Varjot matkalla Wallace Stevens

GPT-3:n tuottama täydennys: -------- Luotu runo 1 --------   Minun täytyy varjot mukanani   Jos haluan kävellä, minun täytyy   Jokainen askel otetaan hitaasti ja yksinäisesti   Jotta se olisi valmiina   Ja minun täytyy ajatella harmaissa linjoissa   Jotta hämärät ajatukset olisivat oppaani   Minun täytyy katsoa sinistä ja vihreää   Enkä ikinä saa unohtaa silmääni   Että väri on ystäväni   Ja purppuran täytyy myös ympäröidä minut   Auringon keltainen ei ole enää   Häiritsevämpi kuin sinertävä lumi   Joka sataa meidän kaikkien päälle. Minun täytyy   Harmaat ajatukset ja siniset ajatukset kulkevat kanssani   Jos aion lähteä pois.

Tulosten tuottaminen tarkoittaa, että GPT-3 voi mennä paljon pidemmälle kuin pelkkä kirjoituksen tuottaminen. Se pystyy suoriutumaan kaikenlaisista testeistä, mukaan lukien luonnolliseen kieleen perustuvat päättelytestit. Esimerkiksi jos GPT-3:lle syötetään essee Manhattanin vuokrahinnoista ja sen tekstiä tiivistävä lausunto, kuten "Manhattan on halpa", ja kysymys "totta vai epätotta?", GPT-3 vastaa koko tähän syötteeseen palauttamalla sanan "epätotta", koska lausunto ei ole yhtäpitävä esseen argumentin kanssa.

 Ihmisten antamat tiedot: Trendi alhaisempaa vuokrausta kohti voi vaikuttaa yllättävältä ottaen huomioon, että jotkut yhteisöt New Yorkissa valittavat suosikki paikallista yritystään menettämisestä korkeiden vuokrien vuoksi. Mutta, viimeaikaisesta pehmenemisestä huolimatta monille näille vähittäiskauppiaille on edelleen ollut liian suuri loikka myöhäisellä 1970-luvulla solmittujen vuokrasopimusten vuokrien kanssa. Ei varmasti voida sanoa, että hiljattainen hintojen lasku tarkoittaa, että Manhattan on halpa.

Human-suoritettu syöte: kysymys: Manhattan on halpaa. totta, epätotta vai ei kumpaakaan?

Human-suoritettu syöte: vastaus:

GPT-3-generoitu täydennys : väärä

GPT-3:n kyky vastata tavalla, joka on yhdenmukainen esimerkkitehtävän kanssa, myös aiemmin sille tuntemattomilla lomakkeilla, tekee siitä, mitä kutsutaan "muutaman otoksen" kielimalliksi. Sen sijaan, että sitä olisi kattavasti viritetty, tai kuten sitä kutsutaan, "koulutettu", tietylle tehtävälle, GPT-3:lla on jo niin paljon tietoa sanojen yhdistämisestä eri tavoin, että sille voidaan antaa vain kourallinen esimerkkejä tehtävästä, sitä kutsutaan hienoviritysvaiheeksi, ja sen kyky suorittaa myös uusi tehtävä kasvaa.

Kyky peilata luonnollisen kielen tyylejä ja saavuttaa suhteellisen korkeita pisteitä kieliperusteisissa testeissä voi antaa kuvan siitä, että GPT-3 lähestyy jonkinlaista ihmismäistä kielitaitoa. Kuten näemme, tämä ei kuitenkaan pidä paikkaansa.

Lisäteknisiä yksityiskohtia löytyy virallisesta GPT-3-paperista, jonka julkaisivat OpenAI:n tutkijat.

MITÄ GPT-3 VOI TEHDÄ?

OpenAI on nyt tullut yhtä kuuluisaksi - tai pahamaineiseksi - koodinsa julkaisutapojen takia, kuin itse koodi. Kun yritys julkisti GPT-2:n edeltäjänä Ystävänpäivänä 2019, se ei aluksi halunnut julkaista yleisölle tehokkainta versiotaan, sillä se oli liian vaarallinen vapauttaa villeihin, sillä se aiheuttaisi riskin massatuotetusta vääristävästä tekstimateriaalista. OpenAI on sittemmin tehnyt sen ladattavaksi saataville.

Tällä kertaa OpenAI ei tarjoa latauksia. Sen sijaan se on ottanut käyttöön pilvipohjaisen API-pisteen, mikä tekee GPT-3:sta palveluna tarjottavan ratkaisun. (Ajattele sitä LMaaS:na, kielimalli-palveluna.) OpenAI:n väitetään syyksi niin GPT-3:n käytön rajoittaminen pahantahtoisten toimijoiden osalta kuin myös rahan tekeminen.

"'Undo-nappia' ei ole avoimen lähdekoodin kanssa," OpenAI kertoi ZDNetille edustajan välityksellä.

"GPT-3:n julkaiseminen API:n kautta antaa meille mahdollisuuden turvallisesti hallita sen käyttöä ja peruuttaa pääsy tarvittaessa."

Tällä hetkellä OpenAI:n API-palvelu on rajoitettu hyväksytyille osapuolille; käyttöoikeuden saamiseksi voi liittyä odotuslistalle.

"Juuri nyt API on kontrolloidussa betavaiheessa, jossa on pieni joukko kehittäjiä, jotka esittävät idean siitä, mitä he haluavat tuoda tuotantoon käyttämällä tätä rajapintaa," kertoi OpenAI ZDNetille.

Lisäksi: OpenAI:n 'vaarallinen' tekoälytekstin generaattori on julkaistu: Ihmiset pitävät sanoja 'vakuuttavina'

On mielenkiintoisia esimerkkejä siitä, mitä voidaan tehdä yrityksistä beetaprogrammissa. Sapling, Y Combinatorin tukeman venture-pääomarahaston tukemana, tarjoaa ohjelman, joka istuu asiakassuhteidenhallintaohjelmiston päällä. Kun asiakasavustaja käsittelee saapuvaa avunpyyntöä, esimerkiksi sähköpostitse, ohjelma käyttää GPT-3:a ehdottaakseen koko lauseen vastauksena todennäköisimpien vastausten joukosta.

sapling-asiakaspalvelu-käyttäen-gpt-3.jpg

Game maker Latitude käyttää GPT-3:ta tehostamaan tekstipohjaista seikkailupeliään, AI Dungeonia. Yleensä seikkailupeli edellyttäisi monimutkaista päätöspuuta skriptatakseen monia mahdollisia polkuja pelissä. Sen sijaan GPT-3 voi dynaamisesti generoida muuttuvaa pelitilaa käyttäjien kirjoittamien toimien vastauksena.

Jo nyt tehtävien automatisointi menee luonnollisen kielen tuolle puolen ja generoi tietokonekoodia. Koodi on kieli ja GPT-3 pystyy päättelemään todennäköisimmät operaattorien ja operandien syntaksit eri ohjelmointikielissä, ja se pystyy tuottamaan sekvenssejä, jotka voidaan onnistuneesti kääntää ja suorittaa.

Eräs varhainen esimerkki villitsi Twitterin, sovelluskehitysstart-upin Debuildin toimesta. Yrityksen pääjohtaja Sharif Shameem kykeni rakentamaan ohjelman, jossa kirjoitat ohjelmiston käyttöliittymän kuvauksen selkokielellä ja GPT-3 vastaa tietokonekoodilla hyödyntäen JSX-syntaksin laajennusta JavaScriptiin. Kyseinen koodi tuottaa käyttöliittymän, joka vastaa kuvaustasi.

Tämä on uskomatonta. GPT-3:lla loin ulkoasun luojan, jossa kuvailet haluamasi ulkoasun ja se generoi JSX-koodin puolestasi. W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13. heinäkuuta 2020

Shameem osoitti, että kuvaamalla käyttöliittymä monilla painikkeilla, yhdellä lauseella hän pystyi kuvaamaan koko ohjelman, tosin yksinkertaisen, kuten peruslaskentaa tekevän ja tuloksen näyttävän, ja GPT-3 tuottaisi kaiken koodin siihen ja näyttäisi toimivan sovelluksen.

Sain juuri valmiiksi *toimivan* React-sovelluksen kuvailemalla mitä halusin GPT-3:lle. Olen yhä hämmästynyt. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17. heinäkuuta 2020

OpenAI on saanut tähän mennessä "kymmeniätuhansia API-pääsyn hakemuksia ja harkitsemme pääsyä huolellisesti, kun opimme, mitä nämä mallit voivat tehdä todellisessa maailmassa," yhtiö kertoi ZDNetille. "Siksi odotuslista voi olla pitkä."

Hintien määrittäminen tulevalle kaupalliselle palvelulle on vielä avoinna. Kun OpenAI:lta kysyttiin, milloin ohjelma poistuu beetavaiheesta, he vastasivat ZDNetille, "ei ainakaan lähitulevaisuudessa".

"Tällaisen voimakkaan mallin julkaiseminen tarkoittaa sitä, että meidän täytyy edetä hitaasti ja harkiten sen vaikutusten suhteen yrityksiin, teollisuuteen ja ihmisiin", yritys sanoi. "API-muotoinen käyttöliittymä antaa meille mahdollisuuden tutkia ja valvoa sen käyttöä asianmukaisesti, mutta emme ole kiireisiä antamaan sitä yleiseen käyttöön sen rajoitusten vuoksi."

Jos et malta odottaa beetaversiota, voit ladata siihen asti aiemman version, GPT-2, joka voidaan suorittaa kannettavalla tietokoneella Docker-asennuksen avulla. Lähdekoodi on julkaistu samassa Github-tietovarastossa, Python-muodossa TensorFlow-ohjelmointikehykselle. Et tietenkään saa samanlaisia tuloksia kuin GPT-3, mutta se on tapa aloittaa perehtyminen.

Muista, että myös uusia kielimalleja samankaltaisilla kyvyillä ilmestyy koko ajan, ja jotkut niistä voivat olla riittäviä tarkoituksiisi. Esimerkiksi Google julkaisi äskettäin version BERT-kielimallistaan, jota kutsutaan nimellä LaBSE, ja se osoittaa huomattavaa parannusta kielentulkinnassa. Se on ladattavissa TensorFlow Hubista.

Lisäksi: OpenAI:n jättimäinen GPT-3 viittaa kieli malleiden rajoituksiin tekoälylle

MIKÄ ON GPT-3:N HISTORIA?

GPT-3, toukokuussa julkistettu, on kolmas versio ohjelmasta, joka esiteltiin ensimmäisen kerran vuonna 2018 OpenAI:n toimesta ja sai seuraajakseen GPT-2:n viime vuonna. Nämä kolme ohjelmaa ovat esimerkki nopeasta innovoinnista kielimallien alalla, kiitos kahden suuren edistysaskeleen, jotka molemmat tapahtuivat vuonna 2015.

Ensimmäinen edistysaskel oli niin kutsutun huomion käyttö. AI-tutkija Yoshua Bengio ja hänen kollegansa Montrealin Mila-instituutissa AI-huomasivat, että kielimallit, kun ne puristivat englanninkielisen lauseen ja sitten puristivat sen, käyttivät kaikki vektoria kiinteällä pituudella. Jokainen lause ahdettiin samankokoiseen vektoriin, oli lause sitten kuinka pitkä tahansa.

Bengio ja hänen tiiminsä tulivat siihen johtopäätökseen, että tämä jäykkä lähestymistapa oli pullonkaula. Kielimallin tulisi pystyä etsimään monien eripituiset vektorien joukosta niitä sanoja, jotka optimoivat ehdollisen todennäköisyyden. Tämän vuoksi he keksivät tavan, jolla neuroni-verkko voi joustavasti puristaa sanat erikokoisiin vektoreihin, ja ohjelman pystyy joustavasti etsimään näiden vektorien sisältämää kontekstia. He kutsuivat tätä huomion kiinnittämiseksi.

Huomio sai keskeisen roolin kielimalleissa. Sitä käytettiin kaksi vuotta myöhemmin Google-tieteilijöiden luomassa kielimalliohjelmassa nimeltä Transformer. Transformer saavutti uskomattoman hyviä tuloksia kielten manipulointitestissä. Siitä tuli de facto -kielimalli, ja Google käytti sitä luodakseen niin kutsutun BERTin, toisen hyvin menestyneen kielimallin. Transformerista tuli myös GPT-1:n perusta.

Vapautettuna tarpeesta jäykästi käsitellä kiinteän kokoista vektoria, Transformer ja sen jälkeläiset voivat liikkua vapaasti eri osissa annettua tekstiä ja löytää ehtoollisia riippuvuuksia, jotka ulottuvat paljon laajempaan kontekstiin.

Tuo vapaus loi pohjan toiselle innovaatiolle, joka tuli vuonna 2015 ja joka oli vielä keskeisempi OpenAI:n työlle, ja se tunnetaan nimellä ohjaamaton oppiminen.

Keskipiste siihen asti useimmille kielimalleille oli ohjatun oppimisen avulla, käyttäen niin kutsuttua merkittyä dataa. Saadun syötteen perusteella neuroverkkoon annetaan myös esimerkkivastaus tavoiteltuna versiona vastauksena. Joten, jos tehtävänä on käännös, englanninkielinen lause voi olla syötteessä ja ihmisen luoma ranskankielinen käännös toimitetaan tavoiteltuna päämääränä ja lausepari muodostaa merkityn esimerkin.

Neuraalisen verkon yritys generoida ranskankielinen käännös verrattaisiin viralliseen ranskankieliseen lauseeseen, ja näiden kahden välillä oleva ero kuvaa sitä, kuinka paljon neuraaliverkko erehtyy antaessaan ennusteitaan, eli sitä, mitä kutsutaan tappiofunktioksi tai tavoitefunktioksi.

Koulutusvaiheen tarkoituksena on sulkea virheen kuilu neuroverkon ehdotetun tulostuksen ja kohdetulostuksen välillä. Kun kuilu on mahdollisimman pieni, tavoitefunktio on optimoitu ja kielenmallin neuroverkko katsotaan koulutetuksi.

Mutta halutun tulosteen huolella merkitseminen voi olla ongelma, koska se vaatii paljon tietojen kokoamista, kuten esimerkkilauseparien keräämistä ihmisen arvioinnin avulla, mikä vie aikaa ja resursseja. Googlen Andrew Dai ja Quoc Le olettivat, että merkittyjen tietojen tarvetta voidaan vähentää, jos kieli mallia koulutetaan ensin valvomattomalla tavalla.

Sen sijaan että annettaisiin lausepari, verkko sai vain yksittäisiä lauseita ja sen piti puristaa jokainen lause vektoriksi ja purkaa jokainen takaisin alkuperäiseksi lauseeksi. Kuvastaminen tuli menetelmäksi vähenemää varten. He huomasivat, että mitä enemmän leimattomia esimerkkejä näin puristettiin ja purettiin, sitä enemmän voitiin korvata paljon leimattua dataa tehtävissä, kuten käännöksessä.

Vuonna 2018 OpenAI-tiimi yhdisti nämä kaksi elementtiä: Bengio ja hänen kollegoidensa kehittämän tarkkaavaisuusmekanismin, joka liikkuu useiden sanavektoreiden yli, sekä Dain ja Len kehittämän valvomattoman ennakko-opetusmenetelmän, joka ahmii suuria määriä tekstiä, puristaa sen ja dekompressoi sen palauttaakseen alkuperäisen tekstin.

He ottivat tavallisen Transformer-mallin ja syöttivät siihen BookCorpuksen sisällön, tietokannan johon kuului yli 7 000 julkaistua kirjaa, yhteensä lähes miljoona sanaa ja yhteensä 5GB. GPT-1 koulutettiin puristamaan ja purettamaan näitä kirjoja.

Niinpä alkoi kolmen vuoden historian suurempien ja suurempien tietojoukkojen osalta. OpenAI:n tutkijat olettivat, että enemmän dataa teki mallista tarkemman, ja he laajensivat ohjelman kykyä käsitellä tietoa. GPT-2:n kanssa he heittivät syrjään BookCorpusin ja käyttivät sen sijaan itse kerättyä tietojoukkoa, joka koostuu kahdeksasta miljoonasta Redditistä linkkien kautta kerätystä verkkosivusta ja yhteensä 40 gigatavusta dataa.

GPT-3:n koulutus on edelleen mittavampaa, sisältäen suositun CommonCrawl-aineiston vuosilta 2016-2019. Se on nimellisesti 45TB puristettua tekstidataa, vaikka OpenAI on karsinut siitä pois kopiot ja parantanut laatua muillakin tavoin. Lopullinen versio sisältää 570GB dataa. OpenAI on täydentänyt sitä useilla lisäaineistoilla eri muodoissa, mukaan lukien kirjadataa.

KUINKA GPT-3 RIIPPUU LASKENTATEHOSTA?

GPT-1, 2 ja 3:n saapuessa tietokoneiden mittakaava on noussut olennaiseksi edistysaskeleeksi. Mallit käyttävät yhä enemmän tietokonevoimaa koulutuksen aikana saavuttaakseen parempia tuloksia.

Neural-verkon optimointi koulutuksen aikana tapahtuu sen painojen säätämisen kautta. Painot, jotka tunnetaan myös parametreina, ovat matriiseja, riveistä ja sarakkeista koostuvia taulukoita, joilla jokaista vektoria kerrotaan. Kerroksen avulla monet sanavektorit tai sanapalat painotetaan enemmän tai vähemmän lopullisessa tulosteessa, kun neuroverkkoa viritetään minimoimaan virhe.

OpenAI havaitsi, että menestyäkseen yhä suuremmissa tietojoukoissa, heidän oli lisättävä yhä enemmän painoarvoja.

Alkuperäisessä Google Transformerissa oli 110 miljoonaa painoa. GPT-1 seurasi tätä suunnittelua. GPT-2:ssa määrä nousi 1,5 miljardiin painoon. GPT-3:ssa parametrien määrä on kasvanut 175 miljardiin, mikä tekee siitä maailman suurimman koskaan nähdyn neuroverkon.

Kertolasku on yksinkertainen asia, mutta kun 175 miljardia painoa on kerrottava jokaisella syötedatan bitillä, miljardien tavujen datan yli, siitä tulee uskomaton harjoitus rinnakkaisessa tietokoneenkäsittelyssä.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Jo vuonna 2018, GPT-1:n myötä OpenAI oli punnertanut käytännön tietojenkäsittelyn rajoja. Datamäärän lisääminen tarkoitti myös GPU-määrän lisäämistä. Aikaisemmat kielimallit mahtuivat yhteen GPU:hen, koska ne olivat pieniä. GPT-1:n kouluttaminen kesti kuukauden kahdeksalla rinnakkain toimivalla GPU:lla.

OpenAI on ollut hieman salamyhkäinen GPT-3:sta puhuttaessa. Se ei ole kuvannut tarkkaa tietokonekonfiguraatiota, jota käytettiin koulutukseen, muuta kuin että se tapahtui Nvidia V100 siruilla varustetulla klusterilla, joka pyöri Microsoft Azuressa. Yhtiö on kuvannut tarvittavien laskentasyklien kokonaismäärän, todeten sen vastaavan tuhatta biljoonaa liukulukutoimitusta sekunnissa päivittäin 3 640 päivän ajan.

Tietokoneiden valmistaja ja pilvioperaattori Lambda Computing on arvioinut, että yhden GPU:n olisi kestänyt 355 vuotta suorittaa niin paljon laskentaa. Tämä maksaisi 4,6 miljoonaa dollaria standardin pilvi-GPU-instanssin hinnalla. Ja sitten on vielä muisti. Painoarvojen tallentamiseen tarvitaan yhä enemmän muistia parametrien määrän kasvaessa. GPT-3:n 175 miljardia parametria vaatii 700 gigatavua muistia, kymmenkertaisesti yhden GPU:n muistiin verrattuna.

Sellainen valtava tehontarve on se, joka ajaa tietokonepiirien alaa eteenpäin. Se on nostanut Nvidia-nimisen yrityksen osakkeen arvoa, joka on hallitseva GPU-toimittaja tekoälyn koulutuksessa, lähes 5 000 % viimeisen kymmenen vuoden aikana. Se on synnyttänyt joukon start-up-yrityksiä, joiden taustalla on satoja miljoonia dollareita riskipääomaa, mukaan lukien Cerebras Systems, Graphcore ja Tachyum. Kilpailu tulee jatkumaan niin kauan kuin suurempiin ja suurempiin malleihin perustuva kehitys jatkuu alalla.

OpenAI on tuottanut omaa tutkimusta koskien kasvavaa tietokoneiden laskentatehoa. Yritys totesi jo vuonna 2018, että suurimpien tekoälyyn perustuvien koulutusmallien kuluttamat laskentasyklit ovat kaksinkertaistuneet joka 3,4 kuukausi sitten vuodesta 2012 lähtien. Tämä on nopeampaa kuin kuuluisan Mooren lain mukainen sirun transistorikasvu. (Huomaa kuitenkin, että yritys on myös tuottanut tutkimusta, joka osoittaa, että suurempiin malleihin perustuvat mallit ovat yksikköpohjaisesti tehokkaampia kuin aiemmat neuroverkot, jotka tekivät saman työn.)

Jo nyt kehitellään malleja, joissa käytetään yli biljoonaa parametria, niin kuin yritykset ovat kertoneet salaisista tekoälyprojekteistaan. Se tuskin onkaan raja, kunhan hypermittasuhteiset yritykset, kuten Google, ovat valmiita omistamaan valtavat tietokeskuksensa entistä suuremmille malleille. Useimmat tekoälytutkijat ovat yhtä mieltä siitä, että koneoppimismalleissa kasvaminen tulee olemaan normaali pitkään.

"Kun puhutaan tekoälyn vaikutuksesta alaan, GPT-3 on kaikkein jännittävin osa siinä, että se osoittaa, ettemme ole lähelläkään rajoja tekoälyn skaalaamisessa", kertoo AI-hallintatyökalujen myyjän Algorithmian CTO Kenny Daniel ZDNetille.

Lisäksi GPT-3:lla on selvästi suuri vaikutus siihen, miten se nopeuttaa ohjelmointia ja sovelluskehitystä yleisesti. Shameemin esittämä esimerkki JSX-ohjelmasta, joka rakennettiin yksinkertaisesti lauseita kirjoittamalla, on vain jäävuoren huippu.

MITKÄ OVAT GPT-3:N HEIKKOUTET?

Vaikka GPT-3:lla onkin huomattava parannus edelliseen versioon nähden, sillä on paljon rajoituksia, kuten tekijät itsekin huomauttavat. "Vaikka kokonaisuutena laatu onkin korkea, GPT-3:n näytteet toistavat joskus itseään semanttisesti dokumenttitasolla ja menettävät koherenssia riittävän pitkillä teksteillä", he huomauttavat julkaistussa artikkelissa.

Ohjelma ei myöskään suoriudu hyvin useista yksittäisistä testeistä. "Erityisesti GPT-3:lla on vaikeuksia sellaisten kysymysten kanssa, kuten 'Jos laitan juuston jääkaappiin, sulatetaanko se?' kirjoittavat tekijät, kuvaillen niitä arkitietoon liittyviä asioita, joista GPT-3 ei pysy kärryillä."

Autojen GPT-3:n julkaisun jälkeen syntyi suuri innostus, josta yrityksen toimitusjohtaja Sam Altman julkisesti kehotti ihmisiä hillitsemään.

"GPT-3 hype on aivan liian suurta," twiittasi Altman 19. heinäkuuta. "Se on vaikuttavaa (kiitos mukavista kehuista!), mutta sillä on edelleen vakavia heikkouksia ja joskus se tekee hyvin typeriä virheitä", hän kirjoitti. "Tekoäly tulee muuttamaan maailman, mutta GPT-3 on vasta hyvin varhainen vilkaisu. Meillä on vielä paljon selvittämistä."

GPT-3:n hype on liian suurta. Se on vaikuttavaa (kiitos mukavista kommenteista!), mutta sillä on edelleen vakavia heikkouksia ja joskus se tekee hyvin tyhmiä virheitä. Tekoäly tulee muuttamaan maailmaa, mutta GPT-3 on vasta hyvin varhainen vilkaisu siihen. Meillä on vielä paljon selvittämistä.

— Sam Altman (@sama) 19. heinäkuuta 2020

Toiset OpenAI:n ulkopuoliset tahot ovat tarjonneet oman todellisuuden tarkistuksensa. Kokenut GPT:n useita sukupolvia käyttävä käyttäjä Max Woolf on kirjoittanut henkilökohtaisessa blogissaan, että GPT-3 on parempi kuin aiemmat versiot, mutta keskimäärin. Generoidun tekstin laadussa on monenlaista vaihtelua, joten osa kohtaamistasi esimerkeistä vaikuttaa huomattavilta, kun taas toiset eivät ole kovin hyviä. Woolf vertaa GPT-3:sta Applen Siriin, joka on ikävästi taipuvainen tuottamaan roskaa monissa tilanteissa. (Woolfin essee on ehdottomasti lukemisen arvoinen kokonaisuudessaan, sillä siinä hän analysoi GPT-3:sta harkitsevasti.)

Todellakin, kun lukee lisää GPT-3 esimerkkejä, etenkin pitkiä tekstinpätkiä, alkuperäinen innostus on väistämättä hiipumassa. GPT-3:n pitkissä jaksoissa juoni alkaa kadota, kuten sanotaan. Riippumatta lajityypistä tai tehtävästä, sen teksti alkaa muuttua pitkittyneeksi ja ikävystyttäväksi, ja tarinassa tulee esiin sisäisiä ristiriitaisuuksia.

Joillakin ohjelmoijilla on innostuksestaan huolimatta havaittu monia puutteita, kuten GPT-3:n epäonnistuneet yritykset isävitsien kertojana. Kun annetaan isävitseen sopiva lähtökohta, esimerkiksi "Mitä yksi lautanen sanoi toiselle?", oikea isävitsin loppu on "Illallinen on minun piikissäni!". Mutta GPT-3 voi vastata sen sijaan ei-humoristisesti "Dippaa minut!".

Ihmisten antama syöte: K. Mitä yksi lautanen sanoi toiselle lautaselle?

GPT-3-generoimaa täydennystä: A. Upota minut!

Vaikka GPT-3 voi vastata oletettuihin yleistajuisten kysymyksiin, kuten montako silmää kirahvilla on, se ei pysty torjumaan järjettömiä kysymyksiä ja antaa vastauksia, jotka eivät liity asiaan. Kysyttäessä esimerkiksi "Montako silmää jalassani on?," se vastaa velvollisen kuuliaisesti, "Jalassani on kaksi silmää."

Yksi tapa ajatella kaikkea tätä keskinkertaisuutta on, että hyvän tulostuksen saaminen GPT-3:sta vaatii jonkin verran panostusta tehokkaiden kehotteiden luomiseen. Jotkut ihmisiltä keksityt kehotteet houkuttelevat ohjelmaa parempiin tuloksiin kuin toiset kehotteet. Se on uusi versio sananlaskusta "roskaa sisään, roskaa ulos". Kehotteet saattavat näyttää tulevan uudeksi ohjelmoinnin alueeksi, joka vaatii sekä taitoa että taiteellisuutta.

Ennakkokäsitys on suuri huomioitava tekijä, ei pelkästään GPT-3:n vaan myös kaikkien ohjelmien osalta, jotka perustuvat ehdolliseen jakaumaan. Ohjelman peruslähestymistapa on palauttaa juuri se, mitä siihen syötetään, kuin peili. Tällä on potentiaalia toistaa syötteen mukana tulevia ennakkokäsityksiä. GPT-2:ssa on jo käyty tieteellistä keskustelua merkittävästä ennakkokäsitysten vääristymästä.

GPT-3:n kanssa Nvidia AI -tutkija Anima Anandkumar antoi hälytyksen siitä, että taipumus tuottaa vääristynyttä tulostetta, mukaan lukien rasistinen ja seksistinen tuloste, jatkuu.

Olen järkyttynyt nähdessäni tämän julkaistuksi ilman vastuuta puolueellisuudesta. Tämä on koulutettu @reddit korpuksen avulla, joka sisältää valtavaa #rasismi ja #seksismiä. Olen työskennellyt näiden mallien parissa ja niiden tuottama teksti on häkellyttävän puolueellista. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11. kesäkuuta 2020

Kun kysyttiin Anandkumarin kritiikistä, OpenAI kertoi ZDNetille: "Kuten kaikkien yhä tehokkaampien generatiivisten mallien kanssa, oikeudenmukaisuus ja väärinkäyttö ovat huolenaiheitamme."

"Tämä on yksi syy, miksi jaamme tämän teknologian API:n kautta ja käynnistämme sen yksityisen beetavaiheen avulla", OpenAI kertoi ZDNetille. Yritys huomauttaa, että se "ei tue käyttötapauksia, jotka aiheuttavat fyysistä tai henkistä haittaa ihmisille, mukaan lukien, mutta ei rajoittuen, ahdistelu, tahallinen harhaanjohtaminen, radikalisoituminen, tekonurmikointi tai roskaposti".

OpenAI kertoi ZDNetille, että se käyttää tuttua tyyppiä valkoista hattua, mustaa hattua sotapelissä havaitakseen vaarat ohjelmassa:

Olemme käyttöönottaneet sen, mitä kutsutaan "punaiseksi tiimiksi", jonka tehtävänä on jatkuvasti rikkoa sisällön suodatusjärjestelmää, jotta voimme oppia enemmän siitä, miten ja miksi malli antaa huonoja tuloksia. Sen vastapari on "sininen tiimi", joka vastaa mittaa ja vähentää harhaa.

Toinen suuri ongelma on GPT-3:n erittäin laaja, alimpaan yhteiseen nimittäjään perustuva luonne, se tosiasia, että se vahvistaa ainoastaan todennäköisyysjakauman lihavinta osaa. On olemassa niin sanottu pitkä häntä, ja toisinaan lihava häntä, todennäköisyysjakauman osa. Nämä ovat harvinaisempia tapauksia, jotka saattavat muodostaa innovatiivisimmat kielikäytön esimerkit. Tarkastelemalla vain yleisintä tekstiä yhteiskunnassa riskinä on luovuuden ja tutkimuksen väheneminen.

Tällä hetkellä OpenAI:n vastaus tähän ongelmaan on asetus, jonka voi säätää GPT-3:ssa nimeltään lämpötilan arvo. Tämän nupin säätäminen virittää GPT-3:n valitsemaan vähemmän todennäköisiä sanayhdistelmiä ja siten tuottamaan ehkä epätavallisempaa tekstiä.

Yritykselle suurempi huolenaihe on, että GPT-3:aa ei voi säätää yrityskohtaisilla tiedoilla. Jos mitään ei voida säätää, on vaikeaa erikoistaa GPT-3:a teollisuudenalalle esimerkiksi. Saattaa olla, että API-palvelua käyttävät yritykset joutuvat edelleen työstämään tekstiä sovellettavaksi tietylle alalle. Ehkäpä Saplingin kaltaiset start-upit muodostavat ekosysteemin, joka ratkaisee tämän ongelman. Ehkä, mutta se jää nähtäväksi.

Jos tämä ei olisi tarpeeksi huolestuttavaa, on olemassa toinenkin ongelma: GPT-3 on pilvipalveluna musta laatikko. Tämä tarkoittaa sitä, että yritykset, jotka käyttäisivät palvelua, eivät tiedä miten se tuottaa tuloksensa - erityisen haastavaa tilanteessa, jossa esiintyy puolueellisuuteen liittyviä ongelmia. Sellaiset tahot kuin Sapling, jotka kehittävät GPT-3:sta, saattavat lisätä epäselvyyden kerroksia samalla kun he parantavat palvelun laatua.

Mustana laatikko-ongelman alaosiona GPT-3 voi joissain tapauksissa vain muistaa sen, mitä se on imenyt verkkotiedoista. Se herättää tekijänoikeuskysymyksiä. Jos yritys ottaa käyttöönsä API-palvelusta tekijänoikeuden alaisen materiaalin, yritys saattaa loukata toisen tahon tekijänoikeuksia. Kysyttäessä tekijänoikeudesta OpenAI kertoi ZDNet:lle, että GPT-3:n tuottamaan tekstiin liittyvä tekijänoikeus "kuuluu käyttäjälle, ei OpenAI:lle". Mitä tämä käytännössä tarkoittaa, jää nähtäväksi.

Tällä hetkellä suurin käytännön rajoitustekijä on GPT-3:n kouluttamiseen ja käyttämiseen tarvittava mittakaava. OpenAI tunnustaa tämän muodollisessa artikkelissaan. Kirjoittajat toteavat, että työtä on tehtävä laskemaan, miten suurten mallien kustannukset jakautuvat ajan myötä tuotetun tuloksen arvon perusteella.

Lisäksi: Ei, tämä tekoäly ei voi viimeistellä lauseitasi

OPPIIKO GPT-3 OIKEASTI?

Käyttäen sanan kapeaa merkitystä, GPT-3 oppii siinä mielessä, että sen parametriarvot viritetään automaattisesti koulutusdatan sisäänottojen avulla, jotta kielimalli päättyy paremmin kuin sen nimenomainen ohjelmointi yksinään sallisi. Tässä mielessä GPT-3 on edistysaskel vuosikymmeniä kestäneessä pyrkimyksessä luoda tietokone, joka voi oppia muuttamaan dataa ilman, että ihminen koodaa nimenomaista funktiota.

Sen sanottua, joku saattaa kysyä, onko kone todella älykäs tai oppiiko se todella. On paljon tapoja väitellä tästä asiasta, mutta satunnaisen pohdinnan perusteella näyttää siltä, että paljon siitä, mitä voimme kutsua ihmismieleksi, ei tapahdu täällä.

Harkitse, jos voisit säilyttää aivossasi numeerisen pisteytyksen siitä, kuinka monta sanaa todennäköisesti esiintyy yhdessä toistensa kanssa. Sanoisitko, että kykysi muodostaa ilmauksia, lauseita, kappaleita ja kokonaisia tekstipätkiä olisi harkittua? Todennäköisesti sanoisit, että se on vain tilastollista ja että jotain muuta puuttuu.

On tehty vertailuja syväoppimisen ja kuuluisan Clever Hans -hevoshoitoa saksalaisen hevosen välillä, jonka omistaja esitteli julkisesti eläimenä, joka kykenee suorittamaan laskentaa kavioillaan. Myöhemmin paljastui, että Hans vastasi omistajansa kehon liikkeisiin antaakseen merkin kavion iskemisestä, ja ilman merkkejä hän ei pystynyt suorittamaan tehtävää.

Samoin GPT-3:n inhimillinen laatu murenee tarkemmassa tarkastelussa. Kun GPT-3 vastaa oikein tosi-pseudokysymykseen esseen New Yorkin kiinteistöistä, ei ole siksi, että ohjelma tietäisi kiinteistöistä tai New Yorkista. Se on tallentanut todennäköisyysjakauman, joka kattaa väitteet teksteissä sekä lausuntojen-kysymysten parin muodon, ja se voi kopioida ne tulosteeksi.

Hans ei tiennyt mitään matematiikasta, vaikka Hansin puolustukseksi on sanottava, että hänellä oli älykkyyttä silti. Neuroverkkojen tapauksessa kriitikot sanovat, että vain temput ovat läsnä ilman mitään hevosenjärkeä.

Silti älykkyys ja oppiminen voivat tarkoittaa monia asioita ja tavoitteet siitä, mikä on oletettua tekoälyä, ovat siirtyneet vuosien varrella, kuten alan historiankirjoittaja Pamela McCorduck on huomauttanut. Jotkut saattavat väittää, että ohjelma, joka pystyy laskemaan todennäköisyyksiä valtavien tekstikokoelmien yli, voi olla erilainen älykkyysmuoto, ehkä jokin muu kuin oma älykkyytemme. Hylkääminen vaikuttaa ennenaikaiselta.

Lisäksi neuraaliverkot, jotka aiheuttavat näitä ehtoisia todennäköisyyksiä, ovat paljon enemmän kuin pelkät tilasto-ohjelmat. Niiden laskelmat ovat monien samanaikaisten matemaattisten toimintojen ja parametrien painojen virittämisen syntynyt ominaisuus. Jos on mahdollista harkita muita älykkyyden muotoja, niin yksi paikka, josta sitä voi etsiä, voi olla neuraaliverkoissa syntyvät hajautetut esitykset.

MITÄ ON GPT-3:N TULEVAISUUS?

Yksi asia näyttää varmalta: GPT-3 on avannut uuden luvun koneoppimisessa. Sen merkittävin ominaisuus on sen yleisyys. Vain muutama vuosi sitten neuroverkkoja rakennettiin tehtävään räätälöityjen funktioiden avulla, kuten käännökseen tai kysymyksiin vastaamiseen. Aineistot oli koottu vastaamaan kyseistä tehtävää. Sen sijaan, GPT-3:lla ei ole tehtäväkohtaisia funktioita eikä se tarvitse erityistä aineistoa. Se yksinkertaisesti ahmii mahdollisimman paljon tekstiä mistä tahansa ja toistaa sen tuotoksessaan.

Jotenkin, kaikkien niiden gigatavujen tekstin ehdollisen todennäköisyysjakauman laskennassa ilmenee funktion, joka voi tuottaa kilpailukykyisiä vastauksia moniin tehtäviin. Se on henkeäsalpaava yksinkertaisuuden saavutus, jolla on todennäköisesti monta vuotta saavutuksia edessään.

Jopa tämä yleisluontoinen asia voi kuitenkin saavuttaa rajansa. GPT-3:n kirjoittajat huomauttavat jo artikkelinsa lopussa, että esikoulutuksen suunta voi lopulta menettää tehonsa. "Tämän artikkelin kuvattuun yleiseen lähestymistapaan liittyy kuitenkin vielä perustavanlaatuisempi rajoitus [...] se voi lopulta saavuttaa (tai mahdollisesti jo saavuttanut) esikoulutuksen tavoitteen rajoitukset."

Kirjoittajat esittävät lupaavia uusia suuntia voisi sisältää "tavoitefunktion oppimisen ihmisiltä" ja muiden syväoppimistyypin sekoittamisen, kuten "vahvistusoppimisen" lähestymistavan, jota käytettiin DeepMindin AlphaZerossa shakin ja go-pelin voittamiseen. (He ovat jo aloittaneet tällaisten lähestymistapojen käyttöönoton. Syyskuun alussa OpenAI:n kirjoittajat osoittivat voivansa käyttää vahvistusoppimista kouluttaakseen GPT-3:n tuottamaan parempia artikkelien yhteenvedoja antamalla kielimallille hieman ihmispalautetta siitä, mitkä yhteenvedot kuulostavat paremmilta.)

Toinen asia, jonka he ehdottavat on lisätä muita tietotyyppejä, kuten kuvia, täydentämään ohjelman "maailman mallia".

Todellakin, tulevina vuosina on todennäköistä, että tämä hyvin yleinen lähestymistapa leviää myös muille tekstien ulkopuolisille muodoille, kuten kuville ja videoille. Kuvittele ohjelma, kuten GPT-3, joka voi kääntää kuvia sanoiksi ja päinvastoin ilman mitään erityistä algoritmia mallintamaan näiden kahden välistä suhdetta. Se voisi esimerkiksi "oppia" tekstipohjaisia kuvauksia näkymistä valokuvista tai ennustaa fyysisiä tapahtumasarjoja tekstimuotoisista kuvauksista.

Facebook AI:n johtaja Yann LeCun on esittänyt, että ohjaamaton koulutus eri muodoissa on syväoppimisen tulevaisuus. Jos tämä pitää paikkansa, voimme nähdä esikoulutusmenetelmän soveltamisen eri tietomuotoihin, äänestä tekstiin, kuviin ja videoihin, erittäin lupaavana suunnanohjauksen aaltona.

Mikä on GPT-3? Kaikki mitä yrityksesi tarvitsee tietää OpenAI:n läpimurtomaisesta tekoälykieliohjelmasta.