Tämä uusi teknologia voisi pyyhkäistä GPT-4:n ja kaiken sen kaltaisen mennessään

Kaikesta innostuksesta chatbot AI -ohjelmaa kohtaan, jota kutsutaan nimellä ChatGPT, OpenAI:n, ja sen seuraajan teknologian, GPT-4:n, suorittaminen on päivän päätteeksi vain ohjelmistosovelluksia. Ja kuten kaikilla sovelluksilla, niillä on teknisiä rajoituksia, jotka voivat heikentää niiden suorituskykyä.

Maaliskuussa julkaistussa tutkimuksessa Stanfordin yliopiston tekoälyn (AI) tutkijat ja Kanadan MILA AI-instituutti esittelivät teknologian, joka voisi olla huomattavasti tehokkaampi kuin GPT-4 tai sen kaltaiset, kun kyseessä on suuren datamäärän käsittely ja sen muuttaminen vastaukseksi.

Lisäksi: Nämä entiset Apple-työntekijät haluavat korvata älypuhelimet tällä laitteella

Tunnetaan nimellä Hyena, tämä teknologia pystyy saavuttamaan vastaavan tarkkuuden benchmark-testeissä, kuten kysymysten vastaamisessa, käyttäen vain murto-osan laskentatehosta. Joissain tapauksissa Hyena-koodi pystyy käsittelemään niin suuria määriä tekstiä, että GPT-tyyppiset teknologiat vain loppuvat muistista ja epäonnistuvat.

"Lupaavat tuloksemme miljardin parametrin mittakaavassa viittaavat siihen, että huomio saattaa olla se ainoa, mitä tarvitsemme", kirjoittavat tekijät. Tuo huomautus viittaa vuoden 2017 merkittävän tekoälyraportin otsikkoon 'Huomio on kaikki mitä tarvitsemme'. Tuossa raportissa Googlen tutkija Ashish Vaswani ja hänen kollegansa esittivät maailmalle Googlen Transformer-tekoälyohjelman. Transformerista tuli perusta kaikille viimeaikaisille suurille kielimalleille.

Mutta Transformerilla on suuri vika. Se käyttää jotakin nimeltä "huomio", missä tietokoneohjelma ottaa tiedon yhdestä symboliryhmästä, kuten sanoista, ja siirtää sen uuteen symboliryhmään, kuten ChatGPT:ltä näkemäsi vastaus, joka on tuloste.

Myös:Mikä on GPT-4? Tässä kaikki mitä sinun tarvitsee tietää

Sillä huomiokyvyllä (attention operation) on keskeinen rooli kaikissa suurissa kieliohjelmissa, kuten ChatGPT:ssä ja GPT-4:ssä. Sillä on "kvadraattinen" laskennallinen monimutkaisuus (Wiki "laskennallinen aikavaativuus"). Tämä monimutkaisuus tarkoittaa sitä, että ChatGPT:n vastauksen tuottamiseen käytetty aika kasvaa neliöllä sille syötetyn datan määrästä.

Jossain vaiheessa, jos on liikaa dataa - liikaa sanoja ohjeissa tai liikaa keskustelunpätkiä tuntien ja tuntien ajan chattailusta ohjelman kanssa - niin joko ohjelma hidastuu vastauksen antamisessa tai sille on annettava yhä enemmän ja enemmän GPU-piirejä toimimiseen nopeammin ja nopeammin, mikä johtaa laskentavaatimusten kasvuun.

Uudessa artikkelissa 'Hyena Hierarkia: Kohti suurempia konvolutionaalisia kieli malleja', joka julkaistiin arXivin ennakkojulkaisupalvelussa, pääkirjoittaja Michael Poli Stanfordista ja hänen kollegansa ehdottavat korvaamaan Transformerin huomiofunktion jollakin sub-kvadraattisella, nimittäin Hyenalla.

Lisäksi:Mikä on Auto-GPT? Kaikki tarvittava tieto seuraavasta voimakkaasta tekoälytyökalusta

Kirjoittajat eivät selitä nimeä, mutta voi kuvitella useita syitä "Hyena" ohjelman takana. Hyeenat ovat Afrikassa eläviä eläimiä, jotka voivat metsästää mailien ja mailien päässä. Jossain mielessä erittäin tehokas kielimalli voisi olla kuin hyeena, joka metsästää mailien ja mailien päästä löytääkseen ravintoa.

Mutta kirjailijoita todella huolestuttaa "hierarkia", kuten otsikko antaa ymmärtää, ja hyeenojen perheillä on tiukka hierarkia, jonka puitteissa paikallisen hyeena klaanin jäsenillä on erilaisia sijoituksia, jotka määrittävät vallan. Jotenkin analogisesti Hyena-ohjelma soveltaa joukkoa hyvin yksinkertaisia toimenpiteitä, kuten näet, yhä uudelleen, niin että ne yhdistyvät muodostaen jonkinlaisen hierarkian tietojenkäsittelyssä. Juuri tämä yhdistelmaluonteen elementti antaa ohjelmalle sen Hyena-nimen.

Lisäksi:Tulevat ChatGPT-versiot voisivat korvata enemmistön ihmiset tänään tekevästä työstä, sanoo Ben Goertzel

Lehden avustavat kirjoittajat sisältävät tekoälyn maailman johtavat asiantuntijat, kuten Yoshua Bengio, MILA:n tieteellinen johtaja, joka on vuoden 2019 Turing-palkinnon saaja, tietojenkäsittelyn vastine Nobelin palkinnolle. Bengio saa laajasti tunnustusta siitä, että hän kehitti huomion mekanismin kauan ennen kuin Vaswani ja tiimi sovelsivat sen Transformeriin.

Myös joukossa on Stanfordin yliopiston tietojenkäsittelytieteen apulaisprofessori Christopher Ré, joka on viime vuosina ollut edistämässä tekoälyn käsitettä "ohjelmistona 2.0".

Löytääkseen alikvadraattisen vaihtoehdon huomiomekanismille, Poli ja tiimi ryhtyivät tutkimaan, miten huomiomekanismi suorittaa tehtävänsä, jotta näkisivät, voitaisiinko työ tehdä tehokkaammin.

Viimeaikainen käytäntö tekoälyn tiedemaailmassa, jota kutsutaan mekanistiseksi tulkittavuudeksi, tuottaa oivalluksia siitä, mitä tapahtuu syvästi neuroverkossa, huomion laskennallisissa "piireissä". Voit ajatella sitä ohjelmiston purkamisena samalla tavalla kuin puretaan kello tai tietokone nähdäkseen sen osat ja selvittääkseen, miten se toimii.

Lisäksi:Käytin ChatGPT:ta kirjoittamaan saman rutiinin 12 parhaalla ohjelmointikielellä. Tässä miten se suoriutui

Yksi Polin ja tiimin viittaama työ on tehty Anthropic-älykästeknologiayrityksen tutkija Nelson Elhagen kokeilusarjana. Nämä kokeilut purkavat Transformer-ohjelmat selvittääkseen mitä tarkkaavaisuus tekee.

Periaatteessa Elhage ja tiimi havaitsivat, että huomio toimii kaikkein perustasolla hyvin yksinkertaisilla tietokoneen toiminnoilla, kuten sanan kopioinnilla äskettäisestä syötteestä ja liittämisellä tulosteeseen.

Esimerkiksi, jos joku alkaa kirjoittaa suureen kielimalliin perustuvaan ohjelmaan, kuten ChatGPT:hen, lausetta Harry Potter ja viisasten kivi -kirjasta, kuten "Mr. Dursley oli firma nimeltä Grunningsin johtaja…", pelkkä kirjainten "D-u-r-s" kirjoittaminen voi riittää ohjelman täydentämään nimen "Dursley", koska se on nähnyt nimen aikaisemmassa Harry Potterin viisasten kivi -kirjan lauseessa. Järjestelmä kykenee kopiomaan muistista merkkijonon "l-e-y" täydentääkseen lauseen.

Lisäksi: ChatGPT on enemmän kuin ihmisaivot, sanoo futuristi

Kuitenkin huomio-operaatio törmää vähitellen kvadraattisen monimutkaisuuden ongelmaan, kun sanojen määrä kasvaa. Enemmän sanoja vaatii enemmän tiettyjä painoja tai parametreja huomio-operaation suorittamiseen.

Kuten kirjoittajat toteavat: "Transformer-lohko on tehokas työkalu sekvenssimallinnukseen, mutta se ei ole ilman rajoituksia. Yksi merkittävimmistä on laskennallinen kustannus, joka kasvaa nopeasti syöttösekvenssin pituuden kasvaessa."

Vaikka OpenAI ei ole vielä paljastanut ChatGPT:n ja GPT-4:n teknisiä yksityiskohtia, uskotaan, että niissä saattaa olla biljoona tai enemmän tällaisia parametreja. Näiden parametrien käyttäminen vaatii enemmän GPU-siruja Nvidialta, mikä nostaa laskentakustannuksia.

Tämän kvadraattisen laskennan kustannuksen vähentämiseksi Polin ja tiimi korvasivat huomion toiminnon niin kutsutulla "konvoluutiolla", joka on yksi vanhimmista tekoälyohjelmien operaatioista, joka on kehittynyt 1980-luvulta asti. Konvoluutio on yksinkertaisesti suodatin, joka voi poimia kohteita tiedoista, olipa kyseessä pikselit digitaalisessa valokuvassa tai sanat lauseessa.

Lisäksi:ChatGPT:n menestys saattaa johtaa haitalliseen salailuun tekoälyssä, sanoo tekoälyn uranuurtaja Bengio

Poli ja tiimi tekevät jonkinlaista yhdistelmää: he ottavat Stanfordin tutkijan Daniel Y. Fun ja tiimin tekemän työn, jossa sovelletaan konvoluutiofilttereitä sanajonoille, ja yhdistävät sen tutkija David Romeron ja hänen kollegoidensa työhön Vrije Universiteit Amsterdamissa, joka mahdollistaa ohjelman muuttaa suodattimen kokoa lennossa. Tämä joustava sopeutumiskyky vähentää ohjelman tarvitsemien kalliiden parametrien tai painojen määrää.

Tuloksena syntyy sekoitus, jossa konvoluutio voidaan soveltaa rajattomalle määrälle tekstiä ilman, että tarvitaan yhä enemmän parametreja kopioidakseen yhä enemmän dataa. Se on "huomiottoma" lähestymistapa, kuten kirjoittajat ilmaisevat.

"Hyena-operaattorit pystyvät merkittävästi kutistamaan laatueroa huomiomäärien ollessa suuret", kirjoittavat Poli ja tiimi, "saavuttaen samanlaisen hämmentyneisyyden ja seuraavat suorituskyvyn pienemmällä laskentabudjetilla." Hämmentyneisyys on tekninen termi, joka viittaa siihen, kuinka kehittynyt vastaus on, jonka ohjelma kuten ChatGPT tuottaa."

Jotta Hyenan kykyä voidaan osoittaa, testaavat kirjoittajat ohjelmaa sarjalla vertailukokeita, jotka määrittävät kuinka hyvä kieliohjelma on erilaisissa tekoälytehtävissä.

Lisäksi: 'Ohjelmistoalaan tapahtuu outoja uusia asioita', kertoo Stanfordin tekoälyprofessori Chris Ré

Yksi testi on The Pile, 2020 Eleuther.ai: n, voittoa tavoittelemattoman AI-tutkimusryhmän, kokoama 825 gigatavun tekstitietokokoelma. Tekstit on kerätty "korkealaatuisista" lähteistä, kuten PubMed, arXiv, GitHub, Yhdysvaltain patentti- ja tavaramerkkivirasto sekä muut, jotta lähteillä olisi tiukempi muoto kuin pelkästään Reddit-keskusteluilla, esimerkiksi.

Ohjelman keskeinen haaste oli tuottaa seuraava sana, kun annettiin joukko uusia lauseita syötteenä. Hyena-ohjelma kykeni saavuttamaan saman pistemäärän kuin OpenAI:n alkuperäinen GPT-ohjelma vuodelta 2018, 20% vähemmällä laskennallisella operaatioilla -- tutkijat kirjoittavat "ensimmäinen huomiottoman, konvoluutioarkkitehtuuri, joka vastaa GPT:n laatua" vähemmillä operaatioilla.

Seuraavaksi kirjoittajat testasivat ohjelman päättelytehtävissä, jotka tunnetaan nimellä SuperGLUE. Nämä tehtävät esiteltiin vuonna 2019 New Yorkin yliopiston, Facebook AI Researchin, Googlen DeepMind-yksikön ja Washingtonin yliopiston tutkijoiden toimesta.

Esimerkiksi, kun annetaan lause "Ruumiini loi varjon ruohon yli" ja kaksi vaihtoehtoa syystä, "aurinko nousi" tai "ruoho oli leikattu", ja pyydetään valitsemaan toinen vaihtoehdoista, ohjelman tulisi generoida "aurinko nousi" sopivaksi tulosteeksi.

Useissa tehtävissä Hyena-ohjelma saavutti pisteitä jotakuinkin samalla tasolla kuin GPT:n versio, vaikka se oli koulutettu vähemmällä kuin puolet koulutusdatan määrästä.

Lisäksi: Kuinka käyttää uutta Bingiä (ja miten se eroaa ChatGPT:stä)

Entistä mielenkiintoisempaa on mitä tapahtui, kun tekijät kasvattivat syötteen pituutta: enemmän sanoja tarkoitti parempaa suorituskyvyn paranemista. 2,048 "merkkiä", joita voit ajatella sanoiksi, Hyena tarvitsee vähemmän aikaa kielenkäyttötehtävän suorittamiseen kuin huomio-pohjainen lähestymistapa.

Kirjoittajat kertovat, että 64 000 merkillä "Hyena nopeutuu sataan kertaan" - satakertainen suorituskyvyn parannus.

Poli ja tiimi väittävät, että he eivät ole vain kokeilleet erilaista lähestymistapaa Hyenaan, vaan he ovat myös "murtaneet kvadraattisen esteen", aiheuttaen laadullisen muutoksen siinä, kuinka vaikeaa ohjelman on laskea tuloksia.

He väittävät, että myös merkittäviä muutoksia laadussa voi tapahtua myöhemmin: "Nelikanttisen esteen rikkomisesta tulee tärkeä askel kohti uusia mahdollisuuksia syväoppimiselle, kuten koko oppikirjojen käyttö kontekstina, pitkäkestoisen musiikin tuottaminen tai gigapikselin mittakaavan kuvien käsittely," he kirjoittavat.

Kyky käyttää suodatinta tehokkaammin tuhansien sanojen yli, kirjoittavat kirjoittajat, tarkoittaa käytännössä, ettei kyselyn "kontekstille" ole käytännössä rajoitusta kieliohjelmaan. Se voisi käytännössä muistaa tekstien tai aiempien keskustelujen elementtejä, jotka ovat hyvin kaukana nykyisestä keskustelun aiheesta - aivan kuten hyeenat metsästävät moneksi mailiksi.

Lisäksi: Parhaat AI-keskusteluohjelmat: ChatGPT sekä muita hauskoja vaihtoehtoja kokeiltavaksi

"Hyena operaattorit toimivat rajoittamattomassa kontekstissa," he kirjoittavat. "Niitä ei keinotekoisesti rajoiteta esimerkiksi paikallisuudella, ja ne voivat oppia pitkän matkan riippuvuuksia [inputin] elementtien välillä."

Lisäksi ohjelma voidaan soveltaa eri modaliteettien, kuten kuvien ja ehkä videoiden ja äänien, dataan.

On tärkeää huomata, että Hyena-ohjelma, jonka esitetään paperissa, on kokoluokaltaan pienempi verrattuna GPT-4:ään tai jopa GPT-3:een. Vaikka GPT-3:lla on 175 miljardia parametriä tai painoa, suurimmassa versiossa Hyenalla on vain 1,3 miljardia parametria. Siksi on vielä nähtävä, miten Hyena pärjää täydellisessä vertailussa GPT-3:n tai 4:n kanssa.

Mutta jos saavutettu tehokkuus säilyy suuremmat versiot Hyena-ohjelmasta, se voisi olla uudenlainen paradigma, joka on yhtä yleinen kuin huomio on ollut viime vuosikymmenen aikana.

Kuten Poli ja tiimi päättelevät: "Yksinkertaisemmat alle neliölliset suunnittelut kuten Hyena, jotka perustuvat joukkoon yksinkertaisia ohjaavia periaatteita ja arviointiin mekanistisessa tulkittavuusmittaristossa, voivat muodostaa pohjan tehokkaille suurille malleille."

Tämä uusi teknologia voisi puhaltaa pois GPT-4:n ja kaiken siihen liittyvän

Liittyvät artikkelit