OpenAI GPT-4 Saapuu maaliskuun puolivälissä 2023

Microsoftin Saksan CTO Andreas Braun vahvisti, että GPT-4 julkaistaan viikon sisällä 9. maaliskuuta 2023 ja se tulee olemaan multimodaalinen. Multimodaalinen tekoäly tarkoittaa, että se pystyy toimimaan useilla eri syötteillä, kuten videoilla, kuvilla ja äänellä.

Päivitetty: GPT-4 julkaistu 14. maaliskuuta 2023

OpenAI julkaisi GPT-4:n 14. maaliskuuta 2023. Se on multimodaalinen malli, joka hyväksyy kuva- ja tekstianalyysit.

Modaalinen on ilmaisu, jota käytetään koneoppimisessa kuvaamaan tekstiin liittyviä tulomuotoja, kuten ääntä, näköä, hajua jne.

OpenAI:n ilmoitus kuvasi GPT-4:n edistymisen mittakaavan:

”…vaikka se on monissa todellisissa tilanteissa vähemmän kyvykäs kuin ihmiset, se saavuttaa ihmistason suorituksia erilaisissa ammatillisissa ja akateemisissa mittareissa.

Esimerkiksi, se läpäisee simuloitua baaritenttiä suoriutuen noin kymmenen prosentin parhaimmiston joukossa; sen sijaan, GPT-3.5:n tulos oli noin kymmenen prosentin heikoimman ryhmän joukossa.

Olemme viimeisten kuuden kuukauden aikana parannelleet GPT-4:ää oppien vihollismielisistä testiohjelmista sekä ChatGPT:stä, mikä on johtanut parhaisiin tuloksiimme koskaan (vaikka kaukana täydellisyydestä) faktuaalisuudessa, ohjattavuudessa ja siitä, ettei se mene sääntöjen ulkopuolelle.”

Multimodaaliset suuret kielimallit

Annouksen suuri ydinsanoma on, että GPT-4 on multimodaalinen (SEO ennusti GPT-4 on multimodaalinen tammikuussa 2023).

Modaliteetti viittaa syötetyypin (tässä tapauksessa) suuren kielimallin käsittelemään tietoon.

Multimodaalinen voi kattaa tekstin, puheen, kuvat ja videon.

GPT-3 ja GPT-3.5 toimivat vain yhdessä puheenmuodossa, tekstissä.

Saksalaisen uutisraportin mukaan GPT-4 voi toimia ainakin neljässä tilassa, kuvissa, ääni (auditiiivinen), tekstissä ja videossa.

Dr. Andreas Braun, teknologiajohtaja Microsoft Saksa sanoo:

"Esittelemme GPT-4 ensi viikolla, siellä meillä on multimodaalisia malleja, jotka tarjoavat täysin erilaisia mahdollisuuksia - esimerkiksi videoita..."

Raportointi oli epäselvää GPT-4:stä, joten on epäselvää, oliko jaettu tieto multimodaalisuudesta specifiästi GPT-4:lle vai yleisesti.

Microsoftin johtava liiketoimintastrategiajohtaja Holger Kenn selitti multimodaliteetteja, mutta raportointi oli epäselvää, oliko hän viittaamassa GPT-4:n multimodaliteettiin vai multimodaliteettiin yleisesti.

Uskon, että hänen viittauksensa multimodaalisuuteen liittyivät nimenomaan GPT-4:ään.

Uutisraportti jakoi:

"Kenn selitti, mistä multimodaalinen tekoäly käsittelee, mikä voi kääntää tekstin ei vain vastaaviin kuviin, vaan myös musiikkiin ja videoon."

Toinen mielenkiintoinen asia on se, että Microsoft työskentelee "confidence metrics" -luottamusmittareiden parissa, jotta heidän tekoälynsä olisi luotettavampi perustuen tosiasioihin.

Microsoft Kosmos-1

Jotain, mikä ilmeisesti jäi raportoimatta Yhdysvalloissa, on se, että Microsoft julkaisi monimuotoisen kielimallin nimeltä Kosmos-1 maaliskuun alussa 2023.

Saksalaisen uutissivuston Heise.de:n raportin mukaan:

"...tiimi testasi esikoulutettua mallia erilaisilla testeillä, joissa saatiin hyviä tuloksia kuvien luokittelussa, kysymyksiin vastaamisessa kuvan sisällöstä, kuvien automaattisessa nimittämisessä, optisen tekstin tunnistamisessa ja puheen luomisessa."

…Visuaalinen päättely eli päätelmien tekeminen kuvien perusteella ilman kieltä tuntuu olevan tässä avaintekijä…”

Kosmos-1 on multimodaalinen modaali, joka yhdistää tekstin ja kuvien modaliteetit.

GPT-4 menee pidemmälle kuin Kosmos-1, koska se sisältää kolmannen moodin, video, ja näyttää myös sisältävän äänen moodin.

Toimii useissa eri kielissä

GPT-4 näyttää toimivan kaikilla kielillä. Sitä kuvataan kykenevän vastaanottamaan kysymyksen saksaksi ja vastaamaan italiaksi.

Se on melko outo esimerkki, koska kuka kysyisi kysymyksen saksaksi ja haluaisi vastauksen italiaksi?

Tämä on mitä vahvistettiin:

“…teknologia on kehittynyt niin pitkälle, että se käytännössä ”toimii kaikilla kielillä”: Voit kysyä kysymyksen saksaksi ja saada vastauksen italiaksi.

Multimodaalisuuden avulla Microsoft (-OpenAI) ”tekee mallit kattaviksi”.”

Uskon, että läpimurron pointti on, että malli ylittää kielirajat kyvyllään kerätä tietoa eri kielistä. Jos vastaus on italiaksi, malli tunnistaa sen ja pystyy antamaan vastauksen siltä kieleltä, jolla kysymys esitettiin.

Tämä tekisi siitä samankaltaisen kuin Googlen multimodaalinen tekoäly nimeltä MUM. MUMin sanotaan kykenevän antamaan vastauksia englanniksi tietoon, joka on olemassa vain toisella kielellä, kuten japaniksi.

GPT-4 Sovellukset

Ei ole tällä hetkellä ilmoitettu missä GPT-4 näyttäytyy. Mutta Azure-OpenAI mainittiin nimenomaan.

Google kamppailee pysyäkseen Microsoftin perässä integroimalla kilpailevaa teknologiaa omaan hakukoneeseensa. Tämä kehitys entisestään pahentaa käsitystä siitä, että Google jää jälkeen ja puuttuu johtajuutta kuluttajille suunnatun tekoälyn saralla.

Google integroi jo tekoälyä useisiin tuotteisiinsa, kuten Google Lensiin, Google Mapsiin ja muihin osa-alueisiin, joiden kanssa kuluttajat vuorovaikuttavat Googlen kanssa. Tämä lähestymistapa on hyödyntää tekoälyä apuvälineenä, auttamaan ihmisiä pienissä tehtävissä.

Tapa, jolla Microsoft toteuttaa sen, on näkyvämpi ja tämän seurauksena se kerää kaiken huomion ja vahvistaa kuvaa Googlen kamppailusta ja pyristelystä pysyä mukana.

Lue virallinen OpenAI GPT-4 julkaisuilmoitus täältä.

Lue alkuperäinen saksalainen raportointi täältä:

GPT-4 tulee ensi viikolla - ja se tulee olemaan multimodaalinen, kertoo Microsoft Saksa