OpenAI Devday: Mi mást jelentettek be a GPT-4 Turbo mellett?

Részletes bemutató az OpenAI DevDay-ről: Mit jelentett be a GPT-4 Turbo mellett?

By Sean Chen, 2023. november 10.

A 2023.11.06-án megrendezett OpenAI DevDay sajtótájékoztatón az OpenAI vezérigazgatója, Sam Altman ismét túlszárnyalta az OpenAI-t, új lehetőségeket teremtve az AI fejlesztők számára. Ebben a cikkben megvizsgáljuk, milyen vonzerőt jelent a GPT-4 Turbo a szoftverfejlesztők számára.

Az OpenAI 2023.11.06-án tartotta az OpenAI DevDay sajtótájékoztatót, miközben más nagy technológiai cégek még mindig próbálják utolérni a GPT-4 teljesítményét, az OpenAI vezérigazgatója, Sam Altman ismét túlszárnyalta az OpenAI-t, új lehetőségeket teremtve az AI fejlesztők számára, teljes mértékben bemutatva az OpenAI vezető szerepét a mesterséges intelligenciában.

A GPT-4 Turbo: Gyorsabb, nagyobb szövegmennyiség, és olcsóbb

A kontextus (Context) a „nagy nyelvi modellnek adott bemeneti utasítások és a párbeszéd” teljes szövegmennyiségét jelenti. Korábban a teljes szövegmennyiség legfeljebb 32 000 tokenig támogatta (és csak néhány fejlesztő számára volt elérhető), míg a GPT-4 Turbo akár 128 000 token teljes szövegmennyiséget is lehetővé tesz, ami azt jelenti, hogy egy 300 oldalas könyvet egyszerre lehet betáplálni a GPT-4 Turbo-ba, hogy a modell generáljon. A sebesség tekintetében a GPT-4 legnagyobb hátránya a lassúság volt, ami miatt a vállalatok még mindig inkább a GPT-3.5-öt használták a gyakorlati alkalmazások többségének megoldására. A GPT-4 Turbo ezt a problémát is megoldotta, a generálási sebesség közelít a GPT-3.5-höz, és gazdagítja a jövőbeni GPT-4 Turbo integrációs helyzeteket. A költségek tekintetében az előző GPT-4 verzióhoz képest a bemeneti utasítások díja kétszer olcsóbb (3x olcsóbb), míg a kimeneti szöveg díja is kétszer olcsóbb (2x olcsóbb).

Fejlesztőbarátabb függvényhívási (Function calling) funkció

Mi az a függvényhívás (Function calling)?

Az OpenAI az év elején bevezette a „függvényhívás” funkciót, amely lehetővé teszi a fejlesztők számára, hogy a GPT használata során egyedi programkód függvényeket hívjanak meg. Más szóval, lehetővé teszi, hogy az intelligens AI különféle API-khoz kapcsolódjon, jelentősen növelve az OpenAI által használható területeket. A modell erőteljes teljesítménye abban rejlik, hogy a fejlesztők több programutasítási felületet biztosítanak, a GPT pedig önállóan dönthet arról, melyik utasítást hívja meg, és megfelelő paramétereket használhat a végrehajtáshoz.

Példa: Egy intelligens érzékelő lámpa fejlesztője két utasítást biztosít: „szín beállítása” és „érzékelési időszak beállítása”. A szín beállítási utasítás paraméterei háromféle lehetnek: fehér fény, természetes fény és éjszakai fény. Amikor a GPT-nek beírják a következő utasítást: „Kérlek, állítsd be az éjszakai lámpához megfelelő fényt”, a GPT automatikusan a „szín beállítása” utasítást választja, és automatikusan a „éjszakai fény” paramétert használja, a döntési folyamat teljesen emberi beavatkozás nélkül történik. Korábban NLP technológiával kellett egyedi logikát írni a funkció eléréséhez, most azonban csak a GPT program hívásával érhető el.

Mit módosítottak most?

A mostani frissítés lehetővé teszi, hogy a GPT pontosabban megítélje, melyik utasítást és paramétert kell használni, miközben javítja, hogy a GPT csak egy utasítást hívhat meg egyszerre. Korábban, amikor a helyzet bonyolultabb volt, a fejlesztőknek külön programot kellett írniuk, hogy a függvény többször hívható legyen; a mostani frissítés lehetővé teszi, hogy a GPT egyszerre több utasítást hajtson végre, és az egyes utasítások eredményei átadhatók legyenek egymásnak. Például: a „Szokásom éjszaka felkelni és vizet inni, kérlek, állítsd be a megfelelő lámpa módot” utasítás esetén a GPT dönthet úgy, hogy a „szín beállítása” és az „érzékelési időszak beállítása” utasításokat hívja meg, és az „érzékelési időszak” paramétert „01:00 és 06:30 közötti időre” állítja, miközben a „szín beállítása” paramétert „éjszakai fényre” állítja.

Ezenkívül a nyelvi modellek korábbi válaszai „nem specifikus formátumú szövegként” jelentek meg, ha specifikus formátumú választ szerettünk volna, akkor a bemeneti utasításban kérni kellett, hogy „xml formátumban” válaszoljon; azonban a fejlesztők gyakran találkoztak azzal a problémával, hogy a válasz formátuma nem mindig volt xml, gyakran keveredett benne részleges szöveg, ami formátum átalakítási hibákat okozott. A GPT-4 Turbo most lehetővé teszi a fejlesztők számára a response_format paraméter beállítását, amely lehet xml vagy json, és más gyakori API visszatérési formátumok, így a program stabilitása magasabb.

Végül az OpenAI lehetővé teszi a felhasználók számára a Seed paraméter beállítását, amely meghatározza a GPT válaszainak véletlenszerűségét. E paraméter beállításával biztosítható, hogy a fejlesztők a nyelvi modell válaszait következetesen tartsák, így a fejlesztők nyugodtabbak lehetnek a tesztesetek írásakor (elkerülve, hogy a nyelvi modell hirtelen eltérő válaszokat adjon), növelve a program tesztelhetőségét és minőségét.

A fent említett két tartalom mellett, az alkalmazási forgatókönyvek bővítése szempontjából az Assistant API bevezetése a DevDay fő attrakciója.

Assistant API (Assistants API)

Korábban, ha a nagy nyelvi modellt generatív AI alkalmazások fejlesztésére akarták használni, LangChain és más harmadik fél csomagokat kellett használni, hogy a nagy nyelvi modell magasabb szintű képességeket kapjon, például: több nyelvi modell együttes használata, egyedi adatok kezelése, memória és ügynök (Agent, amely lehetővé teszi az AI számára a folyamatos feladatok végrehajtását, folyamatos döntéshozatali képességet), hogy bonyolultabb AI forgatókönyveket valósítsanak meg.

A DevDay-en bemutatott Assistant API integrálja a fent említett több képességet az hivatalos API-ba, megszüntetve a fejlesztők számára a harmadik fél csomagok integrálásával kapcsolatos különféle problémákat. Ez az első alkalom, hogy a hivatalos szervezet kilép a nagy nyelvi modell teljesítményének egyszerű optimalizálásából, és elkezdi felfedezni az „ügynök” alkalmazását. A hivatalos dokumentumok szerint „egy asszisztens egy célorientált AI, amely lehetővé teszi specifikus utasítások, külső adatok vagy különböző nyelvi modellek és eszközök használatát a feladatok végrehajtásához”.

Az új Assistant API több eszközt is tartalmaz, a fent említett „függvényhívás” mellett „kódértelmezőt” és „adatkeresést” is biztosít.

Kódértelmező (Code Interpreter)

A GPT-4 „kódértelmezője” lehetővé teszi, hogy a saját írású kód egy homokozó környezetben fusson (jelenleg csak a Python támogatott), korábban a mérnököknek a GPT-4 által írt kódot másolniuk és beilleszteniük kellett a saját fejlesztési környezetükbe tesztelés céljából, de az OpenAI által biztosított homokozó környezet elegendő ahhoz, hogy a GPT-4 önellenőrizze a kód helyességét, és az eredmények alapján fokozatosan módosítsa a kódot, amíg el nem éri a célt.

Azonban a kódértelmező szerepe messze túlmutat azon, hogy „a GPT-4 ellenőrizze a saját írású kód helyességét”, nagyobb jelentősége abban rejlik, hogy „a nagy nyelvi modell saját számítógéppel rendelkezik”, amely képes a legtöbb feladat végrehajtására. Most a nagy nyelvi modellek képesek utasítási programok formájában interakcióba lépni, bár a korlátozott homokozó környezetben a kódértelmező csak bizonyos harmadik fél csomagokat használhat, de elegendő a „Python programozási nyelv által jól kezelt feladatok” végrehajtásához, például: adatfeldolgozás és API hívás, valamint nagyobb kód fájlok olvasása, amelyeket a felhasználó biztosít. A homokozó környezet biztonsági szempontból megakadályozza, hogy a nagy nyelvi modell erőteljes képességeit visszaélésre használják, így bizonyos szintű biztonsági garanciát nyújt.

Adatkeresés (Retrieval)

Az „adatkeresés” lehetővé teszi a felhasználók számára, hogy saját adataikat feltöltsék (például: specifikus iparági adatok, termékinformációk vagy belső dokumentumok), és a nagy nyelvi modell ezekre az adatokra válaszoljon, alkalmazva azokat saját iparágukban vagy területükön. Ez a funkció a GPT-3 megjelenése óta a verseny középpontjában áll. A DevDay-en bemutatott adatkeresés az első alkalom, hogy a hivatalos szervezet natív megoldást kínál erre a funkcióra, például: vállalatok belső tudásbázisának létrehozására, mint AI projektmenedzser, AI rendszeranalitikus; az egészségügy, pénzügy és más területek ügyfélszolgálati robotjai, amelyek korábban bonyolult nyelvi feldolgozási technológiákat igényeltek, most a GPT-4 erőteljes nyelvi modelljével és az OpenAI hivatalos adatkeresési funkciójával a fejlesztők a kereskedelmi logikára, az adatok pontosságára és a részletek finomhangolására koncentrálhatnak. Ezenkívül a harmadik fél csomagok használatával szükséges vektoradatbázis, adatfeldolgozás vagy specifikus keresési algoritmusok az OpenAI hivatalos támogatásával nem igényelnek további fejlesztési eljárásokat és az ezekből eredő költségeket. Az OpenAI különösen hangsúlyozza, hogy az Assistant API használatával folytatott beszélgetések és fájlok nem lesznek felhasználva az OpenAI következő generációs modelljének képzésére.

Következtetés

Összességében az OpenAI nemcsak a modell hatékonyságának folyamatos optimalizálására törekszik, hanem a nagy nyelvi modell alkalmazási területeinek bővítésére is. Sam Altman azt mondta, hogy a GPT-5 rövid időn belül nem fog megjelenni, a jelenlegi GPT-4 pontossága mellett nem tűnik szükségesnek, hogy hatalmas költségeket fordítsanak egy nagyobb paraméterű nyelvi modell képzésére, ehelyett a GPT-4 teljesítményének, használhatóságának és bővíthetőségének növelése az OpenAI jelenlegi fókuszpontja; a fejlesztők, vállalatok és végfelhasználók számára pedig az erőteljesebb és a legtöbb helyzetben alkalmazható AI bevezetése a következő generációs digitális átalakulás középpontjává vált. Az OpenAI által létrehozott GPT olyan, mint a jövő technológiai világának agya, és hisszük, hogy a következő innovációk és fejlődések révén a mesterséges intelligencia még jobban fogja használni az eszközöket, „látni”, „hallani”, folyékonyan „beszélni” és „rajzolni”.

Részletes bemutató az OpenAI DevDay-ről: Mit jelentett be a GPT-4 Turbo mellett?

A GPT-4 Turbo: Gyorsabb, nagyobb szövegmennyiség, és olcsóbb

Fejlesztőbarátabb függvényhívási (Function calling) funkció

Mi az a függvényhívás (Function calling)?

Mit módosítottak most?

Assistant API (Assistants API)

Kódértelmező (Code Interpreter)

Adatkeresés (Retrieval)

Következtetés

TÖBB A BLOGUNKBÓL

Mi a különbség az URL és a domain között?

Ne felejtsd el a könyvelést utazás közben! Használd a „Szóval Könyvelés” alkalmazást, és könnyedén intézd a kiadásokat egy mondattal

Hogyan változtatja meg az AI az önkiszolgáló rendelés jövőjét?