OpenAI Devday: Що ще було представлено, окрім GPT-4 Turbo?

Детальний огляд OpenAI DevDay: що ще було представлено крім GPT-4 Turbo?

By Sean Chen, 10 листопада 2023 р.

На конференції OpenAI DevDay, яка відбулася 06.11.2023, генеральний директор OpenAI Сем Альтман знову перевершив очікування, надавши розробникам AI нові можливості. У цій статті ми розглянемо, чим саме GPT-4 Turbo приваблює розробників програмного забезпечення.

OpenAI провела конференцію OpenAI DevDay 06.11.2023, і поки інші великі технологічні компанії намагаються наздогнати продуктивність GPT-4, генеральний директор OpenAI Сем Альтман знову перевершив очікування, надавши розробникам AI нові можливості, що підтверджує лідерство OpenAI у сфері штучного інтелекту.

Вражаючий GPT-4 Turbo: швидше, більше тексту і дешевше

Контекст означає загальний обсяг тексту, що вводиться в модель великої мови, включаючи підказки та діалоги. Раніше максимальний обсяг тексту підтримував до 32,000 токенів (і був доступний лише для деяких розробників), а GPT-4 Turbo дозволяє до 128,000 токенів, що еквівалентно можливості ввести книгу на 300 сторінок в GPT-4 Turbo для генерації. Щодо швидкості, основним недоліком GPT-4 була повільність, що витрачало багато часу на генерацію, тому компанії частіше використовували GPT-3.5 для вирішення більшості практичних завдань. GPT-4 Turbo вирішує цю проблему, забезпечуючи швидкість генерації, близьку до GPT-3.5, що розширює можливості інтеграції GPT-4 Turbo в майбутньому. Щодо вартості, у порівнянні з попередньою версією GPT-4, вартість підказок зменшилася втричі, а вартість вихідного тексту - вдвічі.

Більш дружня до розробників функція виклику функцій (Function calling)

Що таке виклик функцій (Function calling)?

OpenAI раніше цього року випустила функцію "виклик функцій", яка дозволяє розробникам викликати кастомізовані функції коду при використанні GPT. Іншими словами, це дозволяє інтелектуальному AI підключатися до різних API, значно розширюючи можливості використання OpenAI. Потужність цієї моделі полягає в тому, що розробники можуть надати кілька інтерфейсів команд програми, і GPT може самостійно вирішити, яку команду викликати, а також використовувати відповідні параметри для виконання.

Приклад: розробник розумної лампочки надає дві команди: "встановити колір" і "встановити час сенсора". Параметри команди встановлення кольору включають три варіанти: біле світло, природне світло та нічник. Коли GPT вводиться підказка: "Будь ласка, встановіть відповідну лампочку для ночі", GPT автоматично вирішує використовувати команду "встановити колір" і автоматично вибирає параметр "нічник", цей процес прийняття рішень не вимагає людського втручання. Раніше для досягнення цієї функції потрібно було писати кастомізовану логіку за допомогою технології NLP, тепер це можна зробити, просто викликавши програму GPT.

Що було змінено цього разу?

Це оновлення дозволяє GPT точніше визначати, яку команду та параметри слід використовувати, одночасно покращуючи можливість GPT викликати лише одну команду за раз. Раніше, коли ситуація була складнішою, розробники повинні були писати додатковий код для багаторазового виклику функцій; це оновлення дозволяє GPT виконувати кілька команд одночасно, і результати кожної команди можуть передаватися один одному. Наприклад: використовуючи підказку "Я звик прокидатися вночі, щоб поповнити запаси води, будь ласка, встановіть відповідний режим лампочки", GPT може вирішити викликати команди "встановити колір" і "встановити час сенсора", і визначити параметр "час сенсора" як "01:00 до 06:30", одночасно використовуючи "встановити колір" з параметром "нічник".

Крім того, раніше відповіді мовної моделі завжди були у вигляді "тексту без специфічного формату", якщо потрібно було отримати відповідь у специфічному форматі, потрібно було вказати у підказці "будь ласка, відповідайте у форматі xml"; однак, розробники часто стикалися з проблемою, що формат відповіді не завжди був xml, часто містив частини простого тексту, що призводило до помилок при перетворенні формату. Це оновлення GPT-4 Turbo дозволяє розробникам налаштовувати параметр response_format, який може бути встановлений як xml або json, що є поширеними форматами відповіді API, підвищуючи стабільність програми.

Нарешті, OpenAI також дозволяє користувачам налаштовувати параметр Seed, який визначає випадковість вмісту, що повертається GPT. Завдяки налаштуванню цього параметра, розробники можуть забезпечити узгодженість відповідей мовної моделі, що дозволяє розробникам бути більш впевненими при написанні тестових випадків (уникаючи ситуацій, коли мовна модель раптово видає різні відповіді), підвищуючи тестованість і якість програми.

Крім двох вищезазначених пунктів, розширення сценаріїв застосування, випуск Assistant API є основною подією DevDay.

Assistant API (API Асистентів)

Раніше для розробки генеративних AI-додатків з використанням великих мовних моделей потрібно було використовувати сторонні пакети, такі як LangChain, щоб надати великим мовним моделям більш високі можливості, наприклад: використання кількох мовних моделей одночасно, можливість кастомізації даних, пам'ять і агенти (Agent, що дозволяє AI виконувати безперервні завдання, приймати безперервні рішення), щоб реалізувати більш складні AI-сценарії.

На DevDay був випущений Assistant API, який інтегрує кілька з вищезазначених можливостей в офіційний API, усуваючи труднощі, з якими розробники стикалися при інтеграції сторонніх пакетів. Це також перший раз, коли офіційно виходять за межі простого оптимізації продуктивності великих мовних моделей, починаючи досліджувати застосування "агентів". Офіційна документація зазначає, що "асистент - це цілеспрямований AI, який дозволяє використовувати специфічні команди, використовувати зовнішні дані або використовувати різні мовні моделі та інструменти для виконання завдань".

Новий Assistant API також має вбудовані кілька інструментів, крім вищезазначеного "виклику функцій", також надає "компілятор коду" та "пошук даних".

Компілятор коду (Code Interpreter)

"Компілятор коду" GPT-4 дозволяє виконувати написаний код у пісочниці (наразі підтримується лише Python), раніше інженери, отримавши допомогу GPT-4 у написанні коду, повинні були копіювати та вставляти його у своєму середовищі розробки для тестування, але пісочниця, надана OpenAI, дозволяє GPT-4 самостійно перевіряти правильність коду, а також поступово самостійно змінювати код на основі результатів виконання, доки не буде досягнуто мети.

Однак, значення компілятора коду набагато більше, ніж "дозволити GPT-4 перевіряти правильність свого коду", його більше значення полягає в тому, що "велика мовна модель має свій комп'ютер", комп'ютер, який може виконувати більшість завдань. Зараз великі мовні моделі можуть взаємодіяти у вигляді командного програмування, хоча виконання в обмеженій пісочниці дозволяє компілятору коду використовувати лише специфічні сторонні пакети, але цього достатньо для виконання "більшості завдань, які Python добре обробляє", наприклад: обробка даних та виклики API, а також читання великих файлів коду, наданих користувачем. Пісочниця з точки зору безпеки дозволяє уникнути зловживання потужними можливостями великих мовних моделей, забезпечуючи певний рівень безпеки.

Пошук даних (Retrieval)

"Пошук даних" дозволяє користувачам завантажувати свої дані (наприклад: дані з певної галузі, інформацію про продукти або внутрішні документи) і дозволяє великій мовній моделі відповідати на питання, пов'язані з цими даними, застосовуючи їх у своїй галузі або сфері. Ця функція була основним предметом суперечок з моменту появи GPT-3. На DevDay був представлений пошук даних, що є першим офіційним рішенням для цієї функції, наприклад: для створення корпоративного внутрішнього знання робота, як AI-проектний менеджер, AI-системний аналітик; у медичних, фінансових та інших галузях, де потрібні складні технології обробки мови для реалізації, тепер з потужною мовною моделлю GPT-4 та офіційною функцією пошуку даних від OpenAI, розробники можуть зосередитися на бізнес-логіці, точності даних та налаштуванні деталей. Крім того, раніше використання сторонніх пакетів вимагало векторних баз даних, обробки даних або специфічних алгоритмів пошуку, з підтримкою OpenAI, більше не потрібно витрачати зусилля на ці розробки та їх супутні витрати. OpenAI також особливо підкреслює, що діалоги та файли, використані в Assistant API, не будуть використовуватися для навчання наступного покоління моделей OpenAI.

Висновок

Загалом, OpenAI не лише постійно оптимізує ефективність моделей, але й продовжує розширювати застосування великих мовних моделей. Сем Альтман сказав, що GPT-5 не з'явиться найближчим часом, з поточною точністю GPT-4, додаткові витрати на навчання моделі з більшими параметрами здаються не дуже необхідними, натомість підвищення продуктивності, зручності використання та масштабованості GPT-4 є основним фокусом OpenAI на даний момент; для розробників, компаній та кінцевих споживачів впровадження більш потужного AI, здатного застосовуватися в більшості сценаріїв, стало ключовим моментом наступного покоління цифрової трансформації. GPT, створений OpenAI, подібний до мозку у світі майбутніх технологій, і ми віримо, що наступні інновації та прогрес зроблять штучний інтелект більш здатним використовувати інструменти, "бачити", "чути" та плавно "говорити" і "малювати".

Детальний огляд OpenAI DevDay: що ще було представлено крім GPT-4 Turbo?

Вражаючий GPT-4 Turbo: швидше, більше тексту і дешевше

Більш дружня до розробників функція виклику функцій (Function calling)

Що таке виклик функцій (Function calling)?

Що було змінено цього разу?

Assistant API (API Асистентів)

Компілятор коду (Code Interpreter)

Пошук даних (Retrieval)

Висновок

БІЛЬШЕ З НАШОГО БЛОГУ

Чим відрізняються URL та домен?

Не забувайте записувати витрати під час подорожей! Використовуйте додаток «Говори та записуй витрати», щоб легко впоратися з витратами під час подорожей

З AI, яким буде майбутнє самообслуговування в ресторанах?