OpenAI Devday ngoài GPT-4 Turbo, còn ra mắt gì nữa?

Giới thiệu chi tiết về OpenAI DevDay: Ngoài GPT-4 Turbo còn có gì mới?

By Sean Chen, Ngày 10 tháng 11 năm 2023

Vào ngày 06/11/2023, tại sự kiện ra mắt OpenAI DevDay, CEO của OpenAI, Sam Altman, một lần nữa vượt qua chính mình, mở ra những khả năng mới cho các nhà phát triển AI. Qua bài viết này, chúng ta hãy cùng tìm hiểu sức hấp dẫn của GPT-4 Turbo đối với các nhà phát triển phần mềm.

OpenAI đã tổ chức sự kiện ra mắt OpenAI DevDay vào ngày 06/11/2023. Trong khi các công ty công nghệ lớn khác vẫn đang cố gắng bắt kịp hiệu suất của GPT-4, CEO của OpenAI, Sam Altman, một lần nữa vượt qua chính mình, mở ra những khả năng mới cho các nhà phát triển AI, thể hiện rõ vị thế dẫn đầu của OpenAI trong lĩnh vực trí tuệ nhân tạo.

GPT-4 Turbo: Nhanh hơn, xử lý lượng văn bản lớn hơn và rẻ hơn

Ngữ cảnh (Context) là tổng lượng văn bản được đưa vào mô hình ngôn ngữ lớn để tạo ra các phản hồi. Trước đây, tổng lượng văn bản tối đa hỗ trợ là 32,000 token (chỉ dành cho một số nhà phát triển), nhưng GPT-4 Turbo cho phép lên đến 128,000 token, tương đương với việc có thể nhập một cuốn sách 300 trang vào GPT-4 Turbo để mô hình tạo ra phản hồi. Về tốc độ, điểm yếu lớn nhất của GPT-4 trước đây là tốc độ chậm, thường mất nhiều thời gian trong quá trình tạo ra phản hồi, do đó các doanh nghiệp vẫn thường sử dụng GPT-3.5 để giải quyết phần lớn các vấn đề ứng dụng thực tế. GPT-4 Turbo đã giải quyết vấn đề này, giúp tốc độ tạo ra phản hồi gần với GPT-3.5, đồng thời làm phong phú thêm các tình huống tích hợp GPT-4 Turbo trong tương lai. Về chi phí, so với phiên bản trước của GPT-4, chi phí cho từ khóa rẻ hơn gấp ba lần (3x cheaper), và chi phí cho văn bản đầu ra cũng rẻ hơn gấp đôi (2x cheaper).

Chức năng gọi hàm (Function calling) thân thiện hơn với nhà phát triển

Chức năng gọi hàm (Function calling) là gì?

OpenAI đã phát hành chức năng "gọi hàm" vào đầu năm nay, cho phép các nhà phát triển khi sử dụng GPT có thể gọi đến các hàm mã tùy chỉnh. Nói cách khác, điều này cho phép AI thông minh kết nối với nhiều API khác nhau, tăng đáng kể khả năng sử dụng của OpenAI. Hiệu suất mạnh mẽ của mô hình này nằm ở chỗ, chỉ cần nhà phát triển cung cấp nhiều giao diện lệnh cho chương trình, GPT có thể tự quyết định gọi lệnh nào và sử dụng các tham số phù hợp để thực hiện.

Ví dụ: Nhà phát triển đèn thông minh cung cấp hai lệnh: "cài đặt màu sắc" và "cài đặt thời gian cảm ứng". Lệnh cài đặt màu sắc có ba tham số: ánh sáng trắng, ánh sáng tự nhiên và đèn ngủ. Khi nhập vào GPT từ khóa: "Hãy giúp tôi cài đặt đèn phù hợp cho buổi tối", GPT sẽ tự động quyết định sử dụng lệnh "cài đặt màu sắc" và tự động sử dụng tham số là "đèn ngủ", quá trình quyết định này hoàn toàn không cần sự tham gia của con người. Trước đây cần sử dụng công nghệ NLP để viết logic tùy chỉnh để đạt được chức năng này, giờ đây chỉ cần gọi chương trình GPT là có thể thực hiện được.

Đã thay đổi gì trong lần cập nhật này?

Lần cập nhật này cho phép GPT có thể xác định chính xác hơn lệnh và tham số nào cần sử dụng, đồng thời cải tiến GPT chỉ có thể gọi một lệnh một lần. Trước đây khi tình huống phức tạp hơn, nhà phát triển cần viết thêm chương trình để hàm thực hiện nhiều lần gọi; lần cập nhật này cho phép GPT thực hiện nhiều lệnh cùng lúc và cho phép kết quả của mỗi lệnh có thể truyền cho nhau. Ví dụ: Sử dụng từ khóa "Tôi thường thức dậy vào nửa đêm để bổ sung nước, hãy giúp tôi cài đặt chế độ đèn phù hợp", lúc này GPT có thể quyết định gọi hai lệnh "cài đặt màu sắc" và "cài đặt thời gian cảm ứng", và quyết định tham số "thời gian cảm ứng" là "từ 01:00 đến 06:30", đồng thời sử dụng "cài đặt màu sắc" với tham số là "đèn ngủ".

Ngoài ra, trước đây các phản hồi của mô hình ngôn ngữ đều là "văn bản không có định dạng cụ thể", nếu muốn phản hồi theo định dạng cụ thể, cần yêu cầu trong từ khóa "hãy phản hồi theo định dạng xml"; tuy nhiên, vấn đề mà các nhà phát triển thường gặp phải là: định dạng phản hồi không hoàn toàn là xml, thường xen lẫn một phần văn bản thuần túy, dẫn đến lỗi trong quá trình chuyển đổi định dạng. Lần này GPT-4 Turbo cho phép thiết lập tham số response_format, có thể thiết lập là xml hoặc json, các định dạng trả về API phổ biến, giúp chương trình ổn định hơn.

Cuối cùng, OpenAI cũng cho phép người dùng thiết lập tham số Seed, tham số này quyết định tính ngẫu nhiên của nội dung GPT trả về. Thông qua thiết lập tham số này, có thể đảm bảo rằng nhà phát triển giữ cho phản hồi của mô hình ngôn ngữ nhất quán, giúp nhà phát triển yên tâm hơn khi viết các trường hợp thử nghiệm (tránh việc mô hình ngôn ngữ đột nhiên tạo ra câu trả lời khác nhau), nâng cao khả năng kiểm thử và chất lượng của chương trình.

Ngoài hai nội dung phát hành trên, việc mở rộng ứng dụng là trọng tâm của DevDay.

API trợ lý (Assistants API)

Trước đây, nếu muốn sử dụng mô hình ngôn ngữ lớn để phát triển ứng dụng AI tạo sinh, cần sử dụng các gói bên thứ ba như LangChain, để cung cấp cho mô hình ngôn ngữ lớn các khả năng cao cấp hơn, ví dụ: sử dụng nhiều mô hình ngôn ngữ, khả năng tùy chỉnh dữ liệu, trí nhớ và đại lý (Agent, cho phép AI thực hiện các nhiệm vụ liên tục, khả năng quyết định liên tục), để hoàn thành các ứng dụng AI phức tạp hơn.

API trợ lý được phát hành tại DevDay tích hợp nhiều khả năng đã đề cập ở trên vào API chính thức, giúp nhà phát triển tránh được những rắc rối khi tích hợp các gói bên thứ ba. Đây cũng là lần đầu tiên chính thức vượt ra khỏi việc tối ưu hóa hiệu suất của mô hình ngôn ngữ lớn, chuyển sang khám phá ứng dụng của "đại lý". Tài liệu chính thức cho biết "một trợ lý là một AI hướng mục tiêu, cho phép sử dụng các lệnh cụ thể, sử dụng dữ liệu bên ngoài hoặc sử dụng các mô hình ngôn ngữ và công cụ khác nhau để thực hiện nhiệm vụ".

API trợ lý mới cũng tích hợp một số công cụ, ngoài "gọi hàm" đã đề cập, còn cung cấp "trình biên dịch mã" và "truy xuất dữ liệu".

Trình biên dịch mã (Code Interpreter)

Trình biên dịch mã của GPT-4 cho phép mã tự viết có thể chạy trong một môi trường sandbox (hiện chỉ hỗ trợ Python), trước đây các kỹ sư cần sao chép mã do GPT-4 hỗ trợ viết vào môi trường phát triển của mình để kiểm tra, nhưng môi trường sandbox do OpenAI cung cấp đủ để GPT-4 tự kiểm tra mã có đúng hay không, và có thể tự sửa mã từng bước dựa trên kết quả thực thi, cho đến khi đạt được mục tiêu.

Tuy nhiên, tác dụng của trình biên dịch mã lớn hơn nhiều so với "cho phép GPT-4 kiểm tra tính đúng đắn của mã tự viết", ý nghĩa lớn hơn là "cho phép mô hình ngôn ngữ lớn có máy tính riêng", máy tính có thể thực hiện hầu hết các nhiệm vụ. Hiện nay mô hình ngôn ngữ lớn có thể tương tác theo cách lập trình lệnh, mặc dù chạy trong môi trường sandbox bị giới hạn chỉ cho phép sử dụng các gói bên thứ ba cụ thể, nhưng cũng đủ để thực hiện "hầu hết các nhiệm vụ mà ngôn ngữ lập trình Python giỏi xử lý", ví dụ: xử lý dữ liệu và gọi API, và có thể đọc các tệp mã lớn do người dùng cung cấp. Về mặt bảo mật, môi trường sandbox có thể ngăn chặn việc lạm dụng khả năng mạnh mẽ của mô hình ngôn ngữ lớn, do đó có một mức độ bảo mật nhất định.

Truy xuất dữ liệu (Retrieval)

"Truy xuất dữ liệu" cho phép người dùng tải lên dữ liệu của mình (ví dụ: dữ liệu trong lĩnh vực công nghiệp cụ thể, thông tin sản phẩm hoặc tài liệu nội bộ) và cho phép mô hình ngôn ngữ lớn trả lời dựa trên các dữ liệu này, áp dụng trong ngành hoặc lĩnh vực của mình. Tính năng này từ khi GPT-3 ra đời đã là điểm nóng cạnh tranh của nhiều bên. Truy xuất dữ liệu được phát hành tại DevDay là lần đầu tiên cung cấp giải pháp gốc cho tính năng này, ví dụ: để doanh nghiệp xây dựng robot kiến thức nội bộ, như quản lý dự án AI, nhà phân tích hệ thống AI; trong lĩnh vực y tế, tài chính, các robot chăm sóc khách hàng, trước đây cần sử dụng công nghệ xử lý ngôn ngữ phức tạp để thực hiện, giờ đây với mô hình ngôn ngữ mạnh mẽ của GPT-4, và dưới sự hỗ trợ của tính năng truy xuất dữ liệu do OpenAI cung cấp, giúp nhà phát triển tập trung vào logic kinh doanh, độ chính xác của dữ liệu và điều chỉnh chi tiết. Ngoài ra, trước đây cần sử dụng các gói bên thứ ba cho cơ sở dữ liệu vector, xử lý phân đoạn dữ liệu hoặc thuật toán tìm kiếm cụ thể, dưới sự hỗ trợ của OpenAI chính thức, không cần phải xử lý thêm các quy trình phát triển trên và các chi phí phát sinh từ chúng. OpenAI cũng đặc biệt nhấn mạnh rằng các cuộc trò chuyện và tệp tin sử dụng API trợ lý sẽ không được sử dụng để đào tạo mô hình thế hệ tiếp theo của OpenAI.

Kết luận

Nhìn chung, OpenAI không chỉ liên tục tối ưu hóa hiệu suất của mô hình mà còn mở rộng ứng dụng của mô hình ngôn ngữ lớn. Sam Altman từng nói rằng GPT-5 sẽ không ra mắt trong thời gian ngắn, với độ chính xác hiện tại của GPT-4, việc chi thêm nhiều chi phí để đào tạo mô hình ngôn ngữ có tham số lớn hơn dường như không cần thiết, thay vào đó, việc nâng cao hiệu suất, tính dễ sử dụng và khả năng mở rộng của GPT-4 mới là trọng tâm hiện tại của OpenAI; và đối với các nhà phát triển, doanh nghiệp và người tiêu dùng cuối, việc tích hợp nhiều AI mạnh mẽ có thể áp dụng trong hầu hết các tình huống đã trở thành trọng tâm của chuyển đổi số thế hệ tiếp theo. GPT do OpenAI tạo ra giống như bộ não trong thế giới công nghệ tương lai, và chúng tôi tin rằng, những sáng tạo và tiến bộ tiếp theo sẽ làm cho trí tuệ nhân tạo giỏi hơn trong việc sử dụng công cụ, có thể "nhìn", "nghe" và nói chuyện một cách trôi chảy và "vẽ".

Giới thiệu chi tiết về OpenAI DevDay: Ngoài GPT-4 Turbo còn có gì mới?

GPT-4 Turbo: Nhanh hơn, xử lý lượng văn bản lớn hơn và rẻ hơn

Chức năng gọi hàm (Function calling) thân thiện hơn với nhà phát triển

Chức năng gọi hàm (Function calling) là gì?

Đã thay đổi gì trong lần cập nhật này?

API trợ lý (Assistants API)

Trình biên dịch mã (Code Interpreter)

Truy xuất dữ liệu (Retrieval)

Kết luận

THÊM TỪ BLOG CỦA CHÚNG TÔI

URL và Domain, có gì khác biệt?

Đi du lịch nước ngoài đừng quên ghi chép chi tiêu! Sử dụng ứng dụng "Nói Nói Ghi Chép" để dễ dàng quản lý chi phí du lịch chỉ với một câu nói

Với AI, tương lai của tự phục vụ gọi món sẽ ra sao?