Voltar

Exploração detalhada do OpenAI DevDay: O que foi lançado além do GPT-4 Turbo?

By Sean Chen, 10 de Novembro de 2023

官網文章_OpenAI_devDay_2023.png



No evento OpenAI DevDay realizado em 06/11/2023, o CEO da OpenAI, Sam Altman, mais uma vez superou a OpenAI, oferecendo novas possibilidades para desenvolvedores de IA. Através deste artigo, vamos entender o que torna o GPT-4 Turbo tão atraente para desenvolvedores de software.




A OpenAI realizou o evento OpenAI DevDay em 06/11/2023. Enquanto outras grandes empresas de tecnologia ainda estão tentando alcançar o desempenho do GPT-4, o CEO da OpenAI, Sam Altman, mais uma vez superou a OpenAI, oferecendo novas possibilidades para desenvolvedores de IA, demonstrando a liderança da OpenAI em inteligência artificial.

GPT-4 Turbo: Mais rápido, com maior capacidade de texto e mais barato

O contexto refere-se ao volume total de texto de "entrada de prompts e diálogo" para o modelo de linguagem. Anteriormente, o volume máximo suportado era de 32.000 tokens (disponível apenas para alguns desenvolvedores), enquanto o GPT-4 Turbo permite até 128.000 tokens, equivalente a inserir um livro de 300 páginas de uma só vez para o GPT-4 Turbo gerar conteúdo. Em termos de velocidade, a maior crítica ao GPT-4 era sua lentidão, consumindo muito tempo no processo de geração. Por isso, as empresas ainda preferiam usar o GPT-3.5 para resolver a maioria dos problemas práticos. O GPT-4 Turbo resolve essa questão, tornando a velocidade de geração próxima à do GPT-3.5, enriquecendo os cenários futuros de integração do GPT-4 Turbo. Em termos de custo, em comparação com a versão anterior do GPT-4, o custo dos prompts é três vezes mais barato, e o custo do texto gerado é duas vezes mais barato.


Função de chamada de função mais amigável para desenvolvedores


O que é chamada de função?

A OpenAI lançou a função de "chamada de função" no início deste ano, permitindo que desenvolvedores chamem funções de código personalizadas ao usar o GPT. Em outras palavras, permite que a IA inteligente se conecte a várias APIs, aumentando significativamente o campo de uso da OpenAI. O desempenho poderoso do modelo reside no fato de que, ao fornecer várias interfaces de comando do programa, o GPT pode decidir qual comando chamar e usar os parâmetros adequados para execução.

Exemplo: Um desenvolvedor de lâmpadas inteligentes fornece dois comandos: "definir cor" e "definir período de detecção". Os parâmetros do comando de definir cor são três: luz branca, luz natural e luz noturna. Ao inserir o prompt "Por favor, configure a lâmpada adequada para a noite", o GPT decide automaticamente usar o comando "definir cor" e usa automaticamente o parâmetro "luz noturna", sem necessidade de intervenção humana. Anteriormente, era necessário escrever lógica personalizada usando tecnologia NLP para alcançar essa funcionalidade, mas agora basta chamar o programa GPT.

O que foi modificado desta vez?

Esta atualização permite que o GPT julgue com mais precisão qual comando e parâmetro usar, além de melhorar o fato de que o GPT só podia chamar um comando por vez. No passado, quando o cenário era mais complexo, os desenvolvedores precisavam escrever programas adicionais para permitir múltiplas chamadas de função; esta atualização permite que o GPT execute vários comandos de uma só vez e que os resultados de cada comando sejam transmitidos entre si. Por exemplo, ao usar o prompt "Eu costumo acordar à meia-noite para beber água, por favor, configure o modo de lâmpada adequado", o GPT pode decidir chamar os comandos "definir cor" e "definir período de detecção", e definir o parâmetro "período de detecção" como "01:00 às 06:30", enquanto usa "definir cor" com o parâmetro "luz noturna".

Além disso, as respostas dos modelos de linguagem costumavam ser em "texto de formato não específico". Se desejasse uma resposta em formato específico, era necessário solicitar no prompt "por favor, responda em formato xml"; no entanto, os desenvolvedores frequentemente enfrentavam o problema de que o formato da resposta não era exatamente xml, frequentemente misturando texto puro, causando erros na conversão de formato. Desta vez, o GPT-4 Turbo permite que os desenvolvedores configurem o parâmetro response_format, que pode ser definido como xml ou json, entre outros formatos comuns de retorno de API, aumentando a estabilidade do programa.

Por fim, a OpenAI também permite que os usuários configurem o parâmetro Seed, que determina a aleatoriedade do conteúdo retornado pelo GPT. Com a configuração deste parâmetro, os desenvolvedores podem garantir que as respostas do modelo de linguagem permaneçam consistentes, proporcionando mais tranquilidade ao escrever casos de teste (evitando que o modelo de linguagem produza respostas diferentes repentinamente), aumentando a testabilidade e a qualidade do programa.


Além dos dois pontos mencionados acima, em termos de expansão de cenários de aplicação, o lançamento do Assistants API foi o destaque do DevDay.

Assistants API

No passado, para desenvolver aplicações de IA generativa usando modelos de linguagem, era necessário usar pacotes de terceiros como LangChain, que conferiam ao modelo de linguagem capacidades mais avançadas, como o uso de múltiplos modelos de linguagem, capacidade de dados personalizados, memória e agentes (permitindo que a IA execute tarefas contínuas e decisões contínuas), para completar aplicações de IA mais complexas.

O Assistants API lançado no DevDay integra várias capacidades mencionadas acima na API oficial, eliminando os problemas que os desenvolvedores enfrentavam ao integrar pacotes de terceiros. Esta é a primeira vez que a OpenAI sai do simples aprimoramento do desempenho do modelo de linguagem para explorar a aplicação de "agentes". A documentação oficial afirma que "um assistente é uma IA orientada por objetivos, que permite o uso de comandos específicos, uso de dados externos ou uso de diferentes modelos de linguagem e ferramentas para executar tarefas".


O novo Assistants API também possui várias ferramentas integradas, além da "chamada de função" mencionada acima, oferece "interpretador de código" e "recuperação de dados".


Interpretador de Código

O "interpretador de código" do GPT-4 permite que o código escrito por ele seja executado em um ambiente sandbox (atualmente suporta apenas Python). Anteriormente, os engenheiros precisavam copiar e colar o código escrito com a ajuda do GPT-4 em seu ambiente de desenvolvimento para testá-lo, mas o ambiente sandbox fornecido pela OpenAI é suficiente para que o GPT-4 revise se o código está correto e possa modificar o código gradualmente com base nos resultados da execução, até atingir o objetivo.

No entanto, a função do interpretador de código vai além de "permitir que o GPT-4 revise a correção do código que ele mesmo escreveu". Seu significado maior está em "permitir que o modelo de linguagem tenha seu próprio computador", que pode executar a maioria das tarefas. Agora, os modelos de linguagem podem interagir de forma programática, embora a execução em um ambiente sandbox limitado permita que o interpretador de código use apenas pacotes de terceiros específicos, mas é suficiente para executar "a maioria das tarefas que a linguagem Python é boa em lidar", como processamento de dados e chamadas de API, além de poder ler arquivos de código maiores fornecidos pelo usuário. Em termos de segurança, o ambiente sandbox evita que o poder do modelo de linguagem seja mal utilizado, garantindo um certo nível de segurança.



Recuperação de Dados

A "recuperação de dados" permite que os usuários façam upload de seus próprios dados (por exemplo, dados de um setor específico, informações de produtos ou documentos internos) e que o modelo de linguagem forneça respostas com base nesses dados, aplicando-se ao seu setor ou campo. Esta funcionalidade tem sido um ponto focal desde o lançamento do GPT-3. A recuperação de dados lançada no DevDay é a primeira solução nativa oferecida para essa funcionalidade, por exemplo, para permitir que empresas criem robôs de conhecimento interno, como gerentes de projeto de IA, analistas de sistemas de IA; em setores como saúde e finanças, robôs de atendimento ao cliente, que anteriormente exigiam técnicas complexas de processamento de linguagem para serem implementados. Agora, com o poderoso modelo de linguagem do GPT-4 e a funcionalidade de recuperação de dados fornecida oficialmente pela OpenAI, os desenvolvedores podem se concentrar na lógica de negócios, precisão dos dados e ajuste de detalhes. Além disso, o uso de bancos de dados vetoriais, processamento de dados em segmentos ou algoritmos de busca específicos, que antes eram necessários com pacotes de terceiros, não requerem mais esforço adicional com o suporte oficial da OpenAI, eliminando custos de desenvolvimento e suas despesas associadas. A OpenAI também enfatiza que as conversas e arquivos usados pelo Assistants API não serão usados para treinar o próximo modelo da OpenAI.



Conclusão

Em suma, além de otimizar continuamente a eficiência do modelo, a OpenAI continua a expandir as aplicações do modelo de linguagem. Sam Altman afirmou que o GPT-5 não será lançado em breve. Com a precisão atual do GPT-4, gastar custos adicionais para treinar um modelo de linguagem com mais parâmetros parece desnecessário. Em vez disso, melhorar o desempenho, a facilidade de uso e a escalabilidade do GPT-4 é o foco atual da OpenAI. Para desenvolvedores, empresas e consumidores finais, integrar IA mais poderosa e aplicável em diversos cenários tornou-se o foco da próxima geração de transformação digital. O GPT criado pela OpenAI é como o cérebro do mundo tecnológico futuro, e acreditamos que as próximas criações e avanços tornarão a inteligência artificial mais hábil em usar ferramentas, "ver", "ouvir" e comunicar-se fluentemente, além de "desenhar".

MAIS DO NOSSO BLOG

Contate-nos

CONTATE-NOS

Vamos conversar sobre suas ideias!

Impulsione seu negócio com seu parceiro digital inovador. Responderemos em até um dia útil. (GMT+8)