返回

深入介绍 OpenAI DevDay:除了 GPT-4 Turbo 还发布了什么?

By Sean Chen, 2023年11月10日

官網文章_OpenAI_devDay_2023.png



在 2023年11月6日举办的 OpenAI DevDay 发布会上,OpenAI 首席执行官 Sam Altman 再次超越 OpenAI,为 AI 开发者带来了全新的可能性。通过本文,让我们一同了解这次的 GPT-4 Turbo 对于软件开发者究竟有何吸引力。




OpenAI 于 2023年11月6日举办 OpenAI DevDay 发布会,当其他大型科技公司还在努力追赶 GPT-4 性能的同时,OpenAI 首席执行官 Sam Altman 再次超越 OpenAI,为 AI 开发者带来了全新的可能性,充分展示了 OpenAI 在人工智能领域的领先地位。

强大的 GPT-4 Turbo:更快、更大的文本量,还更便宜

上下文(Context)指的是“输入给大语言模型提示词和往返对话”的总文本量,过去的总文本量最大支持到 32,000 个 Token(且仅供部分开发者使用),而 GPT-4 Turbo 允许高达 128,000 个 Token 的总文本量,相当于可以将一本 300 页的书一次输入给 GPT-4 Turbo,让模型进行生成。而在速度上,过去 GPT-4 最令人诟病的缺点就是速度慢,在等待生成的过程中常常耗费大量时间,所以企业仍较常使用 GPT-3.5 来解决实际应用上的大部分问题。因此 GPT-4 Turbo 也解决了该问题,让生成速度接近 GPT-3.5,也丰富了未来整合 GPT-4 Turbo 的场景。而在费用上,相较于前一个版本的 GPT-4,提示词的计费便宜了两倍(3x cheaper),而输出的文本计费也便宜了一倍(2x cheaper)。


对开发者更友好的函数调用(Function calling)功能


何谓函数调用(Function calling)?

OpenAI 在今年稍早发布了“函数调用”的功能,该功能能让开发者在使用 GPT 时,能调用到定制化的程序代码函数。换句话说,就是能让智能的 AI 连接到各种 API,大幅增加 OpenAI 能使用的场域。而该模型强大的性能在于,只要让开发者提供程序的多个指令接口,GPT 即可自行决定要调用哪个指令,还能使用适合的参数执行 。

举例:智能感应灯泡的开发者提供两个指令:“设置颜色”和“设置感应的时段”设置颜色指令的参数有三种:白光、自然光和小夜灯。当对 GPT 输入提示词:“请帮我设置适合的夜晚的灯泡”GPT 就会自动决定使用“设置颜色”这个指令,并自动使用参数为“小夜灯”,该决策过程完全不需要人为参与。过去需要用 NLP 技术撰写定制化逻辑来达到该功能,如今只使用调用 GPT 程序即可达成。

这次修改了什么?

这次的更新,让 GPT 能更精准的判断应该使用哪个指令和参数,同时改进 GPT 只能一次调用一个指令。以往当情境较为复杂,开发者需要另外撰写程序让函数进行多次调用;这次的更新让 GPT 能一次执行多个指令,并让每次指令得到的结果能互相传递。例如:使用提示词“我习惯半夜起床补充水分,请帮我设置适合的灯泡模式”这时候 GPT 就可决定调用“设置颜色”和“设置感应的时段”两个指令,并决定“感应时段”参数为“时间 01:00 至 06:30”,同时使用“设置颜色”且参数为“小夜灯”。

另外,语言模型以往的回复皆以“非特定格式的文本为回复内容”,如果希望回复特定格式,则需要在提示词中要求“请以xml 格式”回复;然而,开发者常常遇到的问题为:回复格式不尽然是 xml,时常会参杂部分的纯文本,导致在格式转换上发生错误。而这次 GPT-4 Turbo 允许开发设置参数 response_format,可设置为 xml 或 json 等常见的 API 返回格式,让程序的稳定度更高。

最后,OpenAI 也允许用户设置 Seed 参数,该参数决定 GPT 返回内容的随机性。通过该参数的设置,可以确保开发者让语言模型的返回保持一致性,让开发者在撰写测试案例时能更安心(避免语言模型突然产出不一样的答案),提高程序的可测试性和质量。


除了以上发布的两点内容,以应用场景的扩展而言,助理 API 的发布才是 DevDay 的重头戏 。

助理 API(Assistants API)

过去如想利用大语言模型来开发生成式 AI 应用,需要使用 LangChain 等第三方套件,赋予大语言模型更高阶的能力,例如:多语言模型并用、定制化数据的能力、记忆力和代理人(Agent,让 AI 能执行连续任务、连续决策的能力),以完成更复杂的 AI 场景应用。

而 DevDay 上发布的助理 API,将上述提及的多项能力整合到官方的 API 中,省去开发者在整合第三方套件上遇到的种种麻烦。这也是官方首次跳出单纯优化大语言模型的效能,转而开始探索“代理人”的应用。官方文件指出“一个助理是一个目标导向的 AI,这个 AI 允许使用特定的指令、使用外部的数据或使用不同语言模型和工具来执行任务”。


新的助理 API 也内建数个工具,除了上述的“函数调用”,也提供了“代码编译器”和“数据检索”。


代码编译器(Code Interpreter)

GPT-4 的“代码编译器”允许自己撰写的代码能够在一个沙盒环境中执行(目前仅支持 Python),以往工程师取得 GPT-4 协助撰写的代码后,需要复制粘贴在自己的开发环境中测试,而 OpenAI 提供的沙盒环境,就足以让 GPT-4 自我检视代码是否正确,并且能针对执行后的结果,逐步自我修改代码,直到达到目标为止。

然而,代码编译器的作用远大于“让 GPT-4 检视自己撰写代码的正确性”其更大的意义在于:“让大语言模型拥有自己的电脑”电脑则是能执行大部分的任务。现在大语言模型都能以指令程序的方式去互动,虽然执行在受限的沙盒环境让代码编译器只能使用特定的第三方套件,但也足以执行“大部分 Python 程序语言善于处理的任务”例如:数据处理和 API 调用,并能读取用户提供的较大的代码文件等。沙盒环境以安全性而言,能避免让大语言模型的强大能力被滥用,也因此在安全性上有一定的保障。



数据检索(Retrieval)

“数据检索”让用户可以上传自己的数据(例如:特定产业领域数据、产品信息或是内部文件)并使大语言模型可针对这些数据作进行回答,应用在自己的产业或领域,此项功能从 GPT-3 问世后,一直是百家争鸣的重点。在 DevDay 上发布的数据检索,是官方首次对此功能提供原生的解决方案,例如:要让企业建立内部知识的机器人,像是 AI 项目经理、AI 系统分析师;于医疗、金融等领域的客服机器人,在过去都需要使用复杂的语言处理技术才能实践,如今有了 GPT-4 强大的语言模型,且在 OpenAI 的官方提供的数据检索功能下,让开发者能专注在商业逻辑、数据正确性和细节的调校。此外,过去使用第三方套件需要的向量数据库、数据分段处理或特定搜索算法,在 OpenAI 官方的支持下,均无需额外费工处理以上的开发程序及其衍生的费用。OpenAI 也特别强调助理 API 使用的对话和文件,都不会被用来训练 OpenAI 下一代的模型。



结语

整体而言,OpenAI 除了不断优化模型的效率,亦持续地扩展大语言模型的应用。Sam Altman 曾说 GPT-5 短时间内不会问世,以目前 GPT-4 的精准度,额外花费大量成本训练更大参数的语言模型看起来必要性似乎不高,相对地提高 GPT-4 的效能、易用性和可扩展性,才是目前 OpenAI 当下专注的重点;而对开发者、企业和终端消费者而言,导入更多强大并且能在多数场景应用的 AI,已成为下一世代数字转型的重点。OpenAI 所创造出的 GPT,就如同未来科技世界中的大脑,而我们相信,接下来的创造与进步,会使得人工智能更擅长于使用工具、且能“看”、能“听”和流畅地“说”和“画”。

更多博客内容

联系我们

联络我们

让我们谈谈你的想法!

与您的创新数字合作伙伴一起启动您的业务。我们将在一个工作日内回复。(GMT+8)