聊聊剛發佈的 WWDC24 - Siri with Apple Intelligence

By Sean Chen, 2024年6月11日

Apple 剛發佈了最新的 Apple Intelligence，功能包含了寫作、語音轉文字及總結、智慧回覆、寫作工具、圖片生成或表情符號生成等，而最重要的是，讓 Siri 變得更接近真正的語音助理。

在介紹前面幾個工具時，乍看之下，就像 Apple 又再度發揮擠牙膏大法，介紹一些 Android 早有的不痛不癢功能。

但當看到下一代的 Siri 時，才會又感受到 Apple 對於自身產品的強大設計和整合能力。

並非如外界猜測的純粹使用 GPT-4o

從這次發布的 Keynote 和官網的資訊來看，並不像外界原先猜測的純粹使用 GPT-4o 作為 Apple Intelligence 的模型。從能使用的機種 A17 Pro 及 M 系列硬體來看，看起來這次 Apple 是在裝置內放入了小語言模型或特定用途的圖片生成模型。並同時使用其最新的 Private Cloud Compute 技術，在保障隱私的條件下，讓 Apple Intelligence 或是 Siri 使用雲端的大語言模型。

看起來這次的生成式語言模型是 Apple 針對手機內常用的情境，特化訓練出的新模型。而跟 OpenAI 合作的 GPT-4o 模型，只有使用在更進階的情境，例如：詢問複雜邏輯問題等。這也能讓 Siri 背後的 AI 更專注在提升「使用 Apple 產品的體驗」，讓這個模型更專注也更輕量化。混合不同的服務減輕了 Apple 在追趕 GenAI 的壓力，也同時正面迎擊 Microsoft Copilot 在 OS 內直接整合 GenAI Chatbot 的功能。

在開發大語言模型的路上，Apple 看起來目標不是在追逐各種 LLM Benchmark，而是回歸到產品本身，讓 LLM 服務產品，而不是一昧地追求 LLM 的效能及多模態的能力。

不過在 2024 年底前，只看到能支援英文的 AI Siri，其他舊型裝置或是非英語使用者，看起來還是只能使用舊版沒有支援 LLM 的 Siri。就此而論在大語言模型的賽跑上，Apple 也還是落後主流對象像 OpenAI, Microsoft 或 Google，而且看起來要支援其他語言（或是說讓其他語言的精準度達標）似乎還有一段距離。

但整體而言，在「使用體驗」上仍會領先目前的對手。

從「ChatBot」到「ChatBot+」到「體驗」

以目前其他 LLM 市場的主要玩家：OpenAI 的 ChatGPT 停留在「ChatBot」的層級，要走出 ChatGPT 目前只能靠賣 API 給開發者做整合。Google 的 Gemeni 和 Microsoft PC 上的 Copilot 目前也是在「ChatBot+」的層級，也就是 ChatBot 再多整合一下外部功能，不過依舊是是市場上最有可能做到 LLM 深度整合的玩家。其他間硬體大廠如三星和華碩的 AI 能力，似乎都還停留在「功能」的階段，例如：圈圖搜尋、即時翻譯、AI 修圖或圖片搜尋。

以 Apple 的 Apple Intelligence 而言，似乎已經讓 LLM 服務提升到「體驗」的層級，讓 AI 做到真正的「相關」（relavent），在有做到 “relavent” 的前提下，使用者能使用的情境或是功能的數量才會大幅提升，甚至趨近於無限，也才能真正實踐 AI 助理的理想。總結而言，在強大的 Apple 生態系底下，其他的語言模型再強大也很難撼動 Apple 「讓 LLM 深入整合到使用者生活」的競爭力，也期待未來各家 LLM 能更深度整合到使用者的生活情境。