WWDC24で発表されたSiriとApple Intelligenceについて

By Sean Chen, 2024年6月11日

Appleは最新のApple Intelligenceを発表しました。機能には、ライティング、音声からテキストへの変換と要約、スマートリプライ、ライティングツール、画像生成や絵文字生成などが含まれています。最も重要なのは、Siriがより本物の音声アシスタントに近づいたことです。

最初のいくつかのツールを紹介する際、Androidで既に存在する機能を紹介しているように見えました。

しかし、次世代のSiriを見ると、Appleの製品設計と統合能力の強さを再び感じることができます。

外部の予測とは異なり、純粋にGPT-4oを使用しているわけではない

今回のKeynoteと公式サイトの情報から、Apple Intelligenceのモデルとして純粋にGPT-4oを使用しているわけではないことがわかります。使用可能なデバイスであるA17 ProやMシリーズのハードウェアを見ると、Appleはデバイス内に小さな言語モデルや特定用途の画像生成モデルを組み込んでいるようです。また、最新のPrivate Cloud Compute技術を使用して、プライバシーを保護しながらApple IntelligenceやSiriがクラウドの大規模言語モデルを使用できるようにしています。

今回の生成型言語モデルは、Appleがスマートフォンでよく使われるシナリオに特化して訓練した新しいモデルのようです。OpenAIと協力したGPT-4oモデルは、複雑な論理問題を尋ねるなどのより高度なシナリオでのみ使用されます。これにより、Siriの背後にあるAIが「Apple製品の使用体験の向上」により集中し、このモデルがより集中し軽量化されます。異なるサービスを組み合わせることで、AppleはGenAIの追求におけるプレッシャーを軽減し、Microsoft CopilotがOS内でGenAIチャットボットを直接統合する機能に正面から対抗しています。

大規模言語モデルの開発において、Appleの目標はさまざまなLLMベンチマークを追求することではなく、製品自体に立ち返り、LLMが製品に役立つようにすることです。

しかし、2024年末までに、英語をサポートするAI Siriしか見られず、他の古いデバイスや非英語ユーザーは、LLMをサポートしない旧版のSiriを使用するしかないようです。この点で、Appleは大規模言語モデルの競争でOpenAI、Microsoft、Googleなどの主流の対象に遅れをとっています。また、他の言語をサポートする（または他の言語の精度を達成する）にはまだ距離があるようです。

しかし、全体として「使用体験」においては、現在の競合他社をリードしています。

「チャットボット」から「チャットボット+」へ、そして「体験」へ

現在の他のLLM市場の主要プレイヤーであるOpenAIのChatGPTは「チャットボット」のレベルにとどまっています。ChatGPTを超えるには、開発者にAPIを販売して統合するしかありません。GoogleのGemeniやMicrosoft PC上のCopilotも「チャットボット+」のレベルにあり、外部機能をさらに統合していますが、依然として市場で最もLLMの深い統合を実現できる可能性のあるプレイヤーです。他のハードウェア大手であるサムスンやアスースのAI能力は、「機能」の段階にとどまっているようです。例えば、画像検索、リアルタイム翻訳、AI修正や画像検索などです。

AppleのApple Intelligenceに関しては、LLMサービスを「体験」のレベルに引き上げたようです。AIが本当に「関連性」を持つようになり、「関連性」がある前提で、ユーザーが使用できるシナリオや機能の数が大幅に増加し、ほぼ無限に近づくことができます。これにより、AIアシスタントの理想を本当に実現することができます。まとめると、強力なAppleエコシステムの下で、他の言語モデルがどれだけ強力でも、Appleの「LLMをユーザーの生活に深く統合する」競争力を揺るがすことは難しいです。また、将来的に各LLMがユーザーの生活シナリオにより深く統合されることを期待しています。