人類は音声認識MCPクライアントを求めていた(はず)

買い物リスト、永遠の課題である。何千年も前から(多分)人類は買い物リストを管理するためのツールを作り続けてきたが、いまだ解決されていない。

他のご家庭がどうしているのか知らないが、我が家では現在Alexaを用いて音声入力で買い物リストの更新をしている。Alexaは(今のところ)ユーザーがスキルを自分で作成して公開することを許しており、うろ覚えだがテスティングフェーズに留めておくと自分のアカウントでのみスキルの使用が可能、とかだった気がする。これを利用して、以下のフローを構築している:

特定のウェイクワードを呼びかけてスキルを起動する うまく聞き取ってくれたら、買い物リストに追加したいものを呼びかける うまく聞き取ってくれたら、セルフホストしている自作の買い物リストアプリのWeb APIをスキル内で叩き、アイテムを追加する 2つめの「うまく聞き取ってくれたら」をクリアしたらそのあとのAPIを叩くところはこれまで失敗したことがないのでいいのだが、問題はこの2つの「うまく聞き取ってくれたら」である。特に最初のウェイクワードは、Alexaのビルトインの買い物リストが起動するのを避けるためにちょっと変なワードにしており、少し似た名前のアーティストの音楽が流れ始めてしまうなど、普通に使い勝手が悪くてつらい。

(Alexaのビルトインの買い物リストを使えばよい、と思われるかもしれないが、使い勝手など様々な点で自分で作ったリストアプリのほうが好ましい)

おそらく問題は(少なくとも)2つある:

Alexaの音声認識能力が低い ウェイクワードを呼びかけてから、具体的な指示をしないといけない で、昨今流行りのMCPをうまく使うと、少なくとも後者はいい感じに解決できそうだなと思ったのであった。言い換えると、人類が本当に求めているのは音声認識能力を備えたMCPクライアント兼スピーカーなのではないか?と。

これまで数えるほどのメーカーしか「スマートスピーカー」を製作・販売できなかったのは様々な技術的障害(特に音声データの収集の難しさ?)およびマネタイズの難しさがあったのではないかと想像するのだが、こと現代においてはデータ収集の問題はすでに各種LLMが解決しているのでは?という気がする。実際音声入力とChatGPTをつないで…のような話は聞いたことがある(し容易にあり得る)ので、すでに可能なはずなのだ。

これまでの「スマートスピーカー」の利点は、Google / Amazonのサービスとつながっていて、音楽を流せたりなんだり…というところもそれなりにあったと想像するが、これもMCPを使えば = たとえばSpotify MCPのようなものができたら、音楽にたどり着く経路ももっと柔軟なものになり得ると思う。

買い物リストも同じような発想でうまく解決できないか。MCPサーバーをどこに置くかが課題にはなりそうだが、音声認識MCPクライアントのメーカーがUGCプランみたいなものを作って、ユーザーがサーバーを書いてデプロイできるようにする、とか(もしくは既存のTODOリストを使いたければ、各TODOリストアプリがMCPを公開すればよさそう)。そうすればウェイクワードの使用を日常的に強制されることもきっとなくなる。

そして”音”を扱うことに長けたメーカーがこうしたデバイスを作れば、聞き取りの問題もぐっと縮小され、1つめの問題も解決に向かうはずだ。

こう考えるとAlexaのスキルやIFTTT経由の連携など、これまでのスマートスピーカーで採用されてきたある種の拡張機能というのは、まさにMCP的なことをしたくて各社・各ステークホルダー、そしてユーザーが色々知恵を絞ってきた結果、とも言えそうである。(それだけに、ある時点でGoogleがGoogle AssistantのIFTTTとの連携を打ち切ったことに対してはいまだ恨みが深いのだが) つまりみんながやりたいことは、昔から変わらないし、それはまだまだ実現できていないのだ。

もはやスマートスピーカーはビルトインの限定的な機能しか実質的に使えない、MCP以前のデバイス、といっても過言ではないような気がしてくる。 我が家ではとてもお世話になってきたが、そろそろ新しいものが登場すべきではないかな、と思っている。