音声AIはどこまで人間に近づける？セサミ社が挑む“不気味の谷”の先

CSMで変わる音声アシスタントの常識

近年、音声AIの進化がめざましく、“まるで人間と会話しているかのよう”と感じられる場面も増えてきました。しかし一方で、「声はリアルだけど不気味…」という違和感を抱く人も少なくありません。

本記事では、この「音声の不気味の谷」を超えるべく研究されているセサミ（Sesame）社の新技術「Conversational Speech Model（CSM）」の実態を掘り下げます。なぜ「こんなにリアルなのに違和感があるのか？」その答えを知れば、合成音声の未来と人間が感じる繊細な感覚を深く理解できるはずです。

CSMで変わる音声アシスタントの常識

リアルすぎる声はなぜ怖い？ CSMが切り拓く合成音声
CSM（Conversational Speech Model）：まとめ

リアルすぎる声はなぜ怖い？ CSMが切り拓く合成音声

ChatGPTとSesameの音声AIを比較してみた

編集部では色々と試してみましたが、発音の自然さに関しては、確かにSesameの方が優れていると感じました。しかし、話す内容の一貫性という点では、ChatGPTの方が安定しており、調べ物をする際には、現時点ではChatGPTの方が便利です。

ChatGPTのAIボイスモードと、セサミ社のCSMの、AI同士会話は以下のようなものです。

また、以下はGrok3のボイスモードと、セサミ社のCSMのAI同士の会話です。セサミ社のAIの方が自然な感じな応答に聞こえます。

音声の“不気味の谷”とは？

「不気味の谷」は、人間に非常に近い外見や音声に触れたとき、わずかな違いが強い違和感や不快感を引き起こす現象を指します。

もともとはロボット工学で提唱された概念ですが、音声合成やAIアシスタントの分野でも議論の的となっています。合成音声のクオリティは向上し続けている一方で、「ほとんど人間と変わらないのに、なぜか気味が悪い」と思われてしまうのは、この“不気味の谷”が原因です。

CSM（Conversational Speech Model）の技術的背景

セサミ社が研究・開発を進めるCSMは、テキストと音声の両方を統合的に処理する画期的なマルチモーダルモデルです。

主な特徴として、バックボーンとデコーダーという2つの自己回帰型トランスフォーマーを組み合わせ、膨大な英語音声データ（約100万時間）を活用して学習しています。この大規模データの活用により、従来モデルよりも高精度かつ自然な音声生成を可能にしている点が特筆すべきポイントです。

客観的・主観的評価の両面から見た成果

CSMは、単語誤り率（Word Error Rate）や話者の声質がどれほど似ているかを図る話者類似度（Speaker Similarity）などで、人間に迫るレベルの精度を示しています。さらに、新たに導入した同音異義語の区別や発音の一貫性といった指標でも好成績を収めています。

主観的な観点からは、比較評価（CMOS）で文脈のない音声サンプルでは合成音声と人間録音に大差がないとする結果が得られていますが、やはり物語性や文脈のある状況下では人間の録音が好まれる傾向が見られます。

これは「AI音声と人間の声の差はどこにあるのか」を改めて考えさせる、興味深い結果といえるでしょう。

多言語対応と感情表現の強化に向けて

現在、CSMの主な対応言語は英語ですが、今後は20以上の言語をカバーするための大規模データセットを構築し、さらに感情表現や抑揚などのリアルさを高める方針です。

セサミ社では、モデルのオープンソース化（Apache 2.0ライセンス）も計画中であり、多くの開発者コミュニティと協力しながら技術を進化させることを目指しています。音声AIの進化がどのようにグローバルに波及していくのか、業界全体が注目しているトピックでもあります。

ちなみに、Sesameの公式ウェブページでは「Lightweight eyewear」の開発が進められていることが示されており、採用ページでもハードウェア・エンジニアの募集が行われています。このことから、Sesameはメガネ型のAIデバイスを主力製品として展開する方針のようです。これは、MetaとRay-Banが共同開発しているスマートグラスの競合となる可能性が高いでしょう。

デモキャラクター「Maya」「Miles」の反響

CSMを搭載したデモキャラクター「Maya」や「Miles」は、高い表現力と親しみやすい会話スタイルでユーザーを魅了し、「初めて繰り返し話したい音声アシスタント」と高く評価されています。

The Vergeなどの海外メディアでも取り上げられ、Reddit上のコミュニティではOpenAIの音声技術をしのぐ可能性があるのではと議論されるほどです。技術面のみならず、ユーザー体験そのものを向上させる工夫が高く評価されているのが特徴的です。

今後の展望と課題

CSMは不気味の谷を超えるための重要な一歩ですが、完全に解決したわけではありません。特に文脈を伴う複雑な会話シナリオでは、まだ人間の声が勝る場合も多々あります。

セサミ社では多言語化や感情表現のさらなる強化、そして完全な双方向対話の実現を目指して研究開発を加速させる計画です。これらが進展すれば、私たちが普段何気なく使っている音声アシスタントが「本当の会話パートナー」へと変わっていく可能性が大いにあるでしょう。

CSM（Conversational Speech Model）：まとめ

音声の“不気味の谷”を超えることは、多くの人にとって「AIによる真のコミュニケーションとは何か」を考える大きなきっかけになるはずです。セサミ社のCSMは、その課題に真正面から取り組み、すでに目覚ましい成果をあげています。

完全にリアルな会話はまだ先の話かもしれませんが、CSMをはじめとした先端技術の発展が、私たちの社会や日常をどのように変えていくのか、今後も注視していきたいところです。

参考）Crossing the uncanny valley of conversational voice