音声AIはどこまで人間に近づける? セサミ社が挑む“不気味の谷”の先

AI活用ブログ
AI活用ブログ

CSMで変わる音声アシスタントの常識

近年、音声AIの進化がめざましく、“まるで人間と会話しているかのよう”と感じられる場面も増えてきました。しかし一方で、「声はリアルだけど不気味…」という違和感を抱く人も少なくありません。

本記事では、この「音声の不気味の谷」を超えるべく研究されているセサミ(Sesame)社の新技術「Conversational Speech Model(CSM)」の実態を掘り下げます。なぜ「こんなにリアルなのに違和感があるのか?」その答えを知れば、合成音声の未来と人間が感じる繊細な感覚を深く理解できるはずです。


今なら助成金活用で最大75%OFFと大変お得にご利用いただける、AI・ChatGPT活用研修サービスがご好評をいただいています。ご興味のある方は以下のリンクから、助成金の活用方法やサービス内容が分かる資料をダウンロードいただけます。

AI・ChatGPT活用研修サービスの紹介資料ダウンロードはこちら(無料)

リアルすぎる声はなぜ怖い? CSMが切り拓く合成音声

ChatGPTとSesameの音声AIを比較してみた

編集部では色々と試してみましたが、発音の自然さに関しては、確かにSesameの方が優れていると感じました。しかし、話す内容の一貫性という点では、ChatGPTの方が安定しており、調べ物をする際には、現時点ではChatGPTの方が便利です。

ChatGPTのAIボイスモードと、セサミ社のCSMの、AI同士会話は以下のようなものです。

また、以下はGrok3のボイスモードと、セサミ社のCSMのAI同士の会話です。セサミ社のAIの方が自然な感じな応答に聞こえます。

音声の“不気味の谷”とは?

「不気味の谷」は、人間に非常に近い外見や音声に触れたとき、わずかな違いが強い違和感や不快感を引き起こす現象を指します。

もともとはロボット工学で提唱された概念ですが、音声合成やAIアシスタントの分野でも議論の的となっています。合成音声のクオリティは向上し続けている一方で、「ほとんど人間と変わらないのに、なぜか気味が悪い」と思われてしまうのは、この“不気味の谷”が原因です。

CSM(Conversational Speech Model)の技術的背景

セサミ社が研究・開発を進めるCSMは、テキストと音声の両方を統合的に処理する画期的なマルチモーダルモデルです。

主な特徴として、バックボーンとデコーダーという2つの自己回帰型トランスフォーマーを組み合わせ、膨大な英語音声データ(約100万時間)を活用して学習しています。この大規模データの活用により、従来モデルよりも高精度かつ自然な音声生成を可能にしている点が特筆すべきポイントです。

客観的・主観的評価の両面から見た成果

CSMは、単語誤り率(Word Error Rate)や話者の声質がどれほど似ているかを図る話者類似度(Speaker Similarity)などで、人間に迫るレベルの精度を示しています。さらに、新たに導入した同音異義語の区別や発音の一貫性といった指標でも好成績を収めています。

主観的な観点からは、比較評価(CMOS)で文脈のない音声サンプルでは合成音声と人間録音に大差がないとする結果が得られていますが、やはり物語性や文脈のある状況下では人間の録音が好まれる傾向が見られます。

これは「AI音声と人間の声の差はどこにあるのか」を改めて考えさせる、興味深い結果といえるでしょう。

多言語対応と感情表現の強化に向けて

現在、CSMの主な対応言語は英語ですが、今後は20以上の言語をカバーするための大規模データセットを構築し、さらに感情表現や抑揚などのリアルさを高める方針です。

セサミ社では、モデルのオープンソース化(Apache 2.0ライセンス)も計画中であり、多くの開発者コミュニティと協力しながら技術を進化させることを目指しています。音声AIの進化がどのようにグローバルに波及していくのか、業界全体が注目しているトピックでもあります。

ちなみに、Sesameの公式ウェブページでは「Lightweight eyewear」の開発が進められていることが示されており、採用ページでもハードウェア・エンジニアの募集が行われています。このことから、Sesameはメガネ型のAIデバイスを主力製品として展開する方針のようです。これは、MetaとRay-Banが共同開発しているスマートグラスの競合となる可能性が高いでしょう。

デモキャラクター「Maya」「Miles」の反響

CSMを搭載したデモキャラクター「Maya」や「Miles」は、高い表現力と親しみやすい会話スタイルでユーザーを魅了し、「初めて繰り返し話したい音声アシスタント」と高く評価されています。

The Vergeなどの海外メディアでも取り上げられ、Reddit上のコミュニティではOpenAIの音声技術をしのぐ可能性があるのではと議論されるほどです。技術面のみならず、ユーザー体験そのものを向上させる工夫が高く評価されているのが特徴的です。

今後の展望と課題

CSMは不気味の谷を超えるための重要な一歩ですが、完全に解決したわけではありません。特に文脈を伴う複雑な会話シナリオでは、まだ人間の声が勝る場合も多々あります。

セサミ社では多言語化や感情表現のさらなる強化、そして完全な双方向対話の実現を目指して研究開発を加速させる計画です。これらが進展すれば、私たちが普段何気なく使っている音声アシスタントが「本当の会話パートナー」へと変わっていく可能性が大いにあるでしょう。

CSM(Conversational Speech Model):まとめ

音声の“不気味の谷”を超えることは、多くの人にとって「AIによる真のコミュニケーションとは何か」を考える大きなきっかけになるはずです。セサミ社のCSMは、その課題に真正面から取り組み、すでに目覚ましい成果をあげています。

完全にリアルな会話はまだ先の話かもしれませんが、CSMをはじめとした先端技術の発展が、私たちの社会や日常をどのように変えていくのか、今後も注視していきたいところです。

参考)Crossing the uncanny valley of conversational voice

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

Chat Icon
タイトルとURLをコピーしました