2022spring

言葉をメロディにのせて会話するコミュニケーションロボット『Charlie(チャーリー)』

ヤマハ株式会社 電子楽器事業部
田中 孝浩、倉光 大樹、柴瀬 頌子、清水 隆之

概要

『Charlie』は、歌でユーザーとコミュニケーションをとる、世界初[1]の“うたロボ”。当社が持つボーカロイド[2]技術や自動作曲技術等を活用し、ユーザーが話しかけると、ミュージカルのように「おはよう」や「ありがとう」等の言葉はもちろん、普段の相談事や雑談等もメロディにのせて返答します。
新しいコミュニケーションの形として今注目されているCharlieの開発経緯と、核となる技術の概要をご紹介いたします。

ABSTRACT

“Charlie” is the world’s first “singing robot” that communicates with users through singing. Utilizing our Vocaloid and automatic songwriting technologies, “Charlie” responds to the user’s words such as “good morning” and “thank you,” as well as everyday conversation and chit-chat with a melody, just like a musical.
We will introduce the development process of “Charlie”, and an overview of its core technology.

1. はじめに

Charlieは仕事もプライベートも充実させたい働く女性を対象にしたコミュニケーションロボットとして、ヤマハが2021年3月25日に発売開始しました。当社が調査を行ったところ、働く女性の多くが、「仕事や人間関係などでストレスや緊張感を感じており、もっと家で気持ちを緩めたい、明日のために充電したい」というニーズがあることが分かりました。そこで、仕事を終えた後の彼女たちの気持ちを少しでもリラックスさせたいという思いから、メロディに乗せた会話で、緩いコミュニケーションを行う“うたロボ” Charlieの開発に至りました。

Charlieは以下のような特徴を持っています。

新しいコミュニケーションの形として今注目されているCharlieの開発経緯と、核となる技術の概要を下記にご紹介いたします。

2.開発経緯

高音質オーディオでの音楽鑑賞や、楽器演奏を日常的に行うような音楽愛好家だけでなく、普段、生活の中であまり音楽に触れる機会が多くない方たちまでを含めた幅広い層に向け、当社だからこそ実現できる、音楽にのせた新しいコミュニケーション体験を提供したいという思いから開発スタートしました。
当社が一人暮らしをする働く20~30代の女性に行った調査結果から、Charlieのターゲットである20~30代の女性の8割以上がストレスや悩みを完全には吐き出せておらず、約7割の人が家族・友人・同僚等の身近な人に相談する反面、3割近い人が家族や友人、同僚以外にストレスや悩みを吐き出したいと考えていることが浮き彫りになりました。

ストレスや悩みを相談する相手に求めることは、「アドバイスをくれる」「問題点を整理してくれる」などの問題解決型のアクションだけでなく、「共感してくれる」など、気持ちに寄り添ってくれることに期待をしている人が多いようです。

この結果を踏まえ、Charlieはユーザーがリラックスできるように、歌で気軽にコミュニケーションができる“うたロボ”として企画開発しました。

3. 技術概要

歌唱応答

ユーザーの発話音声は、クラウド上のシステムによってCharlieの歌うオーディオに変換されます。発話音声は、まずSpeech to Text (STT) システムによってテキストデータに変換されます。テキストデータに変換されたユーザーの発話は、自然言語処理システム(NLP)によって解釈され、発話内容にふさわしい応答文が作成されます。作成された応答文は、Text to Song(TTS)システムに渡され、2~6小節の長さの伴奏付きの歌唱オーディオデータに変換されます。

Charlieの応答作成の核となるのが、TTSシステムです。ここでは、TTSシステムについて詳しく説明します。

TTSは、2・3・4・5・6小節の長さの伴奏オーディオデータと、6小節のメロディを半小節あるいは1小節に分割した断片的なメロディデータを大量に保有しています。断片化されたメロディは、曲調に合うように伴奏とセットで保持されています。また、早口のような不自然な歌唱にならないように、区間内の最大の音数が決められています。

NLPで作成された応答文は、文節や句読点の区切りで分割され、ひらがなの文字列として出力されます。また、応答文に合うような曲調のデータも付与されます。TTSは指定された曲調に合うように、分割された文字列毎にデータベースとして持つ半小節あるいは1小節のメロディを割り当て、1曲分のメロディに結合します。作成されたメロディは、歌声合成エンジンVOCALOID[2]によってオーディオに合成され、伴奏のオーディオとミックスされます。オーディオデータはミックス前後で適切なエフェクトやバランス調整がかけられ、音質調整されます。

また、TTSではメロディや伴奏とともに2・3・4・5・6小節の長さのダンスのデータも持ちます。ダンスデータは、音楽の拍を基準に動作するように記述されており、Charlieが歌う曲のテンポが変わっても曲に同期して躍らせることができます。ダンスデータは、3段階のテンポの速度範囲(遅い、普通、速い)で区分けされており、Charlieの応答曲のテンポによって適切なものが選択されます。
こうして、Charlieの応答の曲とダンスが作成され、Charlieにダウンロードされて再生されることによって、Charlieは歌いながら踊ることができます。

音響設計

Charlieから発せられる音声をできるだけ自然に聞こえるようにするため、スピーカーユニットは音響機器でも使用しているユニットを使用しています。人型デザインをできるだけ損なわないように、スピーカーユニットを製品底部(おしりの部分)に配置しましたが、そのままでは音声が下に向かって放射されてしまうため、反射板を追加して音が周囲に広がるように工夫しています。

他のオーディオ製品と同様、周波数特性を測定しながら反射板と周囲の開口部を最適な形状にしました。

周波数特性が大幅に改善され、より自然な音声を実現しています。

4. まとめ

言葉をメロディにのせる『Charlie』の会話は、通常の会話に比べて情緒的な表現で、感情共有がしやすくなるため、よりユーザーの心に響くコミュニケーションが可能になります。単調ではない、様々な感情にフォーカスしたCharlieとのコミュニケーションを通じて、気持ちを緩ませ、整えてくれる効果とともに、音楽にあふれた彩りのある日常を、ユーザーに提供したいと考えています。
https://charlie.yamaha.com/index.html

執筆者プロフィール

電子楽器開発部 商品開発グループ
田中 孝浩(たなか たかひろ)
1985年入社。オーディオ事業部でCDプレーヤー開発を担当した後に、業務用カラオケ機器の開発、半導体事業部にて着メロIC企画開発、コンテンツ事業推進部にてコンテンツ制作や配信サイト運営などを行う。Charlie開発では開発チームのリーダーを務める。
マーケティング統括部マーケティングプランニンググループ
倉光 大樹(くらみつ だいき)
2004年入社。オーディオ事業部にて、商品のルート営業、新規販路開拓を担当後、デスクトップオーディオの商品企画を担当。2017年マーケティング統括部に異動し、新規事業の一環として、コミュニケーションロボット Charlieの商品企画を担当した。現在は同統括部にて、新しい価値を世の中に届けることをミッションとしている。
電子楽器事業部電子楽器戦略企画グループ
柴瀬 頌子(しばせ しょうこ)
2009年入社。アジア・パシフィック営業本部にて海外輸出業務を担当後、AV事業部ではロシア、中東、東南アジア諸国の海外営業に携わる。2017年にマーケティング統括部に異動し、コミュニケーションロボット Charlieの商品企画を担当する。現在は電子楽器事業部電子楽器戦略企画グループに所属し、Charlieをいかにお客に長く続けていってもらえるかの企画・コンテンツ設計を主に担当している。
ホームオーディオ事業部AC開発部機構グループ
清水 隆之(しみず たかゆき)
1992年入社。オーディオ事業部でCD,DVD,BDプレーヤーやAVレシーバー等の開発を担当。Charlie開発においては本体機構、梱包を担当。