アサヒグループホールディングス、アサヒ飲料と野村総合研究所(NRI)は、訪日外国人向けに、音声認識技術を活用した「対話型自動販売機」の実証実験を開始すると発表した。アサヒグループホールディングスのお客様生活文化研究所は、5月から「インバウンド消費実態調査プロジェクト」を立ち上げ、訪日外国人の消費実態等の調査を進めてきたが、その中で、訪日する外国人は、気軽に飲料水が購入できる自動販売機への関心や利用意向は高いものの、日本語表示を理解できないため商品特性がわからず、購入を躊躇したり、自国で馴染みのある特定商品の購入に偏ってしまったりする傾向があることがわかったという。そこで、最新の音声認識技術を活用し、訪日外国人に対して英語による日常会話のような感覚で詳細な商品情報を提供することで、商品に対する理解を促進するため、「対話型自動販売機」の実証実験を開始する。自動販売機は、2016年1月6日から2016年2月(予定)までの期間、東京・浅草の雷門近くに「対話型自動販売機」を1台設置し、利用者の行動データを蓄積・分析することで、訪日外国人のニーズを検証し、アサヒグループ商品の購買とファン化を促進するための施策を見出すことを目指す。具体的には、既存の自動販売機の横に設置したタブレット端末に向かって話した音声が、クラウド上で提供される音声認識サービスによってテキストに変換され、テキストの構文解釈により文章として意味づけられ、それに対する回答が再度音声に変換されて端末に返り、自動販売機の前にいる人とリアルタイムで会話を行う仕組み。自動販売機で商品の購入を検討している訪日外国人に対し、英語による音声コミュニケーションを通じて、お茶やコーヒーなどの商品カテゴリーを選択してもらい、糖分や炭酸の有無、カロリー量などを含む商品情報を提供し、さらには“日本で人気のある商品”“寒いときにぴったりな商品”など、お勧め商品の紹介を行い販売促進につなげていく。今回の実証実験において、NRIは機械学習およびAI技術において、その技術を容易に活用可能とするクラウドサービスに注目し、Microsoft Project Oxfordの音声処理機能(Speech APIs)、自然言語処理機能(Language Understanding Intelligent Service:LUIS)を活用した実証機を開発した。今後は、中国語の対応に加えて、音声対話による効果の検証と、商品の購買、および購買者のファン化を促進するための施策の検討を共同で行っていくという。○アプリの画面展開と会話例①自販機:How would you like to select your drink?Tap the microphone and say the number (1, 2, 3) you’d like to start with.顧客:“No.1”(or“Type”)②自販機:Tap the microphone and say the type of drink you’re interested in.顧客:“No.3”(or “Coffee”)③自販機:If you’d like more information about any of the coffee shown on the screen, tap the microphone and say the product name.顧客:“Sugar sweetened Coffee”④自販機:We developed this iced coffee just for mornings!But it is just as delicious in the afternoon or evening.
2015年12月21日NTTコミュニケーションズ(NTT Com)は10月8日、米国IPsoftと提携し、人間の自然な会話や書き言葉を高い精度で解析する人工知能(AI)を活用した対話業務支援サービス「Virtual Assistant」を2016年夏より提供開始すると発表した。同サービスにより、コールセンターの一次受付や店頭窓口、アウトバンド要員をクラウド上のAIに置き換えることが可能で、オペレーター/販売員の後方支援としても利用できる。また、自動応答に加え、請求書発行業務やメール送信、資料の発送など、応対に伴って発生するビジネスプロセスの処理も行いながら、一人称で応対を完了することができる。例えば、コンタクトセンターなら、エンドユーザーの予約受付/トラブル相談/各種手続きなどを、自然言語による対話を通じて一人称で応対し、曖昧な質問には最適な問い直しを行い、問題を特定できる。問い直しは同サービスが自動的に判断して行うため、従来必要だった問い直し部分のシナリオの作成は不要となるという。解決できない問題や複雑な要請は人間のオペレーターに自動エスカレーションするとともに、オペレーターの応対を自動学習し、次回以降の応対に生かす。同社は商用サービスの提供に先立ち、2016年2月より開始予定のPoC(Proof of Concep)における参加企業を募集し、さまざまな利用シーンでの活用実証実験を重ねることで、サービス品質の向上を進める。
2015年10月09日ヤマザキマザックは9月2日、同社の対話型CNC装置「MAZATROLシリーズ」に新たに「MAZATROL SmoothG」と「MAZATROL SmoothC」の2タイプをラインアップに追加したと発表した。SmoothGは、同社の第7世代MAZATROLである「SmoothX」と同一の外観ならびに性能で、同時4軸制御までの複合加工機、立・横形マシニングセンタ、NC旋盤に搭載される。一方のSmoothCは、従来のCNC装置「MAZATROL SMART」の機能を向上させ、メカニカルキーボードによるデータ入力、厳選されたメニューキー、プロセスホーム画面など基本機能を絞り込みコンパクト化したモデルで、汎用タイプのNC旋盤やマシニングセンタに搭載される。また、工場経営のサポートでは、工場内をネットワーク化することで、事務所のPCにて設備の稼動状況や加工プログラム、工具、生産スケジュールといったさまざまな情報をリアルタイムに一括管理・分析することができるアプリケーションセットも取り揃えており、スマートフォンやタブレットなどから設備の稼働状況を監視出来るとするほか、顧客システムとの親和性を高めたソフトインタフェース(API)も用意することで、IoTへの対応も可能としているという。
2015年09月03日米Googleは8月20日(現地時間)、Android Wearに対話型ウォッチフェイスを追加するアップデートを発表した。数週間をかけて、全てのAndroid Wear端末にロールアウトする計画だ。対話型ウォッチフェイスは、タップによってインタラクティブに操作できるウォッチフェイスだ。関連する情報を表示させたり、アプリを起動することが可能。Googleは公式ブログで、対話型ウォッチフェイスの例として以下の3つを紹介している。Bits Watch Face:バッテリー、カレンダー、日付、電話の履歴、新着メール、歩数、株価、タイムゾーン、天気といった情報のウイジェットを選んで文字盤に配置でき、ワンタップで各ウイジェットに切り替えられる。Under Armour:文字盤をタップして歩数、消費カロリー、距離などの情報にアクセスできる。Together:常につながっていたい人とペア設定し、ウォッチフェイスを通じて落書き、絵文字、写真、最近のアクティビティなどを共有する。
2015年08月21日JAFは10日、自社Webサイト上に対話型のQ&Aシステムを導入、運用を開始した。このシステムの"ナビゲーター"として、新キャラクターも誕生。親しみやすい女性JAF隊員が、ユーザーの疑問解決をアシストするとしている。これは、かねてよりJAFがユーザーに向けてWebサイト上に設置していた「よくあるご質問(JAFに関する一般的な質問)」と「クルマ何でも質問箱(車のメカニズム・運転方法などの情報)」の2ページを情報ソースとし、ユーザーが知りたい内容を入力すると、"ナビゲーター"が情報ソースからユーザーの質問事項に関連するページのURLなどを案内したり、質問に回答したりするしくみだという。ユーザーが自ら検索をして情報を探す手間が省かれ、欲しい答えがすぐ得られるようになるとしている。なお、この"ナビゲーター"の名前は「久留間(くるま)まもり」。JAFのロードサービス隊員で「まじめで努力家だが元々はおっちょこちょい」「街の散策が趣味」といったキャラクター設定がされているという。また、表情やポーズのバリエーションも用意され、「年齢は?」などのプロフィールに関する質問にも答えるとしている。
2015年06月15日日本電信電話(NTT)とピーディーシー(PDC)は1月21日、自然な音声対話が可能な「接客型デジタルサイネージ」を開発したと発表した。同サイネージは、ユーザーに能動的に話しかけ、ユーザーの発した要望を解釈し、ユーザーが置かれた状況に応じたインタラクティブな情報提示を行うなど、自然な対話が可能。NTTが開発し、あらゆる騒音環境下で目的の音声をクリアに集音可能とする「インテリジェントマイク技術」を組み合わせ、ショッピングセンターのような騒がしい環境下でもユーザーの音声を認識することができる。同社によると、一般的な駅や商業施設の騒音レベルは60~80dBだが、NTTのインテリジェントマイク技術を用いると、100dBの騒音下においても音声認識が可能だという。また、詳細な粒度の固有表現を獲得する固有表現抽出技術や、低コストで作成可能な学習データに基づくタスク判定技術の活用により、これまでと同じ対話のシナリオを作成する場合には、対話ルール数の削減を実現する。
2015年01月22日NTTとピーディーシー(PDC)は1月21日、自然な音声対話が可能な接客型デジタルサイネージを開発したと発表した。NTTは、研究所が有する音響処理・音声認識・言語処理・音声合成をはじめとしたメディア関連技術を活用し、システムがあらゆる騒音環境下で音声を認識して自然な音声対話を行い、ユーザのさまざまなニーズに応える音声対話プラットフォーム技術の研究開発に取り組んでいる。一方、PDCは、商業施設や公共交通機関などを中心に、国内で急速に普及が進んでいるデジタルサイネージ市場において、大型施設向けシステム導入数でトップシェアを獲得しており、今後、東京オリンピック・パラリンピックが開催される2020年に向けて、さらなる普及・拡大と競争力の強化を狙い、より幅広いユーザが使いやすいユーザインタフェースを持つデジタルサイネージシステムの実現を推進している。今回、両社は、NTTが持つ研究開発成果と、PDCが持つデジタルサイネージシステムおよびデジタルサイネージに関するノウハウを組み合わせ、デジタルサイネージにおいて、"接客型"という新しい価値を提供することを目指している。接客型デジタルサイネージは、ユーザに能動的に話しかけ、ユーザが通常に人と話すような言葉で発した要望を解釈し、ユーザが置かれた状況に応じてインタラクティブな情報提示を行うことで、自然な対話を可能とするものである。具体的には、外部情報(API)と連携することにより、商業施設や駅などで、さまざまな情報の提示を可能とする。また、NTTが開発したあらゆる騒音環境下で目的の音声をクリアに集音可能とするインテリジェントマイク技術を組み合わせることで、ショッピングセンターのような60~80dB程度の騒がしい環境下でもユーザの音声を認識することが可能になる。この他、詳細な粒度の固有表現を獲得する固有表現抽出技術、および低コストで作成可能な学習データに基づくタスク判定技術を活用することにより、これまでと同じ対話のシナリオを作成する場合、対話ルール数を従来に比べて約50%削減できるという。
2015年01月22日科学技術振興機構(JST)、大阪大学、ヴイストンは1月20日、共同で記者会見を開催し、新型の対話ロボット「CommU(コミュー)」と「Sota(ソータ)」を発表した。CommUは研究者向け、Sotaは普及型という位置付けで、それぞれ販売を行っていく。Sotaの価格は税込10万円以下になる見込みで、量産出荷は7月開始の予定。人間は当たり前のように「対話」を行っているが、実はロボットにとって対話は非情に難易度が高い行為だ。そもそも、雑音だらけの生活環境の中で正確に音声を認識するのは難しいし、認識したとしても、適切な返事ができなければ対話をしている感覚は得られない。そうした技術的課題のため、今までの対話ロボットは、どうしても「ロボットが相手」と強く意識せざるを得ないものになってしまっていた。自然な"対話感"を実現するためにはどうしたらよいか。大阪大学の石黒浩教授と吉川雄一郎准教授が考えたのは、1体ではなく、複数体のロボットを使う方法だ。「人間とロボットが1対1だと、人間は必ず、ロボットが自分の言うことを理解して当たり前だと考えてしまう」と石黒教授。だから、ロボットが理解してくれないと、苛立ちを覚えてしまうわけだ。でもロボットが2体いて、ロボット同士が対話をしていたら、人間は横から参加する形になる。「人間は適応能力が高い。自分の代わりに誰かが喋ってくれれば、ちゃんと対話感を持てる。それが一番大きな発見だった」という。さらに、「1対1だと音声認識をちゃんとやらないといけないが、ロボットが2体いれば、音声認識に失敗しても対話感が得られる」という。実際に、記者会見で披露された対話のデモでは、CommU/Sotaは人間(今回はアンドロイドだが)が話した内容は一切理解していないとのこと。単に発言が終わったことだけを検出し、「そっか」などと曖昧な返事をして受け流すようになっていた。ただし、CommUもSotaもマイクやカメラを内蔵しており、やろうと思えば、音声認識や画像認識も可能。今回のデモでは音声認識していなかったというだけで、すべてはアプリケーション次第というわけだ。もしかしたら、「人間の話をまったく聞いていないのに対話と言えるのか」と思うかもしれない。だが、人間も常に相手の話を理解しているわけではないし、それに本当に対話しているかどうかよりも、対話している「感覚」の方が重要なニーズやアプリケーションもあるだろう。そうしたものにCommU/Sotaはマッチする。すでに、介護分野の見守りや対話で引き合いがあるそうだ。CommUの身長は304mm。自由度は14(胴体2軸、腕2軸×2、首3軸、目3軸、まぶた1軸、口1軸)で、高い表現力を持つ。制御基板は「Raspberry Pi Type B+」だ。一方、Sotaは身長280mmで、コストダウンのために、自由度は8(胴体1軸、腕2軸x2、首3軸)に抑えられた。制御基板はIntelの「Edison」を採用。家庭向けを意識し、外装はロボットクリエイター高橋智隆氏による親しみやすいデザインを採用した。OSはどちらもLinuxを搭載。開発ソフトウェア「VstoneMagic」を使い、無線LAN経由でのプログラミングが可能だ。このロボットを普及させるためには、いかにコンテンツを充実させるかがカギになる。今後、開発者向けの技術セミナーを行っていくほか、開発したアプリケーションをネット上にアップし、公開するようなサービスも計画しているそうだ。前述のように、このロボットは複数体の使用が基本ではあるが、アプリケーションによっては、1体でよい使い方もあるだろう。そのため2体セットではなく、1体ずつ購入できるようになる模様だが、石黒教授は「2体と言わず3体、4体と買ってもらえれば、とても楽しい世界が作れると思う」とアピールした。
2015年01月21日大阪大学(阪大) 大学院基礎工学研究科の石黒浩 教授、吉川雄一郎 准教授らは、ヴイストンと共同で、社会的対話ロボット「CommU(コミュー:Communication Unity)」ならびに「Sota(ソータ:Social Talker)」を開発したと発表した。2種類ともに卓上サイズで、複数のロボット同士の対話を人間に見せることを基本に開発された。このロボットと人が対話する場合、ロボットが人間に向かって話しているのか、ロボットに向かって話しているのかを動きから区別することが可能。また、同時に対話の参加者となる人間やロボットを無視しているように見えない「社会的振る舞い」もできる。CommUは主に研究用途を目的に開発された機体で、眼球部、頭部、胴体部からなる14自由度(胴体2軸、腕2軸×2、首3軸、目3軸、まぶた1軸、口1軸)を駆使することで、多様な視線表現を実現可能で、ロボット同士の対話に人間が参加し、対話感を得ることが可能となっている。サイズは304mm×180mm×130mmで、CPUにはRaspberry Pi TypeB+を採用。入出力はカメラ、モノラルマイク、スピーカ、LED(頬×2、胸×1、電源ランプ×1)、スイッチ(電源、音量ボタン×2)となっているほか、インタフェースとしてはWi-Fi、HDMI、USB×4、I2C×1電源コネクタ(ACアダプタは12V4A)が用意されている。一方のSotaは、広く一般に普及を目指して開発されたロボットプラットフォームで、デザインはロボットクリエイターとしてキロボやエボルタくんなどでおなじみの高橋智隆氏が担当。CommUに比べて簡素化が図られており、自由度は9(胴体1軸、腕2軸×2、首×3)となっている。サイズは280mm×140mm×160mmで、CPUにはIntel Edisonを採用。入出力はカメラ、モノラルマイク、スピーカ、LED(両目×2、口×1、電源ランプ×1)、スイッチ(電源、音量ボタン×2)となっているほか、インタフェースとしてはWi-Fi、Bluetooth、HDMI、USB×3、I2C×1電源コネクタ(ACアダプタは12V4A)が用意されている。販売はヴイストンが担当し、同社ではSotaについてはまだ価格は決まっていないとしながらも、最大で10万円程度になる見通しとしており、2015年7月からの販売を開始したいとしている。
2015年01月20日アドバンスト・メディアは1月13日、音声認識・音声対話専用のバッジ型ウェアラブルデバイス「AmiVoice Front WT01」を開発したと発表した。近年、スマートデバイスの業務利用が増加しているが、スマートデバイスを使用するためには、画面を見ながら手で操作する必要があるため、ハンズフリー、アイズフリーのニーズに応えられないという欠点があった。また、これまでの眼鏡型や時計型のウェアラブルデバイスでは、内蔵マイクの耐騒音性能が脆弱なため、音声認識の性能を引き出すことができず、騒音環境下での実用が難しいという問題があった。同製品は、2マイクを用いた高指向性のマイクアレイとノイズキャンセル機能を搭載しており、騒々しい工場内などの高騒音環境下でも、高精度な音声認識を行うことができる。さらに、ヘッドセットマイク接続時においては、最大100dBの耐騒音性能、最大10mの耐風性能を有し、従来は音声認識が不可能とされてきた環境での利用を見込んでいる。加えて、屋外など雨天での作業にも対応できるIPX4相当の防水性能も備えており、本体背面スピーカによりヘッドホンを使用せずに音声出力できる他、首から掛けても使用できる。また、スマートデバイスやPC、眼鏡型ウェアラブルデバイスなど多種多様な端末とBluetooth通信で連携する。そして、本体にマルチファンクションボタンを搭載しており、音声指示に加え、ボタン操作によるコントロールも可能で、さまざまなアプリケーションと組み合わせることで、使用環境を問わず幅広い業種・業務で活用することができる。なお、8月より販売を予定している。また、同時期に無線機(インカム)の代わりとして利用可能なハンズフリーIP通話サービスも開始する予定。さらに、販売開始に先駆け、1月より数量限定で「AmiVoice Front WT01」のiOS/Andoroid版の開発キット(SDK)を、数量限定にて企業向けに販売するとしている。
2015年01月13日