みずほ銀行は14日、シリコンバレーに本社を置くSimpleEmotion社(以下SE社)と、コールセンターにおけるオペレーターのさらなる応対品質向上を目的に、SE社の音声感情認識技術をみずほ銀行のコールセンター業務へ試行導入することに合意したと発表した。このたびのSE社との試行は邦銀初の試みとなるという。○オペレーターの更なる応対品質向上を目指すSE社は、スタンフォード大学生のMatthewFernandez氏とマサチューセッツ工科大学生のAkashKrishnan氏が2012年に共同設立したベンチャー企業。SE社の音声感情認識技術は、人の声の周波数などから、話者の感情を、どの言語でも識別することが可能だという。SE社はその技術の活用領域をコールセンターだけでなく、ロボティクス、ヘルスケアなどの幅広い分野とし、各社の業務特性にあったソリューションの提供を行っているとしている。みずほ銀行は、2月よりコールセンターにおいてIBMWatsonテクノロジー(※1)を導入し、「より正確」かつ「よりスピーディー」な応対の実現を目指しているという。このたび、SE社の高い技術力をコールセンターに活用することで、オペレーターの更なる応対品質向上を目指すとしている。みずほ銀行によると「オペレーターの話し方によって、目に見えないお客様の感情がどのように変わるのかといったデータをとり、ノウハウを取得することでオペレーターの品質向上につながることを目的とする実証実験」としている。(※1)IBMWatsonテクノロジーは、質問や対話に基づいて、タイムリーに的確な回答を導き出すためのコグニティブ・コンピューティング(情報を分析し、学習や推論を行い、アクションに結びつける、といった人間の認知的活動の実現を目指したコンピュータ技術)の基盤。学習機能を備えており、経験を重ねる中で自律的に回答の精度を高めていくことができる。また将来的には、顧客とのコミュニケーションにおいて、IBMWatsonテクノロジーと連携させた最適なOnetoOne応対や、店頭やロボットなどの他チャネルへの活用を展望しているという。みずほ銀行は、今後も先進的なIT技術を持つ国内外の企業との連携に積極的に取り組み、利便性の高いサービスを提供することで、顧客のニーズに応えていくとしている。
2015年10月19日センチュリーは15日、スマートフォンなどを載せるだけで音声出力を増幅させるブロック型のアクティブスピーカー「BrickS」に、新色となるホワイトを追加した。10月16日から発売し、価格はオープン、店頭予想価格は3,480円前後(税込)。ワイヤレス通信技術「Near Field Audio」を使って、Bluetoothなどの設定をすることなくスマートフォンなどを載せて音を増幅するアクティブスピーカー。カラーバリエーションとしてレッド / イエロー / ブルー / ブラックがすでに発売されているが、新たにホワイトが追加された。スピーカー出力は2W+2Wで、きょう体は玩具のブロックをモチーフにデザイン。凹凸部分にスマートフォンをはめ込むと、スタンドとしても機能する。付属のケーブルを使って有線接続も可能だ。有線の場合はステレオ出力だが、「Near Field Audio」を介する場合はモノラル出力となる。電源はUSBバスパワーのほか単3形乾電池×3本でも動作。乾電池の場合、連続動作時間は約10時間で、1分以上音楽が再生されないと自動的に省電力モードに切り替わる。インピーダンスは16Ω、再生周波数帯域は置くだけモード時250Hz~16KHz、ケーブル接続モード時100Hz~20KHz。本体サイズはW134×D66×H55mm、重量は約180g(電池含まず)。
2015年10月15日みずほ銀行は10月14日、米SimpleEmotion(SE)と、コールセンターにおけるオペレータの応対品質向上を目的に、同社の音声感情認識技術を同行のコールセンター業務へ試行導入することで合意したと発表した。同行によると、SEとの試行は国内銀行では初の試みという。SE社は、スタンフォード大学生のMatthew Fernandez氏とマサチューセッツ工科大学生の Akash Krishnan氏が2012年に共同設立したベンチャー。SEの音声感情認識技術は、人の声の周波数などから話者の感情を、どの言語でも識別可能としている。SEはその技術の活用領域をコールセンターの他、ロボティクスやヘルスケアなどの多様な分野とし、各社の業務特性に合ったソリューションの提供を行っているとのこと。同行は2015年2月から、コールセンターにおいてIBM Watsonテクノロジーを導入し、より正確でよりスピーディな応対の実現を目指しているという。今回SEの技術力をコールセンターで利用することで、オペレータのさらなる応対品質向上を目指すとしている。将来的には、利用客とのコミュニケーションにおいて、Watsonテクノロジーと連携させた最適なワン・トゥ・ワン応対や、店頭やロボットなど他チャネルへの応用を展望していくとしている。
2015年10月15日みずほ銀行は10月1日、NTTドコモと連携して、タブレット端末を使った自動音声翻訳サービスの実証実験を開始した。○外国人の顧客とのコミュニケーション支援のツールみずほ銀行では、〈みずほ〉ハートフルアクション(※)の取り組みの一つとして、タブレット画面を通じてオペレーターが外国人への通訳サービスを行う「スマイルコール」を都内5拠点で導入しているという。IT技術を活用して、より迅速、便利に利用してもらえるサービスとして、自動音声翻訳の活用の検討を進めており、このたび実証実験を開始することになったとしている。(※)〈みずほ〉は経済・社会を支えるOnly Oneの存在を目指し、世の中の役に立つさまざまな活動「〈みずほ〉ハートフルアクション」を推進している。具体的には以下のとおり。(1)みずほ銀行の有人拠点を「子ども110番の家」に登録、(2)外国人への通訳サービス(スマイルコールの活用)、(3)タブレット端末を活用した伝票への記入サービス、(4)地域でのボランティア活動。このたびの実証実験では、NTTドコモの協力を得て、店頭に備え置くタブレット端末に搭載した自動音声翻訳アプリを用いて試行するという。ボタンを押してタブレット端末に話しかけるだけで、外国語と日本語を自動的に翻訳するもので、両替などで銀行を訪れた外国人の顧客とのコミュニケーション支援のツールとして利用する。翻訳結果をタブレット上にテキスト表示するほか、音声での読み上げもでき、簡単、便利にコミュニケーションを取ることが可能だとしている。外国人の顧客の来店が多い都内5拠点で2ヶ月間試行し、利用した顧客の声も参考にした上で、今後の本格活用を検討するとしている。○試行内容試行期間:10月1日~11月30日試行店:銀座支店、銀座中央支店、浜松町支店、青山支店、八重洲口支店対応言語:英語、中国語、韓国語みずほ銀行は今後も優れたIT技術を積極的に活用し、様々な顧客に支持されるサービスの実現に取り組んでいくとしている。
2015年10月05日エーアイは、クラウド型の音声合成新サービス、「AICloud(エーアイクラウド)」の提供を11月4日より開始すると発表した。AICloudは、エーアイの音声合成エンジンAITalkをクラウド型で利用できるサービス。この度音声合成APIに、単語登録オプションを追加した新しい「AITalk WebAPI」と、Webサイトにタグを埋め込むだけで利用が可能なHP読み上げサービス「AITalk Web読み職人」を「AICloud」第一弾として提供する。今後は「AICloud」はクラウド型の各種音声合成クラウドサービスを順次追加する予定。
2015年10月01日ラトックシステムは3日、デジタル音声をアナログ音声に変換する、デジタルtoアナログオーディオコンバーター「RP-ADAC1」を発表した。9月中旬より、楽天市場店限定で販売する。価格はオープンで、直販価格は税込3,180円。デジタル音声出力端子をもつTVやゲーム機などと接続して、アナログ音声に変換するデジタルtoアナログコンバーター。本製品で中継することで、TVやゲーム機のデジタル音声を、デジタル音声入力のないアンプやアクティブスピーカーなどに接続できる。音声入力インタフェースは光デジタル(角型)×1、同軸デジタル×1、音声出力インタフェースはアナログ(RCA)×1、ライン出力(3.5mmステレオミニジャック)×1。対応サンプルレートは、光デジタルが24bitの96kHz / 88.2kHz / 48kHz / 44.1kHz。同軸デジタルが16bitの192kHz / 176.4kHz / 96kHz / 88.2kHz / 48kHz / 44.1kHz。本体サイズはW55×D70×H20mm、重量は約48g。
2015年09月07日モイは4日、同社が運営するライブ配信サービス「ツイキャス(TwitCasting)」が、オープンソースの音声圧縮方式「Opus」に対応したと発表した。プロのアーティストによる配信や、「イケボ」(イケメンボイス)配信など、高音質へのニーズが高まったため、今回Opusの全面対応を実現。Opus公式サイトによると、ビットレートは6kb/sから510kb/s、サンプリングレートは8kHzの低帯域からから48kHzの高帯域をカバー。VoIPや音楽ライブのリモート配信などの用途に適するという。モイは、Opusの対応でより高音質のサービスを提供できるとしている。対象の配信は、iOS/Androidアプリの最新版、およびPCからの配信全て。複数人で同時配信できる「コラボ配信モード」はリリース時点では対応しないが、近日対応する予定。このほか、ツイキャス利用時の楽曲使用に関し、従来のJASRACに加え、新たにJRCおよびイーライセンスと包括契約を締結した。これにより、使用楽曲をツイキャスに報告することで、JASRAC/JRC/イーライセンスの管理楽曲を無料で歌唱・演奏することが可能となった。
2015年09月04日前回も述べたようにWindows 10 Insider Previewビルド10532は、日本語版Cortanaが新たに加わっている。Cortanaは単なる音声認識システムとしてだけではなく、情報検索や個人のスケジュール管理などパーソナルアシスタントとして活躍する予定の注目株だ。そもそもCortanaは使用結果を機械学習し、その結果を基に自己能力を高めていく。そのためリリースしたばかりのCortanaをAppleのSiriやGoogleの音声認識システムと比較するのは公平ではないだろう。そこで今回はCortanaのみに焦点を当て、Windowsの未来を担えるか検証する。○まだまだ頼りない部分もあるが今後に期待冒頭から関係ない話で恐縮だが、筆者はビルド10532の登場に合わせてメインPCをInsider Previewに切り替えた。現在はデスクトップPCに4枚のディスプレイを接続し、内半分を縦置きに並べてWebブラウザーやテキストエディターを開いている。この様な変形レイアウトのせいか、インプレースアップグレード時はディスプレイレイアウトがリセットされてしまう。そのたびに再調整するのを疎んでいたのと同時に、仕事に使うPCをInsider Previewに切り替えてよいか決断しあぐねていたが、当初からInsider Previewの検証に用いていたサブマシン(Surface Pro)の安定性を鑑みて切り替えることにした。その際、Hyper-Vがインストールされた環境だとシステムファイルのコピープロセスでロールバックする問題に出くわしたが、Hyper-V無効化後にアップグレードを実行することで無事ビルド10532に移行できる。さて、Cortanaを使う上で重要になるのがマイクである。Surface Proの場合、ディスプレイ上部にあるマイクに向かって話しかけていたが、デスクトップPCの場合、ヘッドセットマイクやデスクトップマイクなどが必要だ。今回は以前購入したLifeCam StudioをUSB接続し、改めて「マイクのセットアップ」ウィザードを実行したが、筆者の発音が悪いのか何度も文章の読み取りを繰り返さなければならない。最終的にはディスプレイの上に置いたLifeCam Studioを目の前に置き、顔を近づけて話しかける必要があった。前回同様、音声入力で予定の登録を試みると、今回はスムーズに進む。MicrosoftのGabriel Aul氏は公式ブログで「9月末に音声を改良する」と述べている。この音声(Voice)が音声認識なのか音声合成を指すのか不明だが、体感レベルではリリース直後よりも認識率が高まったように感じた。ただ、不安定な部分は本ビルドでも見つかっている。上図ではスケジュールの競合が発生し、再調整を行うために「イベントをタップ~」というメッセージが現れるものの、こちらをクリックすると「カレンダー」が一瞬起動するものの、そのまま終了してしまう。下図は別途起動した「カレンダー」だが、他のアプリケーションとの連動に関しては、まだまだ作り込みが必要なようだ。例えばMicrosoft Edgeには文字列選択時に、<Cortanaに質問>という項目がコンテキストメニューに加わる。しかし、こちらの機能は日本対象外らしく「お住まいの地域はサポート対象外です」というメッセージが現れるにとどまった。さて、クリックやタップ、[Win]+[S]キーでCortanaを開くと、ビルド10532リリース直後とは異なり、ニュースや株価、指定地域の週間天気予報が表示されるようになった。ハンバーガーメニューを開くと英語版Cortanaと同じく、<ホーム><ノートブック><リマインダー><フィードバック>と4項目が並ぶ。この<ノートブック>を開くとCortanaのホーム画面に表示するコンテンツが並んでいることを確認できた。一見するとドラッグ&ドロップによる順番の入れ替えができそうだが、本ビルドでは実装していない。表示内容に関してはコンテンツ名をクリックすると現れる画面で設定を行う。例えば「ニュース」ならトピックやカテゴリー表示の有無、ニュース項目自体の有無も選択できる。ちなみにホーム画面に並ぶコンテンツは「カード」と称するようだ。<リマインダー>は文字どおり自身に通知を行うメモ機能だが、「リマインダー」と話しかけることで登録が可能になる。今のところスケジューラーで事足りているため、よい使い方は思いつかないが、Windows 10 MobileでもCortanaが使用可能になり、外出中に思いついた要件をメモして帰宅後や出社後にリマインダーを確認する場合は便利そうだ。今回Cortanaで様々な単語を試してみたものの、使っているデバイス(マイク)の問題か、「コルタナさん」と呼び掛けても応答を確認できなかった。現時点では機能が限定されているため試せる範囲も狭かったが、今後もCortanaが成長した際は何らかの形でご報告したい。今回の試用でハッキリしたのは、Windows Helloの顔認証機能などを踏まえると、2-in-1 PCであればWindows Hello対応カメラと高精度マイクの搭載、デスクトップPCは両者を供えた周辺機器が、Windows 10利用者には欠かせい存在になりそうだ。阿久津良和(Cactus)
2015年09月04日ZMPは8月20日、ディープラーニングによる画像認識ソフトウェアを搭載したステレオビジョンシステムの販売を開始すると発表した。同製品は、ソニー製超高感度CMOS センサを搭載したステレオビジョンZMP RoboVision 2と、NVIDIAのGPU Tegra K1を搭載したコントローラボックスで構成されており、ディープラーニングにより先行車両・歩行者・白線・信号の認識を行うことができる。ADAS(先進運転支援)技術や自動運転技術の開発で必要とされる、白線や信号情報の検出および先行車両や歩行者などの移動体の認識・トラッキングをリアルタイムで行い、位置情報などをCANで出力できるため、実車走行時のセンサシステムとして利用しやすいという。販売予定価格は200万円(税別)で、10月末の出荷を予定している。なお、同社はディープラーニングによる画像認識技術、およびRoboVision 2について8 月25 日より開催される、「第7回ZMPフォーラム」にてデモおよび講演を行う。
2015年08月20日ユニットコムは8日、同時対発売するSIMフリー/LTE対応スマートフォン「ZenFone 2 Laser」と、SIMサービス「IIJmio 音声機能付きSIM ミニマムスタートプラン」のセット販売を開始した。「ZenFone2 Laser」は、1,270×720解像度の5.0型液晶ディスプレイを搭載し、OSにAndroid 5.0.2、CPUにSnapdragon 410を採用。特徴はカメラ機能で、レーザーオートフォーカスを搭載し、薄暗い場所でもピントをスムーズに合わせられるとする。microSIMスロットを2基備え、対応SIMカードによりLTE/音声通話が可能。本体サイズはW71.5×D3.5~10.5×H143.7mm、重量は約145g。8日に発売し、同社が運営するPCショップ「パソコン工房」などでも取り扱う。「IIJmio 音声機能付きSIM ミニマムスタートプラン」の端末価格は、税込1,400円/月で24回払い。SIMサービスの料金は1,728円/月となり、セット価格の合計は3,128円/月となる。端末価格は初回のみ1,577円となり、同社指定のショッピングクレジットで契約する必要がある。初回のSIM購入代金として、2,916円が別途必要となるほか、別途ユニバーサルルサービス料がSIMカード1枚あたり2円必要(いずれも税込)となる。SIMカードは、データ専用SIM、SMS 機能付きデータ通信SIM、音声対応SIMの3種類から選択可能。SIMと端末を同時購入した場合、購入端末に対してのSIM設定を無料でサービスする。
2015年08月10日SCSKは8月7日、コールセンターにおいて音声認識されたテキスト文章などをもとに、苦情の発見、離反、成約をリアルタイムに予測するシステム「VOiC for SAP HANA」を9月から提供すると発表した。「VOiC for SAP HANA」では、音声認識技術を用いて問い合わせ相手とオペレーターの会話を瞬時にテキスト化し、会話内容から苦情の発生や満足度の向上・低下の確率をリアルタイムに算出する機械学習モデルを構築している。モデルによる判定は、単なるキーワードのマッチングでなく、表現の組み合わせ、回数、会話スピード、会話比率など100以上の特徴からスコア付けを行い、最適な予測を行うモデルを生成。これにより、オペレーターや分析者などがあらかじめ単語を設定するなどの手間をかけずに、精度の高い判定ができるようになっている。今回、SAPジャパンの「SAP Predictive Analytics」を活用し、これまで数カ月かかっていた機械学習モデルの作成期間を数時間に短縮したという。また、平均2秒に1回発生するコールセンターの発話データに対処するため、データを高速で処理するプラットフォームとして、SAPジャパンの「SAP HANA」を採用している。リアルタイムで音声認識テキストを取得する仕組みは、アドバンスト・メディアの「AmiVoice Communication Suite2」と連携しており、精度の高い音声認識テキストの生成もできる。
2015年08月07日国立情報学研究所(NII)は6日、デジタルカメラやスマートフォンによる「顔認識」を防ぎ着用者のプライバシーを守るメガネ型デバイス「プライバシーバイザー」が、福井県鯖江市の企業ニッセイによって商品化されると発表した。「プライバシーバイザー」は、顔面に明暗をつくる可視光を反射・吸収する素材をバイザーに貼付することで目の周りの明暗の特長をなくし、顔検出を妨害するメガネ型デバイス。従来の顔認識の防止技術は、顔面に着色したり、顔を物理的に隠すことで、顔認識の前段となる顔の位置の検出を妨げる方法だったため、通常の対人コミュニケーションに支障をきたすという欠点があった。これに対し「プライバシーバイザー」では、メガネのように着用するため、着用者の視覚やコミュニケーションには影響を与えないという。商品としての量産化は、メガネ用資材を扱う総合商社のニッセイが担当する。これまで公開されていた「プライバシーバイザー」の試作品は、3Dプリンターを利用した樹脂フレームを使っていたが、商品化にあたりニッセイの強みであるチタンを使ったフレームを採用。軽く強度が高いチタンの特性が、通常のメガネに比べ湾曲が大きい「プライバシーバイザー」のフレーム形状に対応した。また、フレームにチタンを採用したことでコストが高くなるため、ニッセイでは今後、鯖江市が実施・運営しているクラウドファウンディング事業「FAAVO(ファーボ) さばえ」を活用し制作費の一部を調達する。支援者には、支援額に応じて初回限定モデルやチタン加工技術を活かした記念品などが提供されるという。
2015年08月07日IPAは、コンピュータウイルスや不正プログラムの状況分析から、「今月の呼びかけ」を発表している。今月は、そのWebサイトを閲覧すると、日本語音声でウイルスに感染したことを警告し、偽のウイルス対策をするように促される。このような手口は、初めてであり、騙されてしまうことが少なくないと、IPAでは注意喚起している。これまで、音声を使った詐欺的な行為は、スマホでカメラのシャッター音を使い、いかにも本人を撮影し、個人を特定できたかのように振る舞うものが存在した。しかし、今回は日本語を使い、ウイルスの感染を警告する内容を読み上げる。ちなみに声は女性であった。その内容であるが、以下の通りである。警告あなたのコンピュータでウイルスが検出されました。ただちに提供された番号に電話していただくと、あなたのコンピュータ上のアドウェア、スパイウェア、ウイルス除去のためにガイドされます。このメッセージが表示されたということは、あなたの個人情報、写真、パスワードやクレジットカード情報が危険にさらされているということです。提供された電話番号に連絡していただけるまでは、インターネットの使用、Webサイトにログインすることや、オンライン上での商品の購入はなさらないでください。文面は、かなり日本語に精通した人が作成したと思われるレベルである。しかし、「ガイドされます」のように不審を感じ得ない部分もある。また、実際に音声を聞いた印象であるが、完全なネイティブとは思えない印象であった。このことから、海外の攻撃者が、明確に日本人を狙った攻撃といえるだろう。IPAに寄せられた相談内容によると、「PCサポート」といったWebサイトのアクセスしたところ、音声データが不意に再生されたとのことである。その詐欺サイトへは、広告バナーのクリックやリダイレクトによるものとIPAでは指摘する。音声を再生するのは、BGMなどと同じ仕組みである。その詐欺サイト閲覧したら、ウイルス感染などを調べることなく、無条件で警告音声を再生するようになっていた。警告音声にあったように、表示されたメッセージにある電話番号に電話をかけるように薦められる。このような手口に遭遇したことのないユーザーの中には、不安から電話をしてしまったユーザーもいたとのことである。そして、電話では遠隔サポートによるウイルス駆除を行うので、指定された遠隔操作ソフトのインストールを行うように告げられたとのことである。実際に、遠隔操作ソフトをインストールすると、なんらかの遠隔操作が行われた。その後、有償のセキュリティ対策ソフトの購入を促された。IPAでは、遠隔操作ソフトは速やかにアンインストールするように推奨した。有償のセキュリティ対策ソフトは断ればすむ。しかし、IPAではもっとも確実なのは、このような誘いに乗らず、指定された電話番号に決して電話をかけないこととしている。そして、IPAでは、日頃からのセキュリティ対策こそが重要と注意喚起する。脆弱性の解消、正しいセキュリティ対策ソフトの導入、地味であるが確実な対策となる。それを決して忘れないでほしい。その一方で、筆者が脅威に感じるのは新たな手口を考え、攻撃を仕掛ける攻撃者である。ウイルスや不正プログラムなどに大きな変化はない。それ以上に巧妙化しているのは、ドラマ性であったり、危機感を煽る演出、注力を働かせないようにする工夫である。個人データを入力するまえに、重要な判断をするまえに、今一度、振り返ってみることがいかに重要か。改めて思い知らされた事例であった。
2015年08月04日ソフトバンクロボティクスは、31日午前10時より販売を開始した感情認識ロボット「Pepper」の7月販売分1000台が1分で予定数に達したと発表した。6月受付の初回販売分1000台も1分で完売しており、Pepper人気はまだ続きそうだ。「Pepper」は、人の感情を認識し、コミュニケーションがとれるパーソナルロボット。本体価格は、税別(以下同)198,000円、ロボット手続き手数料として9,800円が別途かかるほか、「Pepper」のフル機能を利用するには、「Pepper 基本プラン」への加入が必要となり、3年間での総額は108万3,600円となる。Pepperの販売は今年2月に開発者向けに300台を販売、そして一般向けに6月に1000台を販売し、いずれも1分で完売した。今回も1000台が1分で完売しており、需要を満たしきれていない状態が続いている。なお、8月販売分1000台を8月29日午前10時より、ソフトバンクロボティクスのウェブサイトで受け付ける。
2015年07月31日NTTコミュニケーションズは7月28日、WebRTC技術活用のためのプラットフォーム「SkyWay」にて、マルチブラウザ対応の音声認識APIを無償公開したと発表した。同音声認識APIは、JavaScriptで構成されているため、利用者側のブラウザでの新規ソフトウェアのインストールが不要となっている。また、音声認識サーバーはSkyWay上で提供されるため、個別に音声認識エンジンを構築する必要はない。これに加えて、NTT研究所の最先端の技術を活用しており、入力された自由発話音声を高速・高精度で認識することが可能となっている。対応ブラウザは、「Chrome」「Firefox」「Opera」で、次期マイクロソフト製ブラウザ「Edge」にも対応予定。また同社は、WebRTC技術によるアプリ開発をより容易とする、多人数接続・画面共有ライブラリ、WoTサンプルコードとWebRTCセキュリティ文書も併せて無償で公開した。
2015年07月28日セガトイズは21日、女子小学生向け「ジュエルポッド」シリーズから、スマホ型トイ「ジュエルポッドマジック」を発表した。発売は8月6日で、価格は税別9,800円。ジュエルポッドマジックは、ユーザーの声を認識してアプリの起動や壁紙の変更を行う音声操作機能を搭載したスマホ型トイ。カメラ、メール(通信には赤外線を使用)、アラーム、録音、音楽再生などの機能を備えるほか、27種類のゲームアプリを内蔵する。電源は単4形乾電池×4本で、約24時間連続で使用できる(時計表示時)。サイズはW68×H120×D21mm。カラーはピンクとパープルの2色。
2015年07月22日NECソリューションイノベータは7月21日、北海道大学と共同で「画像認識による虫画像の同定を支援する技術」に関する研究を同月より開始すると発表した。研究期間は2016年3月までで、北海道大学長谷山研究室が保有する画像認識特許技術をベースとした、特定の虫画像と類似したものを虫画像データベースから検索する技術の開発を行う。具体的には、対象データの収集による検索精度変化の確認や類似画像検索エンジンの、虫に適した検索アルゴリズムの研究などが主な内容となる。NECソリューションイノベータは、同研究の成果を受け、スマートフォンなどで撮影した虫の画像から病害虫の種類の同定を支援するシステムの開発を行う予定。同社は、同システムの実現により、外観が似ている病害虫の種類を速やかに特定し、その種類に合わせて農薬の使用量を最小限にするなど、人の健康と環境へのリスクを軽減する適切な方法で病害虫を防除し、農作物被害を防ぐことが可能になるとしている。
2015年07月21日東芝は7月2日、音声や映像に含まれる言葉や人物を捉えてその意図や状況を理解し、人にわかりやすく伝えるクラウド・サービス「RECAIUS(リカイアス)」を発表した。その第1弾として、音訳エディタと音声書き起こしエディタのサービスを2015年10月から開始し、営業活動を開始した。新サービスは、人がICTを意識して利用するのではなく、ICTが人の意図や状況に合わせて適切に動作するための仕組み作りに貢献するとしている。同社は、人が持つ「見る」「聴く」「話す」といった能力をICTで補完することにより、言語や表現などの言葉の違いや音声・映像・文字といった形態の違いを超えて、多くの人が安心・安全・快適に過ごせる社会の実現を目指しているという。なお、「RECAIUS(リカイアス)」という名称は、人の言動を理解し人に分かりやすく伝えることで、人と人との理解を支援したいという想いから名付けた同社の造語とのことだ。同サービスは、同社が長年培ったとする音声認識や音声合成、顔・人物画像認識、知識処理技術を融合して、これらの能力を最大限引き出せるよう、必要な知識を日々進化させることが可能なクラウド上で構成しているとのこと。さまざまな言葉の表現や人の動き・態度から意図や状況を理解して、要約・翻訳・音声対話・音声合成を利用して、人にわかりやすく伝えるという。例えば、カメラに写った人に合わせて情報を提示する案内システムや、音声記録をテキスト化して重要な発言だけをチームで共有するなど、幅広い業務や用途で活用できるとしている。同社は同サービスを、自治体・図書館向けの音訳支援サービス、金融業向けの対話サービス、フィールド作業支援など、各種サービスへの適用に向けて提案していくという。10月開始予定のサービス2種類のうち、「RECAIUS音訳エディタ(DaisyRings(デイジー・リングス))」は、視覚障害やディスレクシア(識字障害)により文字を読むことが困難な人のための音訳コンテンツを、簡単に作成できるというクラウド・サービス。Webブラウザ上でテキストをアップロードして音訳でき、編集結果をデジタル録音図書の国際規格であるDAISY形式のファイルでダウンロードできる。音声合成の読みやアクセントも修正可能。図書館や学校、行政機関での利用のほか、一般企業でも製品マニュアルなどドキュメントの音訳に利用できるとしている。なお、2016年4月施行の「障害者差別解消法」では障碍者差別解消のための合理的配慮が、行政機関では義務、一般企業などでも努力義務として求められているという。同サービスは全国の大学や障害者団体などで実証実験を実施し、使い勝手を高めてきたとのことだ。もう一方の「RECAIUS 音声書き起こしエディタ」は、講演や会議などの録音データをブラウザ上で人が聴いて書き起こす作業を支援するサービス。アップロードした音声データを再生しながらテキスト入力する際、テキスト未入力の箇所を特定して自動的に音声を再生したり、音声認識によるテキスト入力の候補を提示したり、話者の切り替えを推定したりすることで、音声をチェックしながら書き起こしを効率よく行えるとのこと。本サービスも実証実験を実施し、使い勝手を高めてきたという。さらに同社は今後、「RECAIUS 音声ビューア」「RECAIUS 音声クリエータ」「RECAIUS 音声対話」「RECAIUS 同時通訳」「RECAIUS 人物ファインダ」といったサービスをSaaSで提供する予定だ。また、RECAIUSの次世代サービスの充実に向けて、同社の研究開発センターで各種の技術開発に取り組んでいます。その一例として、話者の音声に似た声で多様な感情音声を生成する「感情付き似声生成技術」や、カメラで撮影した看板・標識・メニューなどの画像から複数文字列を同時に認識する「情景文字認識技術」などを開発しているとのこと。
2015年07月03日Netatmoは26日、顔認識機能を搭載したスマートホームカメラ「Welcome」を発売した。希望小売価格は税込29,800円。Welcomeは、内蔵のフルHDカメラで事前に登録しておいた人物の顔を自動認識し、その名前をユーザーのスマートフォン、タブレット、PCに通知するホームカメラ。カメラが録画した映像はmicroSDカードに記録される。赤外線LEDに対応しており、夜間のモニタリングも行える。カメラ画角は約130度。スマートデバイス向けの専用アプリには家の様子をリアルタイムで確認する「ライブストリーム」機能や、過去にカメラが検知した人物の一覧を表示する「タイムラインスクリーン」機能を備える。デバイスと本体間の通信は暗号化し、セキュリティに配慮している。対応OSはiOS 8.0以上、Android 4.3以上。
2015年06月26日Netatmoは26日、顔認識機能を搭載したスマートホームカメラ「Welcome」を発売した。同社ホームページ、家電量販店などで購入でき、価格は税込み29,800円。「Welcome」は、フルHD画像、130度の広角撮影、赤外線LEDによるナイトビジョン撮影に対応したセキュリティカメラ。顔認識機能を搭載しており、認識した顔と名前を結びつけ、ユーザーのスマートフォンに通知する。登録されていない人を検出した場合も同様にスマートフォンを介してユーザーに知らせる。記録された映像や登録した情報は、プライバシー保護の観点からクラウド上ではなく、本体のSDカード上に保存される。また、登録されたユーザーひとりひとりに対し、通知や録画の有無を設定できるため、子どもが帰宅したときのみ通知することも可能となっている。利用するには、同名の専用アプリからスマートフォンをペアリングする必要がある。アプリでは、誰かが在宅中であるか否かを把握できるほか、ライブストリームにより、宅内の状況をリアルタイムで確認可能。また、過去の映像の再生にも対応している。専用アプリの対応OSは、iOS 8以降、Android 4.3以降。主な仕様は次の通り。サイズは高さ約155mm×幅約45mm×奥行き約155mm。外部ストレージはmicroSD(32GB)。パッケージには8GBのmicroSDが付属する。通信面では、Wi-Fi(IEEE802.11b/g/n)とEthernet(RJ-45ポート)をサポートする。
2015年06月26日米Amazonは23日(現地時間)、音声アシスタント機能を搭載した円筒型デバイス「Amazon Echo」の予約受付を開始した。出荷は7月14日で、価格は179.99ドル(約22,000円)。IEEE802.11a/b/g/n準拠の無線LANやBluetooth機能を搭載した、円筒型デバイス。上面に7基のマイクを搭載し、ユーザーの音声を認識するためハンズフリーで操作できる。具体的には、ユーザーのAmazon MusicやPrime Musicなどと連携した音楽の再生や、オーディオブックの読み上げのほか、Googleカレンダーに登録したスケジュールの確認、Amazonの買い物履歴を参考にしたAmazonの再注文、乗り換え案内機能、ニュースや天気情報の提示、質問に対するWikipediaベースの回答、タイマー機能などを備える。このほか、フィリップスのネットワーク対応照明「hue」など、一部の家電製品との連携も可能。本体サイズはW83.5×D83.5×H235mm、重量は約1.045kg。本体には360度無指向性スピーカーを搭載する。外出先からAmazon Echoを操作できる専用アプリも、Fire OS/Android/iOS向けに提供予定。
2015年06月24日ソニーモバイルコミュニケーションズは、スマートフォンと連携して、音声認識による音楽再生や電話の発信ができるBluetoothスピーカー「BSP60」を11日より発売する。価格はオープンで、市場推定価格は税別38,000円前後。「BSP60」は、スマートフォンと連携させることで、端末内の音楽の再生などが行える球形Bluetoothスピーカー。音声認識機能を搭載しており、本体に話しかけることで、スマートフォン内の天気、スケジュールなどにアクセスできる。また、電話の発信・受信にも対応しており、内蔵マイクを介してのハンズフリー通話も可能となっている。そのほか、音楽再生時には、楽曲に合わせてスピーカーカバーやLEDライトが動くほか、本体も回転や前進などアクションを起こす機能を搭載している。主な仕様は次の通り。対応OSはAndroid 4.4以降。実用最大出力は2.5Wステレオ。ディスプレイは、1.6型モノクロディスプレイ(128×100ピクセル)。充電端子はmicroUSB(Bタイプ)。サイズ/重量は、直径約100mm/約349g。連続音楽再生時間は約5時間(音楽に合わせて踊るアクションがオフの状態)。連続待機時間は約15時間。(記事提供: AndroWire編集部)
2015年06月24日米Amazon.comは、筒型の音声アシスタントデバイス「Amazon Echo」の予約受付を米国で開始した。価格は179.99ドル。発送は7月14日を予定している。「Amazon Echo」は、Wi-FiとBluetooth接続に対応した筒型デバイス。7基のアレイマイクと音声認識機能を備えており、ハンズフリーで操作できる。Amazon Music、Prime Musicなどと連携した音楽再生が可能なほか、スマートフォンやタブレット端末を介することでSpotifyやiTunesにもアクセスできる。また、天気情報の検索や、アラームの設定、Wikipedia検索なども本体に話しかけることで行える。そのほか、オーディオブックの読み上げや、Amazon Prime対象商品の再注文にも対応している。サイズ/重量は、高さ約235mm×幅約83.5mm×厚さ約83.5mm/約1,045g。通信面では、IEEE802.11a/b/g/nに準拠したWi-Fi、Bluetoothをサポートする。
2015年06月24日米Facebookは15日(米国時間)、iOSとAndroid向けの顔認識技術を利用した写真共有アプリ「Moments」を米国で公開した。今後は、ほかの国でも提供していくという。「Moments」は、旅行や結婚式などのイベントで撮影した写真を、参加者がグループで共有できるアプリ。同アプリを利用することで、集合写真などを複数の端末で撮影する必要がない。グループは、端末に保存された写真から、撮影した時間と「Facebook」アプリで写真のタグ付けの提案などに使われている顔認識技術を利用して作成される。そのため、「Facebook」の設定で提案機能をオフにしているユーザーはタグ付けされない。写真はアルバムとしてアップされ、自分の端末に保存することが可能。また、タグ付けされた自分を含む特定の名前から、写真を検索できる。そのほか、「Moments」上から写真を直接「Facebook」や「Instagram」、「Messenger」に投稿することも可能となっている。(記事提供: AndroWire編集部)
2015年06月16日オンキヨー&パイオニアは16日、業界初(同社調べ)の「音声付き早見/遅見再生」機能を搭載したハイレゾ音源対応のBDプレーヤー(2機種)を発表した。パイオニアブランドから発売し、価格はオープン。推定市場価格(税別)は、上位モデル「BDP-180」が27,000円前後(7月下旬発売)、「BDP-3140」が15,000円前後(6月下旬発売)。それぞれブラックとシルバーを用意する。BDP-180とBDP-3140の「音声付き早見/遅見再生」は、音程を変えずに音声を聞きながら1.5倍速/0.8倍速の再生ができる機能。動画を短時間で見たり、再生速度を落としてダンスレッスンなどに利用できる。USBメモリに保存したハイレゾ音源(WAV/FLAC)の再生にも対応した。さらに上位モデルのBDP-180は、3Dデジタルカメラで撮影した3D静止画ファイル(MPO)、高音質フォーマットのSACD、ハイレゾ音源のDSDとALAC(Apple Lossless Audio Codec)にも対応。「4K/24pアップスケーリング」機能も搭載しており、高画質・高音質でコンテンツを楽しめる。加えて「YouTube Send to TV」にも対応し、スマートフォンのYouTubeアプリで選択した動画をテレビ画面に映すことが可能だ。「Miracast」と「Wi-Fi Direct」にも対応しているので、スマホ/タブレットの画面をそのままテレビに映し出せる。DLNA 1.5準拠。対応するメディアは、BD-ROM(BDMV) 、BD-R/RE(BDMV、BDAV) 、BD-R DL/RE DL(BDMV、BDAV)、BD-R LTH(BDMV、BDAV)、DVD-Video、DVD-R/RW(ビデオモード、VRモード/CPRM対応)、DVD-R DL(ビデオモード、VRモード/CPRM対応)、DVD+R/+RW(ビデオモード)、DVD+R DL(ビデオモード)、CD、CD-R/RW(音楽CDフォーマット)、SACD(BDP-180のみ)、AVCHDディスク、AVCRECディスク、USBメモリ。再生可能ファイルは、BDP-180がDivX Plus HD、MKV、WMV、3GP、FLV、JPEG、MPO、PNG、GIF、MP3、WMA、FLAC、WAV、DSD、ALAC。BDP-3140が、DivX Plus HD、MKV、WMV、3GP、FLV、JPEG、MP3、WMA、FLAC、WAV。インタフェースは、HDMI×1、アナログ2ch音声出力×1、光デジタル音声出力×1、有線LAN(10BASE-T/100BASE-TX)×1。USBポートは、BDP-180が2基、BDP-3140が1基。本体サイズ・重量は、BDP-180がW435×D250×H58mm・2.0kg、BDP-3140がW360×D208×H39mm・1.2kg。
2015年06月16日オンキヨー&パイオニアは16日、音声付き「早見再生機能」を搭載したDVDプレーヤー「DV-2030」を発表した。7月下旬から発売し、価格はオープン、推定市場価格は6,000円前後(税別)。DV-2030の早見再生は、音程を変えずに音声を聞きながら、約1.4倍速で再生できる機能。ボリュームを下げた時でも、セリフを聴き取りやすくする「ダイアローグ」機能も搭載している。著作権保護技術のCPRMをサポートし、デジタル放送を録画したDVDの再生も可能なほか、JPEGおよびMP3の再生にも対応した。出力解像度は480iと480p。対応するメディアは、DVD-Video、DVD-R/RW(ビデオモード、VRモード/CPRM対応)、DVD-R DL(ビデオモード、VRモード/CPRM対応)、DVD+R/+RW(ビデオモード)、DVD+R DL(ビデオモード)、Video CD、CD、CD-R/RW(音楽CDフォーマット)。本体サイズはW360×D200×H42mm、重量1.2kg。インタフェースはコンポーネント映像出力×1、RCAコンポジット映像出力×1、アナログ2ch音声出力×1、同軸デジタル音声出力×1。
2015年06月16日STMicroelectronicsは、ソフトウェアを含むBluetooth Low Energy(BLE)対応無線通信ICを使用した音声送信ソリューションを開発したと発表した。同ソリューションで提供される新たなBlueVoiceソフトウェアには、 同社の32ビットマイコンである「STM32」や低消費電力ネットワークプロセッサ「BlueNRG」、MEMSマイクロフォンを活用したシステムにおいて、 BLEによる音声伝送に必要なドライバとライブラリがすべて用意されており、スタック可能な開発ボードと組み合わせることで、プロトタイプを簡単に制作することができるという。また、BlueVoiceを搭載したこの開発プラットフォームは、 MEMSマイクとモーション・センサを使用した音声・ジェスチャ制御機能の実装に最適化されており、 より直感的で自然なユーザー・インタフェースを実現することができるとする。さらに、STM32CubeプラットフォームをベースとしたosxBlueVoiceミドルウェアおよび「BlueVoiceLink Software Development Kit(SDK)」は、同社のMEMSデジタルマイクを用いた開発をサポートするopen.AUDIOライセンス・プログラムに含まれているほか、評価・開発用のBlueVoiceLink SDKは、同社Webサイトより無償ダウンロードが可能で、配布パッケージに含まれるライセンス・ウィザード・ツールを使用することで、 簡単にアクティベーションすることができるという。
2015年06月12日LINEは4日、最大200人まで同時に音声通話ができる無料アプリ「Popcorn Buzz」を公開した。Android版からの先行公開となり、Google Playでダウンロード可能。iOS版は近日中の提供を予定している。「Popcorn Buzz」は、最大200人が同時に音声通話できる無料のグループ通話アプリ。名前とプロフィール写真を登録し、グループごとに発行されるURLをメール・SMSなどを通じて送付・招待することで利用できる。また、「LINE」ユーザーであれば、「LINE ログイン」による会員登録と、「LINE」の友だち情報の同期も可能となっている。グループ通話画面では、参加ユーザーのアイコンを一覧で確認でき、発言者のアイコンの右下に印が表示されるなど、誰が発言しているのかが視覚的に判断できるユーザーインターフェースを採用している。今後は、グループビデオ通話機能や、「LINE」のグループとの連携機能の追加を検討していくという。「Popcorn Buzz」の対応OSはAndroid 4.0以降。対応言語は、日本語、英語、中国語(簡体字・繁体字)、韓国語、インドネシア語、マレーシア語、タイ語、トルコ語、ベトナム語、スペイン語、フランス語、ポルトガル語、ブラジル語、ドイツ語、イタリア語、ロシア語、アラビア語。(記事提供: AndroWire編集部)
2015年06月04日Lenovoは28日、「Windows 10」に搭載する音声アシスタント「Cortana」に、同社の検索機能「REACHit」を連携すると発表した。「Cortana」と連携した「REACHit」は、Windows 10が発売を予定する2015年夏からベータ版を利用可能で、秋からは一般向けにダウンロードが可能になるという。「Cortana」は、米MicrosoftがWindows 10に合わせて提供を予定する音声アシスタント。ローカルストレージ内やOneDrive上のファイルを音声で検索できるほか、ユーザーの好みを学習し、ニュースや天気といった情報の表示、音声によるメール、リマインダーの作成などに対応するという。一方の「REACHit」は、ローカルストレージに加え、クラウド上にあるファイルや、デバイス間をまたいだファイル検索が行えるアプリケーション。「Cortana」と「REACHit」が連携することで、「Cortana」の検索機能を強化する。例えば、OneDriveやGoogleドライブ、Dropboxといったクラウドストレージのファイルを音声で検索できるようになるほか、複数のWindows 10デバイスをまたいで、ローカルストレージのファイルを検索、GmailやExchangeといったメールサービス、Googleカレンダーといったカレンダーサービスから予定を確認することもできるようになるとしている。LenovoのWebサイトでは、ベータ版サービスの提供に向けた事前申し込みの受付を開始している。
2015年05月28日帝人、タグキャスト、セルクロスの3者は5月25日、都内で会見を開き、O2O(Online to Offline)向けに信号を面で認識できるシート型ビーコン「PaperBeacon」を開発したと発表した。同製品はBluetooth LE(BLE)による通信とセルクロスが保有する「2次元通信技術」を活用することで、従来のビーコンと異なり、スマートフォンやタブレットを同製品の上を置くことで面としての通信を実現し、座席の位置などを特定し、テーブルなどに応じた機能を提供することを可能とするもの。具体的には、セルクロスが保有する電磁波をシールドするメッシュ状の金属の隙間から電磁波よりも短い波長がシート表面近傍に染み出す現象(エバネッセント波)を利用することで、面での近距離通信を可能とする「2次元通信技術」を利用した通信媒体である「セルフォーム」を帝人が開発し、それにタグキャストのビーコン技術「TAGCAST」を組み合わせることで実現したという。セルフォームを採用したシートは布だけでなく、堅いシートやワイヤ状の素材も実現できるため、ウェアラブルへの適用なども考えられるという。このシートは30cm間隔で配置しても、それぞれのPaperBeaconを認識することができ、各ビーコンが発行するIDをクラウド上にて管理することで、サービスの提供が行われる。サービス事業者側は、タグキャストのSDKを用いてアプリを開発することで、簡単にテーブルとビーコンを紐づけることができるようになる。なお、ビーコンにはリチウムイオン電池が搭載されており、1年程度の稼働が可能。導入費用は初期費用が5000円、管理システムの運用/保守で月額800円としているが、導入台数などによって価格は変わってくるとのこと。また、想定用途は飲食店や学校などを中心に考えているとするが、グローバルに需要があるとのことで、新たな利用方法の模索なども図っていき、セルフォームビジネスとして従来のIDタグによる物品管理などと併せて2019年度で20億円としているほか、同製品単体では初年度で1万枚の出荷を目指すとしている。国内発売は6月1日からで、設計/製造を帝人とセルクロスが担当し、販売/運用/保守をタグキャストが担当する。
2015年05月25日