NTTレゾナント、gooラボで日本語解析技術APIを公開
今回は第1弾として、ビッグデータ解析などにおいて必須となる要素技術「語句類似度算出」「ひらがな化」「固有表現抽出」「形態素解析」の日本語解析API4種が公開された。
語句類似度算出とは、2つの語句(キーワード)に対して、構成単語や音素の情報を踏まえて、その類似度合いを算出するAPIで、今まで目視や辞書を使って行っていたデータの統合作業を自動化する。
固有表現抽出は、トレンドや評判の解析に必須となる人名や地名、組織名などを抽出するAPIで、SNS上の投稿で話題になっているスポットを発見するといった分析を容易にする。
これらAPIの活用により、分析対象となるビックデータが日本語で書かれた文章の場合、単なる文字列の集計に加え、より書かれている内容に基づいた分析ができるようになるという。
ひらがな化は、字混じりで書かれた文字列を”ひらがな”もしくは“カタカナ”による記載に変換するAPIで、変換後の文字列は、読みやすいように文中の適当な位置に半角スペースが挿入されるので、子供向けコンテンツの作成などに有用。
形態素解析は、日本語の文字列を、形態素と呼ばれる単位に分割するAPIで、その結果を集計することにより、自社製品のレビュー記事からどのような表現でよく評価されているかといった分析が容易になる。
提供元の記事
関連リンク
-
new
私の毎日は、私が調える。体と心をすっきりとリセットする暮らしのヒント
-
new
小澤征悦、妻・桑子真帆アナの妊娠を笑顔で生報告「しっかりサポートしてあげたい」 自身の52歳の誕生日に発表
-
new
魔裟斗&矢沢心、夫婦そろって“ムキムキ”に 筋トレ&プロテインで作り上げた美ボディ披露に反響「すげー筋肉」「ワイルドでカッコいい」
-
new
2児の母・山田花子、冷蔵庫にあったもので“ささっと作った”手作り弁当に反響「栄養もボリュームも満点だねー」「ほんとすごい」
-
new
Prime Video世界ランキング発表開始 『日本三國』が世界10位&非英語圏2位、『バチェロレッテ・ジャパン』もランクイン【5/25/26 - 5/31/26】