ニュース / News

お知らせ

提供中の「不満調査データセット」の辞書データを更新

国立情報学研究所 データセット共同利用研究開発センターの情報学研究データリポジトリ(IDR)では、株式会社Insight Tech(旧社名:株式会社不満買取センター)との提携により2017年2月から提供している「不満調査データセット」の辞書データを更新し、提供を開始しました。

※更新に伴い、データの名称を「不満カテゴリ辞書データ」から「カテゴリ別不満特徴語辞書」に変更いたしました。

今回の更新で、辞書データの作成元となる不満投稿に約8ヶ月分のデータが追加され、また単語を詳細な品詞で区別したことにより、辞書の単語エントリ数が約2倍に増加しました。

[カテゴリ別不満特徴語辞書]

Insight Techが運営しているwebサービス「不満買取センター」に2015年3月18日(サービス開始日)から2017年8月1日までに投稿されたデータのうち、特定カテゴリ下に投稿された約472万件より作成された、カテゴリごとに特徴的な単語を抽出した辞書データです。

本データに含まれるのは「カテゴリ」「単語」「単語の品詞情報」「単語のカテゴリ所属スコア」だけであり、特定の個人につながる情報は一切含まれていません。

提供するカテゴリは不満買取センターで運用されているカテゴリおよびサブカテゴリで、総務省の「日本標準産業分類」を参考に株式会社Insight Techがカスタマイズした体系であり、約190万単語について、TF-IDF、PMI(自己相互情報量)、SOA の3種類の特徴量抽出手法により算出されたスコアがついています。

[前回の提供版]
  • 抽出対象期間:2015年3月18日-2016年12月1日
  • 対象投稿数:約300万件
  • 単語エントリ数:約95万件
[今回の更新版]
  • 抽出対象期間:2015年3月18日-2017年8月1日
  • 対象投稿数:約470万件
  • 単語エントリ数:約190万件

提供データは今後も増やしていく予定です。研究に広くご活用いただければ幸いです。

2840

注目コンテンツ / SPECIAL