さくさくテキストマイニング勉強会#2

行ってきました!

http://atnd.org/events/13744


初心者も初心者で、超がついても足りない初心者ですが、
せっかく学生なので、恥ずかしがらず知識量を増やしたいと思って突撃してきました。

Ustや資料まとめ参考
http://dev.team-lab.com/index.php?itemid=254


以下メモです。
今回は手で取ってたので、おかしいところがあるかもしれません。怪しいところはご指摘お願いします…!

言語処理学会へ遊びに行ったよ(AntiBayesian様)

  • 学会に行くと技術の最新情報が手に入る。ぜひ行ってみよう!
  • スライド資料に、読んでおくべき10のブログ列挙有り
    • レベル順になっていて、「6以降は難しくて読むのが少し辛い…」
  • リアルタイム性を使う研究が流行している
    • Twitterやwikiを使って、人間がすでに行ったカテゴライズを使う等

→学会だと、「失敗した」・「精度が低い」という発表がほとんど

    • 単語のカウントだけでは駄目

今日から使える!みんなのクラスタリング超入門(toilet_lunch様)

  • 1つの事例を1つのクラスタに結びつけるハードコーディング

→K-means法(これは覚えて帰ろう!)

クラスタリング
  • ランダムで重心を決める→重心に一番近いクラスに所属させ、クラスタリング→重心を再計算→重心を変えてもクラスが変わらない→クラスタリングできた!
  • 「bayon」→仕事で使える

Q「最適なクラス数の決め方は?」
A「人手でやるしかない。勘とかいくつか試してみて決める等」

〜『可視化するだけ』でも面白い〜テキストマイニング最初の一歩(ts_3156様)

  • えごったーで使われているクラスタ分析の実装方法
  1. ユーザAと同じリストのユーザを取ってくる
  2. 同じリストのユーザのプロフィール連結、形態素解析
  3. 出現頻度が高い単語が、ユーザAの関連語
  • なぜツイートを使うのはいけないのか?

→新聞のようなツイートであってもこの程度の精度しかない

開発で思ったこと
  • 高度な知識は必ずしも必要ない
    • 簡単な解法で解ける問題はたくさんある
  • 可視化するだけでいい
    • 面白さは人間が勝手に見つける
  • 見切り発車でも大丈夫!とりあえず作ってみよう

概観テキストマイニング(todesking様)

  • フリーテキスト
  • データ量はパワー
    • ノイズ混じりでも大量データは強い
  • フリーテキストを扱いたいから、構造化されていないデータを扱う技術が必要
  • フリーテキストの構造解釈
  • 数量・日付などのデータは構造化済みである
    • これは解析の際大きなヒントになる
  • データと道具を理解して、どうしてその結果になったのかを考えないといけない

自分が今まで、足を踏み入れたことの無い分野だったので、色々勉強になりました!
とりあえず、「作る」ということが大事だという事を思い出しました…

色々難しいことや、それぞれの経緯や歴史が色々有りますが、やっていく中で必要な部分だけ逐一身につけるのが大事だよ!!という熱い発表をお聞き出来たり、
テキストマイニングってこんな感じのことやっているのか〜と知ることができました!


どのくらいのレベルの話なのか、先輩からちょくちょく聞きながら発表を聞けたのでありがたかったです…!


会場の雰囲気も柔らかく、楽しく、面白かったです!


またタイミングが合えば参加したいと思います!
ありがとうございました!