さくさくテキストマイニング勉強会#2
行ってきました!
初心者も初心者で、超がついても足りない初心者ですが、
せっかく学生なので、恥ずかしがらず知識量を増やしたいと思って突撃してきました。
Ustや資料まとめ参考
http://dev.team-lab.com/index.php?itemid=254
以下メモです。
今回は手で取ってたので、おかしいところがあるかもしれません。怪しいところはご指摘お願いします…!
言語処理学会へ遊びに行ったよ(AntiBayesian様)
- 学会に行くと技術の最新情報が手に入る。ぜひ行ってみよう!
- スライド資料に、読んでおくべき10のブログ列挙有り
- レベル順になっていて、「6以降は難しくて読むのが少し辛い…」
- リアルタイム性を使う研究が流行している
- Twitterやwikiを使って、人間がすでに行ったカテゴライズを使う等
→学会だと、「失敗した」・「精度が低い」という発表がほとんど
-
- 単語のカウントだけでは駄目
〜『可視化するだけ』でも面白い〜テキストマイニング最初の一歩(ts_3156様)
- えごったーで使われているクラスタ分析の実装方法
- ユーザAと同じリストのユーザを取ってくる
- 同じリストのユーザのプロフィール連結、形態素解析
- 出現頻度が高い単語が、ユーザAの関連語
→新聞のようなツイートであってもこの程度の精度しかない
開発で思ったこと
- 高度な知識は必ずしも必要ない
- 簡単な解法で解ける問題はたくさんある
- 可視化するだけでいい
- 面白さは人間が勝手に見つける
- 見切り発車でも大丈夫!とりあえず作ってみよう
概観テキストマイニング(todesking様)
- フリーテキスト
- 自然言語による記述
- 前処理必須
- データ量はパワー
- ノイズ混じりでも大量データは強い
- フリーテキストを扱いたいから、構造化されていないデータを扱う技術が必要
- フリーテキストの構造解釈
- 人間が考える。上手く出来ればデータマイニングをすることができる
- 数量・日付などのデータは構造化済みである
- これは解析の際大きなヒントになる
- データと道具を理解して、どうしてその結果になったのかを考えないといけない
自分が今まで、足を踏み入れたことの無い分野だったので、色々勉強になりました!
とりあえず、「作る」ということが大事だという事を思い出しました…
色々難しいことや、それぞれの経緯や歴史が色々有りますが、やっていく中で必要な部分だけ逐一身につけるのが大事だよ!!という熱い発表をお聞き出来たり、
テキストマイニングってこんな感じのことやっているのか〜と知ることができました!
どのくらいのレベルの話なのか、先輩からちょくちょく聞きながら発表を聞けたのでありがたかったです…!
会場の雰囲気も柔らかく、楽しく、面白かったです!
またタイミングが合えば参加したいと思います!
ありがとうございました!