Dataの前処理


対話システムの改良には、自然言語処理が必要となりますが、それには前処理が不可欠のようです。以下の順序でソースコードを蓄積しながら学ぶことにします。

1 クリーニング処理

2 文書の単語分割

3 単語の正規化

4 ストップワードの除去

5 単語のベクトル表現