対話システムの改良には、自然言語処理が必要となりますが、それには前処理が不可欠のようです。以下の順序でソースコードを蓄積しながら学ぶことにします。
1 クリーニング処理
2 文書の単語分割
3 単語の正規化
4 ストップワードの除去
5 単語のベクトル表現
hiragi