単語等のベクトル化、単語分散表現(単語埋め込み)について調べてみました。以前、「Dataの前処理」について学んでいた内容と繋がっていて技術が関連していました。自然言語処理に係る開発の歴史を整理してみました。以下の1→2→3の流れで開発されてきたようです。
- ニューラルネットワークがAI作成の主流になる以前
- One-hotベクトル表現の手法・・・【局所表現】
- サポートベクターマシンの手法
- 解析木の手法
- TF-IDFベクトルの手法
- ニューラルネットワークが機械学習の主流となった頃
- Word2Vecの手法・・・【語彙レベルの分散表現】
- 出力する単語分散表現は固定したもの
- Skip-Gramの手法
- CBOWの手法
- Seq2Seqの手法
- Word2Vecの手法・・・【語彙レベルの分散表現】
- ディープラーニングの研究が盛んになった頃
- ELMoの手法【トークンレベルの分散表現】
- LSTMというネットワークアーキテクチャ
- BERTの手法【トークンレベルの分散表現】
- Transformerというネットワークアーキテクチャ
- 出力する単語分散表現は同一単語であっても文により異なる
- GPTの手法【トークンレベルの分散表現】
- Transformerというネットワークアーキテクチャ
- ELMoの手法【トークンレベルの分散表現】