単語分散表現


単語等のベクトル化、単語分散表現(単語埋め込み)について調べてみました。以前、「Dataの前処理」について学んでいた内容と繋がっていて技術が関連していました。自然言語処理に係る開発の歴史を整理してみました。以下の1→2→3の流れで開発されてきたようです。

  1. ニューラルネットワークがAI作成の主流になる以前
    • One-hotベクトル表現の手法・・・【局所表現】
    • サポートベクターマシンの手法
    • 解析木の手法
    • TF-IDFベクトルの手法
  2. ニューラルネットワークが機械学習の主流となった頃
    • Word2Vecの手法・・・【語彙レベルの分散表現】
      • 出力する単語分散表現は固定したもの
    • Skip-Gramの手法
    • CBOWの手法
    • Seq2Seqの手法
  3. ディープラーニングの研究が盛んになった頃
    • ELMoの手法【トークンレベルの分散表現】
      • LSTMというネットワークアーキテクチャ
    • BERTの手法【トークンレベルの分散表現】
      • Transformerというネットワークアーキテクチャ
      • 出力する単語分散表現は同一単語であっても文により異なる
    • GPTの手法【トークンレベルの分散表現】
      • Transformerというネットワークアーキテクチャ