Word Embeddings(単語埋め込み)は、単語の意味的な関係を捉えた密なベクトル表現です。これらの埋め込みは、大規模なコーパス(文書集合)から学習され、単語間の意味的な距離をベクトル空間で表現します。従来の one-hot エンコーディングとは異なり、意味的に類似する単語がベクトル空間で近くに配置されます。
一般的な単語埋め込み手法
- Word2Vec: ニューラルネットワークに基づいており、文中の単語のコンテキスト(周囲の単語)を使って単語ベクトルを学習します。2つの主要なアーキテクチャがあります。