几十年来,研究人员一直在研究词向量,但这个概念真正引起关注是在 2013 年,那时 Google 公布了 word2vec 项目。Google 分析了从 Google 新闻中收集的数百万篇文档,以找出哪些单词倾向于出现在相似的句子中。随着时间的推移,一个经训练过的神经网络学会了将相似类别的单词(如狗和猫)放置在向量空间中的相邻位置。
Google 的词向量还具有另一个有趣的特点:你可以使用向量运算“推理”单词。例如,Google 研究人员取出最大的(biggest)向量,减去大的(big)向量,再加上小的(small)向量。与结果向量最接近的词就是最小的(smallest)向量。