Hyperspace Analogue to Language (HAL)也被称为语义存储模型(semantic memory),由University of California, Riverside, California的Kevin Lund 和Curt Burgress于1996年提出的。Hyperspace Analogue to Language (HAL)模型的前提是,意义相近的词总是反复共同出现(也称为co-occurrence)。
作为一个来自一个大语料库的例子,我们看到mouse、dog、cat经常在接近的地方出现。同样,日本,马来西亚和新加坡可能也在接近的地方出现。
正文
这样我们就可以创建一个co-occurence的方阵,行列都是文中无重复的词。这是个n×n的矩阵,矩阵的第i行第j个元素代表第i个词附近出现第j 个词的得分。这个得分实际上是对距离的一个打分。比如若“猫”和“狗”在文中紧挨着,那么对应项可以得分5;如果中间隔着一个词,则得分为4等等,这样一 直到得分为1.这样的做法可以看作是控制了一个大小为5的滑动窗口。
这样相近的词语有着相似的行。从下面的表格中我们可以看出这一点。注意猫、狗、老鼠以及日本、马来西亚、新加坡。
行便是向量,向量之间的距离可以用余弦相似度来决定,注意需要将向量的长度归一化为1.
上面的例子还说明,不直接共同出现(co-occurrence)的词也可能意义相近,比如“狗”和“老鼠”尽管没有共同出现,但是它们和“猫”共同出现。
Hyperspace Analogue to Language (HAL)的与前人不同的优点便在于不需要人工指定维数以及训练语义向量空间(training semantic vector spaces),HAL只需要语料信息,这样不会受到人工偏置的干扰。