由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 请教, 用word2vec, 怎么判断两个句子的相似度 ?
相关主题
请教,word2vec中, 如何知道每个维度代表什么意思 ?彭博社驻华记者因泄密被停职
人工智能必然racist啊彭博社记者被人民大会堂拒之门外
请教, AI方面, 最应该学习的基本方法和技术有哪些 ?我共一口气把Bloomberg,NYTimes 的记者全部赶走ZT
中国高铁发展路径遭国际社会抨击中国不再奴颜婢膝,被白皮指:开始不“谦虚”了
华尔街日报:中国高铁发展路径遭抨击陈光标收购“闹剧”背后的外媒困境(ZT)
看反华媒体如何诋毁高铁最近亚洲大家都是希特勒ZT
再次印证了“钱多,人傻,速来”贾庆林?彭博隐秘报道王健林背后的前常委
曝彭博社使用特殊编码规避中共审查彭博隐秘报道王健林背后的前常委
相关话题的讨论汇总
话题: word2vec话题: 句子话题: 相似话题: winkler话题: jaro
进入Military版参与讨论
1 (共1页)
d**s
发帖数: 920
1
请教, 用word2vec, 怎么判断两个句子的相似度 ?
把每个句子中的每个词的vector 加起来, 再做dot product,
好像不make sense.
多谢大家。
L******i
发帖数: 3027
2
Jaro-Winkler distance method
d**s
发帖数: 920
3
多谢, 我搜了一下, 又看了看wiki关于Jaro-Winkler distance method的介绍。
好像 Jaro-Winkler distance不是直接用Word2Vec产生的vector.
能給一个Jaro-Winkler distance直接用Word2Vec的reference 吗 ?
多谢。

【在 L******i 的大作中提到】
: Jaro-Winkler distance method
s*****l
发帖数: 7106
4
把stopword拿走
然后取所有词的平均值就好了
L******i
发帖数: 3027
5
如果要判断语意上的相似度 那就用LSTM
如果是词上的相似度 就用我说的办法

【在 d**s 的大作中提到】
: 请教, 用word2vec, 怎么判断两个句子的相似度 ?
: 把每个句子中的每个词的vector 加起来, 再做dot product,
: 好像不make sense.
: 多谢大家。

d**s
发帖数: 920
6
LSTM 可以和Word2Vec 一起用吧 ?
d**s
发帖数: 920
7
>> 然后取所有词的平均值就好了
你是说,取平均值 of the vectors of 所有词 ?
这样就是两个vector 比相似 ?

【在 s*****l 的大作中提到】
: 把stopword拿走
: 然后取所有词的平均值就好了

d*****u
发帖数: 17243
8
word2vec只是把词map到向量而已,是句子的input。
至于句子的处理有很多方法。现在最常用的是用Transformer。
前两年最常用的是LSTM。
更简单的方法就是把词向量取平均值之类的。

【在 d**s 的大作中提到】
: LSTM 可以和Word2Vec 一起用吧 ?
L******i
发帖数: 3027
9
随便google一下similarity comparison of two sentences
你们这群码农 还不如我这物理千老

【在 d**s 的大作中提到】
: >> 然后取所有词的平均值就好了
: 你是说,取平均值 of the vectors of 所有词 ?
: 这样就是两个vector 比相似 ?

s*****l
发帖数: 7106
10
Bag of words 就是这么做的

【在 d**s 的大作中提到】
: >> 然后取所有词的平均值就好了
: 你是说,取平均值 of the vectors of 所有词 ?
: 这样就是两个vector 比相似 ?

d**s
发帖数: 920
11
多谢。

【在 d*****u 的大作中提到】
: word2vec只是把词map到向量而已,是句子的input。
: 至于句子的处理有很多方法。现在最常用的是用Transformer。
: 前两年最常用的是LSTM。
: 更简单的方法就是把词向量取平均值之类的。

j****n
发帖数: 464
12
这种 word2vec 弄句子相似性的东西, 实际效果都很糟糕。
当然发文章没问题
1 (共1页)
进入Military版参与讨论
相关主题
彭博隐秘报道王健林背后的前常委华尔街日报:中国高铁发展路径遭抨击
CS 这个专业其实还真没必要念博士看反华媒体如何诋毁高铁
这两篇文章模型一样啊 你们说谁抄谁再次印证了“钱多,人傻,速来”
在美国同欧盟及其他主要贸易伙伴挑起贸易战的敏感时节曝彭博社使用特殊编码规避中共审查
请教,word2vec中, 如何知道每个维度代表什么意思 ?彭博社驻华记者因泄密被停职
人工智能必然racist啊彭博社记者被人民大会堂拒之门外
请教, AI方面, 最应该学习的基本方法和技术有哪些 ?我共一口气把Bloomberg,NYTimes 的记者全部赶走ZT
中国高铁发展路径遭国际社会抨击中国不再奴颜婢膝,被白皮指:开始不“谦虚”了
相关话题的讨论汇总
话题: word2vec话题: 句子话题: 相似话题: winkler话题: jaro