Y****o 发帖数: 81 | 1 最近在做公司的NLP平台,要从Open source的Java NLP 工具中选一个。不知道OpenNLP
, Stanford NLP哪个更好些。我自己两个都用过,感觉同样的text,Stanford NLP
tokenization, parsing 结果更准确一些,不过差别不是特别大。都会需要再处理一下。
想了解一些,如果作为一个大系统(有后台数据库,前端web app及其他业务模块)的
NLP Pipeline,这两个有什么优缺点呢?
多谢🙏 |
m****o 发帖数: 182 | 2 Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford可
以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训练
模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学术
界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。
OpenNLP
下。
【在 Y****o 的大作中提到】 : 最近在做公司的NLP平台,要从Open source的Java NLP 工具中选一个。不知道OpenNLP : , Stanford NLP哪个更好些。我自己两个都用过,感觉同样的text,Stanford NLP : tokenization, parsing 结果更准确一些,不过差别不是特别大。都会需要再处理一下。 : 想了解一些,如果作为一个大系统(有后台数据库,前端web app及其他业务模块)的 : NLP Pipeline,这两个有什么优缺点呢? : 多谢🙏
|
c**a 发帖数: 47 | 3 Java stack 怎么整合spacy pytorch?
[在 mianwo (↖(^ω^)↗) 的大作中提到:]
:Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford
可以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训
练模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学
术界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
:spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。
:OpenNLP
:☆ 发自 iPhone 买买提 1.24.06 |
m****o 发帖数: 182 | 4 训练出来的tf模型可以部署到java上
stanford
接上
【在 c**a 的大作中提到】 : Java stack 怎么整合spacy pytorch? : [在 mianwo (↖(^ω^)↗) 的大作中提到:] : :Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford : 可以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训 : 练模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学 : 术界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上 : :spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。 : :OpenNLP : :☆ 发自 iPhone 买买提 1.24.06
|
c**a 发帖数: 47 | 5 明白了
那么pytorch这部分 不参与maven clean install?
[在 mianwo (↖(^ω^)↗) 的大作中提到:]
:训练出来的tf模型可以部署到java上
:stanford
:接上
:☆ 发自 iPhone 买买提 1.24.06 |
Y****o 发帖数: 81 | 6 多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax
features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前
倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能
handle heavy processing等等,想看看有没有人有这个经验。
【在 m****o 的大作中提到】 : 训练出来的tf模型可以部署到java上 : : stanford : 接上
|
m****o 发帖数: 182 | 7 准备feature这段无非就是作tokenization和word embeddings转换,写段java程序调用
opennlp或者stanford就可以了。
【在 c**a 的大作中提到】 : 明白了 : 那么pytorch这部分 不参与maven clean install? : [在 mianwo (↖(^ω^)↗) 的大作中提到:] : :训练出来的tf模型可以部署到java上 : :stanford : :接上 : :☆ 发自 iPhone 买买提 1.24.06
|
m****o 发帖数: 182 | 8 做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂
【在 Y****o 的大作中提到】 : 多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax : features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前 : 倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能 : handle heavy processing等等,想看看有没有人有这个经验。
|
m****o 发帖数: 182 | 9 但是我建议即便决定用深度学习,还是尽量使用Stanford做一下baseline,保证你的
deep model性能起码要beat shallow model。
【在 Y****o 的大作中提到】 : 多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax : features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前 : 倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能 : handle heavy processing等等,想看看有没有人有这个经验。
|
Y****o 发帖数: 81 | 10 比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun,
semantic type之类的feature?
【在 m****o 的大作中提到】 : 做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂
|
|
|
Y****o 发帖数: 81 | 11 比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun,
semantic type之类的feature?
【在 m****o 的大作中提到】 : 做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂
|
m****o 发帖数: 182 | 12 POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读
读。
,
【在 Y****o 的大作中提到】 : 比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun, : semantic type之类的feature?
|
Y****o 发帖数: 81 | 13 多谢,不过这个我还真没见过用 raw word 做的文章。
【在 m****o 的大作中提到】 : POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读 : 读。 : : ,
|
s********k 发帖数: 6180 | 14 哪里有经典的LSTM搞定POS的文章?推荐一下
【在 m****o 的大作中提到】 : POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读 : 读。 : : ,
|
m****o 发帖数: 182 | 15 看看这个
https://github.com/UKPLab/deeplearning4nlp-tutorial
【在 s********k 的大作中提到】 : 哪里有经典的LSTM搞定POS的文章?推荐一下
|
m****o 发帖数: 182 | 16 https://github.com/XMUNLP/Tagger
【在 Y****o 的大作中提到】 : 多谢,不过这个我还真没见过用 raw word 做的文章。
|
Y****o 发帖数: 81 | 17 我指的的是Semantic Role Labeling 用只用raw word做feature。
【在 m****o 的大作中提到】 : https://github.com/XMUNLP/Tagger
|
m****o 发帖数: 182 | 18 你再去看看它的描述,就是用的glove做word embeddings啊,训练模型是attention
network。
【在 Y****o 的大作中提到】 : 我指的的是Semantic Role Labeling 用只用raw word做feature。
|
Y****o 发帖数: 81 | 19 多谢,Github 和那篇文章都看过了,挺不错的。
【在 m****o 的大作中提到】 : 你再去看看它的描述,就是用的glove做word embeddings啊,训练模型是attention : network。
|