由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择
相关主题
如何把文字转换成机器可读形式?mxnet 这个东西有人用么?
胡扯几句什么叫Deep Learning入门xgboost 训练大数据问题
tensorflow的design各位看好pytorch么?
Pytorch靠谱吗?pytorch技术上先进一些?
深度学习真正有实用价值的应用tf keras 这么多坑?
最近想学NLPdeep learning做embeded system,业界动态或者公司
Think Python被reference搞晕了
为什么很多数据挖掘的开发包都是用Python或R写的?stl的nth_element的复杂度是不是O(N)?
相关话题的讨论汇总
话题: stanford话题: nlp话题: opennlp话题: semantic话题: 模型
进入Programming版参与讨论
1 (共1页)
Y****o
发帖数: 81
1
最近在做公司的NLP平台,要从Open source的Java NLP 工具中选一个。不知道OpenNLP
, Stanford NLP哪个更好些。我自己两个都用过,感觉同样的text,Stanford NLP
tokenization, parsing 结果更准确一些,不过差别不是特别大。都会需要再处理一下。
想了解一些,如果作为一个大系统(有后台数据库,前端web app及其他业务模块)的
NLP Pipeline,这两个有什么优缺点呢?
多谢🙏
m****o
发帖数: 182
2
Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford可
以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训练
模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学术
界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。

OpenNLP
下。

【在 Y****o 的大作中提到】
: 最近在做公司的NLP平台,要从Open source的Java NLP 工具中选一个。不知道OpenNLP
: , Stanford NLP哪个更好些。我自己两个都用过,感觉同样的text,Stanford NLP
: tokenization, parsing 结果更准确一些,不过差别不是特别大。都会需要再处理一下。
: 想了解一些,如果作为一个大系统(有后台数据库,前端web app及其他业务模块)的
: NLP Pipeline,这两个有什么优缺点呢?
: 多谢🙏

c**a
发帖数: 47
3
Java stack 怎么整合spacy pytorch?
[在 mianwo (↖(^ω^)↗) 的大作中提到:]
:Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford
可以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训
练模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学
术界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
:spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。
:OpenNLP
:☆ 发自 iPhone 买买提 1.24.06
m****o
发帖数: 182
4
训练出来的tf模型可以部署到java上

stanford
接上

【在 c**a 的大作中提到】
: Java stack 怎么整合spacy pytorch?
: [在 mianwo (↖(^ω^)↗) 的大作中提到:]
: :Stanfordnlp,提供的功能要多得多。opennlp只能做entity recognition,stanford
: 可以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训
: 练模型,并把模型嵌入pipeline。但是stanford的学习曲线明显高一些,并且因为是学
: 术界写的库,有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
: :spacy + tensorflow/pytorch做深度学习,如果数据量比较大的话。
: :OpenNLP
: :☆ 发自 iPhone 买买提 1.24.06

c**a
发帖数: 47
5
明白了
那么pytorch这部分 不参与maven clean install?
[在 mianwo (↖(^ω^)↗) 的大作中提到:]
:训练出来的tf模型可以部署到java上
:stanford
:接上
:☆ 发自 iPhone 买买提 1.24.06
Y****o
发帖数: 81
6
多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax
features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前
倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能
handle heavy processing等等,想看看有没有人有这个经验。

【在 m****o 的大作中提到】
: 训练出来的tf模型可以部署到java上
:
: stanford
: 接上

m****o
发帖数: 182
7
准备feature这段无非就是作tokenization和word embeddings转换,写段java程序调用
opennlp或者stanford就可以了。

【在 c**a 的大作中提到】
: 明白了
: 那么pytorch这部分 不参与maven clean install?
: [在 mianwo (↖(^ω^)↗) 的大作中提到:]
: :训练出来的tf模型可以部署到java上
: :stanford
: :接上
: :☆ 发自 iPhone 买买提 1.24.06

m****o
发帖数: 182
8
做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂

【在 Y****o 的大作中提到】
: 多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax
: features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前
: 倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能
: handle heavy processing等等,想看看有没有人有这个经验。

m****o
发帖数: 182
9
但是我建议即便决定用深度学习,还是尽量使用Stanford做一下baseline,保证你的
deep model性能起码要beat shallow model。

【在 Y****o 的大作中提到】
: 多谢,训练出来的tf模型也需要NLP pipeline pre-procdessing的features(syntax
: features, POS feature等等)来做输入吧,那么用哪个OpenNLP还是Stanford呢?目前
: 倾向于OpenNLP, 因为Stanford是GPLlicense,但是怕OpenNLP有其他问题,比如不能
: handle heavy processing等等,想看看有没有人有这个经验。

Y****o
发帖数: 81
10
比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun,
semantic type之类的feature?

【在 m****o 的大作中提到】
: 做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂
相关主题
最近想学NLPmxnet 这个东西有人用么?
Think Pythonxgboost 训练大数据问题
为什么很多数据挖掘的开发包都是用Python或R写的?各位看好pytorch么?
进入Programming版参与讨论
Y****o
发帖数: 81
11
比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun,
semantic type之类的feature?

【在 m****o 的大作中提到】
: 做深度学习的话只需要raw word embedding feature,不用搞pipeline那么复杂
m****o
发帖数: 182
12
POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读
读。



【在 Y****o 的大作中提到】
: 比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun,
: semantic type之类的feature?

Y****o
发帖数: 81
13
多谢,不过这个我还真没见过用 raw word 做的文章。

【在 m****o 的大作中提到】
: POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读
: 读。
:
: ,

s********k
发帖数: 6180
14
哪里有经典的LSTM搞定POS的文章?推荐一下

【在 m****o 的大作中提到】
: POS tagging都直接可以用lstm搞定,你这个应该也可以,不过可能需要去找些文章读
: 读。
:
: ,

m****o
发帖数: 182
15
看看这个
https://github.com/UKPLab/deeplearning4nlp-tutorial

【在 s********k 的大作中提到】
: 哪里有经典的LSTM搞定POS的文章?推荐一下
m****o
发帖数: 182
16
https://github.com/XMUNLP/Tagger

【在 Y****o 的大作中提到】
: 多谢,不过这个我还真没见过用 raw word 做的文章。
Y****o
发帖数: 81
17
我指的的是Semantic Role Labeling 用只用raw word做feature。

【在 m****o 的大作中提到】
: https://github.com/XMUNLP/Tagger
m****o
发帖数: 182
18
你再去看看它的描述,就是用的glove做word embeddings啊,训练模型是attention
network。

【在 Y****o 的大作中提到】
: 我指的的是Semantic Role Labeling 用只用raw word做feature。
Y****o
发帖数: 81
19
多谢,Github 和那篇文章都看过了,挺不错的。

【在 m****o 的大作中提到】
: 你再去看看它的描述,就是用的glove做word embeddings啊,训练模型是attention
: network。

1 (共1页)
进入Programming版参与讨论
相关主题
stl的nth_element的复杂度是不是O(N)?深度学习真正有实用价值的应用
准备面试一个java-based position,有什么书推荐一下?最近想学NLP
register variableThink Python
a c++ question.为什么很多数据挖掘的开发包都是用Python或R写的?
如何把文字转换成机器可读形式?mxnet 这个东西有人用么?
胡扯几句什么叫Deep Learning入门xgboost 训练大数据问题
tensorflow的design各位看好pytorch么?
Pytorch靠谱吗?pytorch技术上先进一些?
相关话题的讨论汇总
话题: stanford话题: nlp话题: opennlp话题: semantic话题: 模型