关于opennlp的讨论汇总 - 话题女王

全部话题 - 话题: opennlp

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

多谢，训练出来的tf模型也需要NLP pipeline pre-procdessing的features（syntax
features, POS feature等等）来做输入吧，那么用哪个OpenNLP还是Stanford呢？目前
倾向于OpenNLP, 因为Stanford是GPLlicense，但是怕OpenNLP有其他问题，比如不能
handle heavy processing等等，想看看有没有人有这个经验。

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

Stanfordnlp，提供的功能要多得多。opennlp只能做entity recognition，stanford可
以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训练
模型，并把模型嵌入pipeline。但是stanford的学习曲线明显高一些，并且因为是学术
界写的库，有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
spacy + tensorflow/pytorch做深度学习，如果数据量比较大的话。

OpenNLP
下。

c**a
发帖数: 47

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

Java stack 怎么整合spacy pytorch?
[在 mianwo (↖(^ω^)↗) 的大作中提到：]
:Stanfordnlp，提供的功能要多得多。opennlp只能做entity recognition，stanford
可以做relation extraction和coreference。扩展性上stanford可以在给定数据库上训
练模型，并把模型嵌入pipeline。但是stanford的学习曲线明显高一些，并且因为是学
术界写的库，有的时候所谓的性能优化处理让人有点哭笑不得的感觉。我建议nlp直接上
:spacy + tensorflow/pytorch做深度学习，如果数据量比较大的话。
:OpenNLP
:☆ 发自 iPhone 买买提 1.24.06

Y****o
发帖数: 81

来自主题: CS版 - 请教关于OpenNLP 和 Stanford NLP 选择

最近在做公司的NLP平台，要从Open source的Java NLP 工具中选一个。不知道OpenNLP
, Stanford NLP哪个更好些。我自己两个都用过，感觉同样的text，Stanford NLP
tokenization, parsing 结果更准确一些，不过差别不是特别大。都会需要再处理一下。
想了解一些，如果作为一个大系统（有后台数据库，前端web app及其他业务模块)的
NLP Pipeline，这两个有什么优缺点呢？
多谢🙏

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

准备feature这段无非就是作tokenization和word embeddings转换，写段java程序调用
opennlp或者stanford就可以了。

z*******3
发帖数: 13709

来自主题: Military版 - 中国怎么没有富豪支持开源软件啊

这是apache的top projects
如果你能看懂，就知道开源在干嘛了
不过如果你是做os这种的，估计你看不懂这些是做啥的
这些社区都很活跃，版本号都在更新
Abdera Accumulo ActiveMQ Ant Aries Apache HTTP Server APR Avro Axis
Bloodhound Buildr Camel Cassandra Cayenne Chemistry Click CloudStack Cocoon
Continuum Cordova CouchDB cTAKES CXF Deltacloud Derby Directory Empire-db
Felix Flex Forrest Geronimo Gora Gump Hadoop Hama Hive HBase Isis Jackrabbit
James JMeter Kafka Lenya Mahout Marmotta Maven MINA mod_perl MyFaces ODE
OFBiz OpenEJB OpenJPA OpenNLP OpenOffice POI Pivot... 阅读全帖

l*******s
发帖数: 1258

来自主题: JobHunting版 - 有多少CS, EE博士出来没有对口的工作，只能当码工？

没必要自己从头实现from scratch
基本功能：有些半成品。比如sphinx，你可以用来训练自己的语音模型。另外，还需要
语言模型language model，可以考虑现成的比如Srilm。
高级功能：这个关键处在于如何把一个自然语言的句子变成machine readable的句子，
比如first order logic。一些思路：可以考虑parser，就是先把一个句子变成句法树
，然后根据phrase structure information来map到first order logic，执行程序命令
。parser可以考虑Berkeley parser, Stanford parser, OpenNLP parser等；或者考虑
dependency parser，或许比phrase structure parser更有用，比如Stanford parser
，malt parser等，甚至可以用semantic parser，这个需要自己实现。
总之就是，每一步都有现成的工具包，就看你怎么攒到一块，效果还好。这里面很多地
方需要自己去training，tuning。
至于... 阅读全帖

l*******s
发帖数: 1258

来自主题: StartUp版 - 刚做的美食数据挖掘应用，web和Android版，多谢捧场！

兄弟我业余自己搞了个应用：“Dishes Map”，基于用户Review的特色菜数据挖掘应用
Web版：
http://www.dishesmap.com
Android版：
https://play.google.com/store/apps/details?id=lingandcs.dishesmap
iOS版（开发中）
功能：
很简单，就一个：从饭馆的review中，找出受欢迎的菜！
基本原理：
从FourSquare和CitySearch等网站得到你周围饭店的用户Review，用NLP技术找出其中
的菜，然后用相关machine learning算法探测食客喜欢还是不喜欢。最终找出每个饭店
受欢迎的菜，post到网页上或者手机客户端。
用到的相关技术及工具：
+ OpenNLP, Stanford Core NLP,
+ In-house semi-supervised learning and self-training library,
+ Jetty, jQuery, MySQL, Apache
+ Titanium SDK, PhoneGap,
服务器：
租的Volum... 阅读全帖

l*******s
发帖数: 1258

来自主题: StartUp版 - 刚做的美食数据挖掘应用，web和Android版，多谢捧场！

兄弟我业余自己搞了个应用：“Dishes Map”，基于用户Review的特色菜数据挖掘应用
Web版：
http://www.dishesmap.com
Android版：
https://play.google.com/store/apps/details?id=dishesmap.mobile
iOS版（开发中）
功能：
很简单，就一个：从饭馆的review中，找出受欢迎的菜！
基本原理：
从FourSquare和CitySearch等网站得到你周围饭店的用户Review，用NLP技术找出其中
的菜，然后用相关machine learning算法探测食客喜欢还是不喜欢。最终找出每个饭店
受欢迎的菜，post到网页上或者手机客户端。
用到的相关技术及工具：
+ OpenNLP, Stanford Core NLP,
+ In-house semi-supervised learning and self-training library,
+ Jetty, jQuery, MySQL, Apache
+ Titanium SDK, PhoneGap,
服务器：
租的VolumeDr... 阅读全帖

l*******s
发帖数: 1258

来自主题: BuildingWeb版 - 新建网站：特色菜地图 http://www.dishesmap.com/。求feedback，谢谢

如题，兄弟我业余自己搞了个网站：Dishes Map: http://www.dishesmap.com
自动找出你周围好吃的菜。
内容基于餐馆用户的review，应用NLP和machine learning技术提取出用户喜爱的菜，
然后排序归类放到地图上显示。
专门为手机浏览器优化过，所以用iOS和Android等访问也可以。
搞这个的目的，一来为了解决自己出门不知道该吃什么的问题；二来锻炼自己的技术，
以防长期不用锈掉。
用到的技术：
+ OpenNLP, Stanford Core NLP,
+ In-house semi-supervised learning and self-training module,
+ Jetty, jQuery, MySQL, JSON, Google Map API, PhoneGap
刚刚上线，大家多捧场。
ps: 想学习网站和app推广，从何处学起？thx！

T*****9
发帖数: 2484

来自主题: CS版 - 很严肃的想讨论一下未来出路问题

你用opennlp,uima,gate还是stanford那个parser?

T*****9
发帖数: 2484

来自主题: CS版 - 很严肃的想讨论一下未来出路问题

你用opennlp,uima,gate还是stanford那个parser?

l*******s
发帖数: 1258

来自主题: Programming版 - parsing bibliography and sorting (转载)

这个东西可大可小
往小了说写一堆正则表达式自己弄一些rule 应该可以解决大部分问题
往大了说就是NLP里面典型的Named Entity Recognition问题，主流方法用machine
learning加一些context features。不妨试试一些现成的包，比如opennlp等

h********3
发帖数: 2075

来自主题: Programming版 - 为什么大家都说c++水很深？

NLP里面除了那个ntlk什么是python外。lingpipe,mallent，stanford nlp,opennlp全
是Java的。做machine learning的就不说了，大家最熟悉的Weka就是Java的。
然后现在不是大家都喜欢搞big data吗。现在做大数据科研分析的，不扯上hadoop你都
不好意思叫自己是搞big data的。hadoop就是Java写的。你要在上面跑你的mapper和
reducer，你也只有用Java写。

h********3
发帖数: 2075

来自主题: Programming版 - 为什么大家都说c++水很深？

l*******s
发帖数: 1258

来自主题: Programming版 - 如何把文字转换成机器可读形式？

这个，叫unstructured data to structured data
如果要搞好，基本上NLP是唯一解决方案。
不知道你要达到什么样的精确度。
有一些现成的包，比如opennlp之类的，但是没法抽取出你要求的所有内容，或许只能
搞定公司名而已。因为那些都是基于machine learning的用wall street journey语料
训练的
除非你自己标注一堆data然后重新训练模型，不过听你的意思这方面不擅长，还是工作
量很大的。
要是能凑活的话，不妨试试写一堆regex，搞rule based，或许能对付一阵子，就看你
们需求如何了。
另外，考虑下一些网上的API，比如Alchemy API等

w***g
发帖数: 5958

来自主题: Programming版 - NLP是使用什么技术或框架实现的？

NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
到的技术是倒排表，TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
ranking, clustering等等。这类应用对语言模型的假设大致是vector model，最多就
是n-gram，主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
是lucene，还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
等从文本抽取特征，那么就无法用倒排表了，只能用K-NN搜索。这个我觉得lucene可能
就做不了了（请专家指正）。Lemur可以做。还
有一个叫gensim的python库是用来做这个的，不知道是不是靠谱。还有一个应用是在超
大规模上找相似文本，甚至连倒排表都不够了，需要用到simhash和LSH等技术。
文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
等，然后就是机器学习了。
理论一点的研究领域叫computational linguistics，研究怎么... 阅读全帖

s****y
发帖数: 503

来自主题: Programming版 - 为什么很多数据挖掘的开发包都是用Python或R写的？

我没有挖坑啊
因为我发现只有少数开发包是用java写的，比如OpenNLP

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

训练出来的tf模型可以部署到java上

stanford
接上

c**a
发帖数: 47

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

明白了
那么pytorch这部分不参与maven clean install？
[在 mianwo (↖(^ω^)↗) 的大作中提到：]
:训练出来的tf模型可以部署到java上
:stanford
:接上
:☆ 发自 iPhone 买买提 1.24.06

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

做深度学习的话只需要raw word embedding feature，不用搞pipeline那么复杂

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

但是我建议即便决定用深度学习，还是尽量使用Stanford做一下baseline，保证你的
deep model性能起码要beat shallow model。

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun，
semantic type之类的feature？

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

比如做Semantic Role Labeling, 也只需要raw word embedding? 不需要head noun，
semantic type之类的feature？

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

POS tagging都直接可以用lstm搞定，你这个应该也可以，不过可能需要去找些文章读
读。

，

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

多谢，不过这个我还真没见过用 raw word 做的文章。

s********k
发帖数: 6180

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

哪里有经典的LSTM搞定POS的文章？推荐一下

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

看看这个
https://github.com/UKPLab/deeplearning4nlp-tutorial

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

https://github.com/XMUNLP/Tagger

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

我指的的是Semantic Role Labeling 用只用raw word做feature。

m****o
发帖数: 182

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

你再去看看它的描述，就是用的glove做word embeddings啊，训练模型是attention
network。

Y****o
发帖数: 81

来自主题: Programming版 - 请教关于OpenNLP 和 Stanford NLP 选择

多谢，Github 和那篇文章都看过了，挺不错的。

h********3
发帖数: 2075

来自主题: DataSciences版 - text mining中的relation extraction

看看Natural Language Process里面Information Extraction。这个是很古老的topic
，里面有很多方法和工具。这个圈子的研究比machine learning，data mining更古老
。常见的工具就是Apache OpenNLP，NLTK啥的。连训练好的一些model都可以在网站上
下载，只不过比较差。

a**********0
发帖数: 422

来自主题: DataSciences版 - 求职求内推

希望可以得到推荐
我读了两个硕士一个是computer engineering 另一个是 statistics （学的是数理统
计和优化什么的忘了不少了）
工作经历有 data mining 相关的projects （其实纯粹data mining的工作很少大多数
是跟Natural language processing 相关的 data mining）和NLP相关的projects 比
如 text summarization 比如topic modeling和 language models
对ETL还算熟悉
平时使用的工具是hadoop ecosystem 用的比较多的是
sqoop pig mapreduce hdfs hbase
其他非hadoop的工具用的比较多的是
weka lucene openNLP Nutch Mallet JDBC 等等
比较熟悉twitter的streaming API
平时也用server side的java 但是谈不上精通
java编程还可以 leetcode刷了两遍了
visualization用D3.js Gephi... 阅读全帖

l*******s
发帖数: 1258

来自主题: DataSciences版 - 假如想实现 entity recognition， relation extraction这些功能的话，除了GATE，还有哪些其它的open source library。

取决与你要搞什么样的NER和relation extraction
如果是比较标准人名地名公司名等有不少open source可以选择比如
OpenNLP，stanford NLP，LingPipe等
如果是Bio有关的可以试试Genia
但如果是比较特殊的要求比如识别菜名零件名书名等目前还没有比较现成的工具
你需要自己标注自己train一个出来可以自己手工标注corpus 然后用我上面提到的工
具重新train一遍

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天