由买买提看人间百态

topics

全部话题 - 话题: 文本处理
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
p*****2
发帖数: 21240
1
ruby的表达能力跟perl比怎么样
e*******o
发帖数: 4654
2
https://metacpan.org/favorite/leaderboard
排名前 100 的模块,都是精品。
目前metacpan 好些。不过都是基于PAUSE。
e*******o
发帖数: 4654
3
ruby 很多地方是借鉴perl,相当与perl的oo版。Larry Wall 本人也觉得ruby 对Perl
的威胁,比 python大。
关于Perl的OO,二爷可以看看 perl 的Moose(Perl 中排名最高的模块)。
l*******s
发帖数: 1258
4
如果搞的东西要上production 建议还得用java之类的语言
perl、python是比较方便 但是速度啊 稳定性啊 兼容性之类的 恐怕离production的要
求还有些距离
比如我们组的一些老project用的perl 现在全部在换成java或者c#
还有个重要原因就是,NLP现在越来越多用到machine learning,这玩意还是java c++
之类的库比较多,perl和python之类的也有,但是用到production上,总是有些这样那
样的问题。
当然了,回到lz的问题,简单的text数据处理任务,python和perl挺好的。
F****3
发帖数: 1504
5
谢谢,请问要不要单独学perl呢?问题很弱,不好意思啊。。。
c*********e
发帖数: 16335
6
perl早就过气了,现在是java的天下,c#也凑合。
F****3
发帖数: 1504
7
谢谢你的建议啊!主要是我没有cs背景,C#可能会很难掌握。。。
e*******o
发帖数: 4654
8

Perl 比C# 麻烦。
你主要是先找门语言把基本概念搞清楚,以后用哪个语言再学就好了。
z*******3
发帖数: 13709
F****3
发帖数: 1504
10
谢谢你的建议,我先学好python吧。掌握了以后再学其他的,先不同时一起上。现在用
版上推荐的PyCharm学习积极性高,呵呵!
F****3
发帖数: 1504
11
谢谢推荐,我google了"what is ruby good for"
http://ubuntuforums.org/archive/index.php/t-416082.html
这个文章是第一个结果,看了看讨论挺有意思的!
z*******3
发帖数: 13709
12
我认为以你读master的智商,说什么“学”python是很掉价的事
python的学习也就是本科comp102里面四分之一课程搞定的事
我们现在就是这么教的,python+perl+htmlcssjavascript+c一门课
其中c有后续课程,其他三个木有
z*******3
发帖数: 13709
13
花两个星期“学”python,足够了
这个东西没有所谓的学好不好的问题
学得再好,这个语言的回字都只有一种写法
z*******3
发帖数: 13709
14
python的哲学是,回字只能有一种写法,而且是最简单的那种
perl和ruby的哲学是,回字应该有很多种写法,而且应该经常华山论回
java的哲学是,回字可以有很多种写法,我们大家一起商量决定标准写法
.net的哲学是,你不需要知道回字怎么写,让微软来帮你写,你知道给钱就行了
php的哲学是,回字这个东西,应该用最节省纸张的方式书写
然后大家都忘记了,最早回字其实是用c写的
g*****g
发帖数: 34805
15
选择语言的不二法则是看需要的库有没有,已经实现的相似应用都用啥。
regex本身几乎所有语言都有实现。
c****e
发帖数: 1453
16
能告诉我那个语言的regex不支持"?!"吗?
z*******3
发帖数: 13709
17
连html都支持
F****3
发帖数: 1504
18
真是学了很多,太谢谢你们了!
现在正在看NLTK的书。封面是鲸鱼的那个,写的很通俗易懂:)
t***a
发帖数: 416
19
来自主题: Programming版 - Python, Java, Perl, PHP,Ruby
perl的铁杆当然说perl的文本处理多无敌,我觉得差不多,
perl很适合写那种quick&dirty的一次性脚本,至于regex匹配的performance, perl粉
说perl好一些,我觉得差不了太多,regex那玩意匹配起来要多少时间,谁说的也不算
我的建议是,有现成的脚本就用人家的,管它perl还是python呢,要是自己从头写,
python比较好,这语言简单干净
z****e
发帖数: 54598
20
ruby和perl强在其文本处理能力极强,但是一直没有大公司支援ror的引擎
twitter跑去搞jvm之后,就没有太多剩下了,就看日本人能不能跟上了
python也没啥指望,google压根没有把python当儿子看
都是在c++外面用点python做包装,真遇到效率瓶颈的时候,就跑回去用c++
跟fb不得不优化php的效率不是一回事,python下面唯一的指望就是荷兰人
日本人 vs 荷兰人,我更看好日本人
i**i
发帖数: 1500
21
这根本不是问题。服务器发送完之后(大不了flush各种buffer),客户端自然继续。
服务器可以接着该干嘛干嘛。
一般情况,发送html是最后一个任务。但是本来就没人规定发完html服务器就结束处理。
p***o
发帖数: 1252
22
你的解决方案似乎和通常的差别比较大,没市场自然也就没人做。
一般都手写个HAL把硬件相关的东西独立出来,剩下的都是标准C/C++,用LLVM处理成
IR再编译到你的芯片。LLVM的好处是可以从IR开始加自己的东西,啥都可以,比如
emscripten和AutoESL。
m***r
发帖数: 359
23
来自主题: Programming版 - Python 2015年1月楼
先按月在这分享吧,免得一天一个有刷版的嫌疑。
先贴今天的:
Python日报 2015-01-30
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-01-30/short.html
1) 【南大公开课:使用Python学习“概率论与数理统计”】 by @陈振宇NJU
关键词:数据科学, 计算
面向软件开发者的“概率论与数理统计”--数学理论与编程应用的完美结合!加入网易
云课堂 [1] ,让我们学会用严谨的数学方法和优雅的Python来分析那些似是而非的问
题! @网易云课堂 @中国计算机学会软件工程专委会
[1] http://mooc.study.163.com/course/NJU-1000031001#/info
2) 【plan:用python管理cron任务】 by @PyPINews
关键词:库, 运维
[PyPI Newest Package] p... 阅读全帖
m***r
发帖数: 359
24
来自主题: Programming版 - Python日报 2015年2月楼
Python日报 2015-02-19
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-02-19/short.html
1) 【稀疏随机投影的Python实现】 by @爱可可-爱生活
关键词:库, 数据科学, 博客, 机器学习
[文章]《Python Sparse Random Projections》 [1] Python下用scikit-learn做稀疏
随机投影(sparse random projections)实现特征降维,简单高效
[1] http://blog.yhathq.com/posts/sparse-random-projections.html
长微博图:http://ww1.sinaimg.cn/large/5396ee05jw1epec033hffj20s166bqv5.jpg
2) 【用Python和NLTK发现公共Twitter... 阅读全帖
m***r
发帖数: 359
25
来自主题: Programming版 - Python日报 2015年2月楼
Python日报 2015-02-20
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-02-20/short.html
1) 【开源深度学习框架Mariana】 by @爱可可-爱生活
关键词:Web, 库, 数据科学, PDF, 代码, 机器学习, 框架
[开源] Mariana——来自腾讯的开源深度学习框架,基于theano [1] 相关文章和幻灯:
[2] [3]
[1] https://github.com/tariqdaouda/Mariana
[2] http://djt.qq.com/article/view/1231
[3] http://thumedia.org/assets/BDTC/%E9%82%B9%E6%B0%B8%E5%BC%BA%20-%20Mariana%EF%BC%9A%E8%85%BE%E8%AE%AF%E6%B7%B1%E5... 阅读全帖
z****e
发帖数: 54598
26
来自主题: Programming版 - 对 (im)mutability 的误解和深度理解
还有一点
对于immutable的目的没有表述出来
因为如果不设置成immutable
在多线程的环境中
就会出现不确定性
那就是输入一致的时候,输出不同
同一个东西有可能出现两种结果
所以干脆全部弄成immutable的,不让你改
所以为了保证这一点
每一次出现新的value,都需要重新生成一个新的变量
这个真心不适合一些特别活跃的物体
适合数字文本处理这些,能够赋值一次,走完整个生命周期
然后销毁,不过这个确定性也可以挪用到其他地方去
oop也可以做成这样,无非包多一层,不要用static var就好了
但是oop一般不要求你做成immutable的,所以不同的状态下
有可能函数结果不同,但是这个东西无非是一个留意嘛
也就是说做成immutable容易搞嘛,oop其实也可以这么做
但是immutable对于那种状态非常活跃的对象,十分不合适啊
需要声明其为mutable heap object,而这么做的话
就不能绝对保证多线程环境下的确定性了,就不是pure fp了
我相信这种东西还是会出现的,比如游戏,游戏实在是不适合做fp
越是即时的越不合适,batch倒是比较适合immut... 阅读全帖
i***h
发帖数: 12655
27
文本处理没有regexp没法搞吧
m****s
发帖数: 1481
28
来自主题: Programming版 - 神经网络研究的致命伤
需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空... 阅读全帖
m****s
发帖数: 1481
29
来自主题: Programming版 - 神经网络研究的致命伤
需要那么多层主要是工程问题,理论上已经证明了只需一层的浅网络就可以模拟任何数
学模型,但是实际中没有有效的算法能学出来适合解决问题的模型,所以才用很深的网
络分层学习特征,才能达到解决实际问题的效果。
另外神经网络只是受到人脑的启发,实际上和人脑的工作原理是不是一样根本没有人说
得清,因为人脑是怎么工作的现在还没弄明白,所以说什么真相,都是压根儿没学明白
的,根本没有所谓的真相,只有基于具体问题的performance好不好。
深度学习现在主要两大块,generative和discriminative,也就是无监督和有监督,
CNN只是一种模型,其他还有很多种模型,而且神经网络很多时候也不是单独在用,和
其他机器学习模型结合也是扩展业务的一个大的发展方向。
深度神经网络现在是处于hype之中,但是真正搞这个领域的还是很清楚它的优缺点和接
下来的研究重点的。hinton一直致力于继续研究人脑的机理来改进神经网络模型,其他
一些大牛则不过分拘泥于模拟自然脑,而是利用已经发掘的神经网络的原理另辟蹊径开
发应用,比如lecun的抛弃语法,词,句完全从字母学习语言的应用。在某些课题上确
实进步空... 阅读全帖
j***n
发帖数: 301
D**o
发帖数: 2653
31
来自主题: TeX版 - 请问natbib下如何处理这
我是natbib新手,用它是因为可以和hyperref同时使用,可以建立文本和reference
之间的link
比如有一个(或者多个)作者写了两个文章被引用,如果不使用natbib,在正文中
可以写成Author (2005, 2007), reference里面当然还是两个单独的文章。
但是用natbib为了达到link的效果,只会显示成Author (2005), Author (2007), 有
什么办法显示成上面的格式
多谢
r******y
发帖数: 9892
32
来自主题: Windows版 - Vista系统的奇怪现象,求救~
我的IBM(Lenovo)T61笔记本(Vista操作系统)有个非常奇怪的现象,可能已经很久了
,不过我最近刚刚留意到……操作系统所在分区的硬盘空间好像在慢慢被吞掉……@_@
我查看这个分区能看到的文件总共也超不过几个GB,但显示的占用空间已经逼近40GB了
……而且更恐怖的是我注意到之后发现它每天都在增加,以每天0.5GB左右的速度……>
_<我这个笔记本记本上都在用来做文本处理和网络浏览,没装什么奇奇怪怪的软件,自
己的文件都存放在分开的另一个分区应该也没有影响。Norton防毒也一直都在工作没有
报告过什么病毒。这是怎么回事啊?@_@
n******7
发帖数: 12463
33
来自主题: Biology版 - 浅谈生物信息的职业发展规划
说的很好。bioinfo的主要技能就是CPR
c/c++ 做一些计算量大的工作
r/matlab 做建模分析
perl/python 做文本处理,输入输出
SQL website的一些技能,更偏应用层面,跟research关系不大。除非你有很多原始
data,你要是老灌database的水,会被
人鄙视的。
S*******e
发帖数: 94
34
1. 文本处理,
Perl或者Python任一就行,C++或者JAVA也可以。这个不在于谁好谁坏,而在于目的。
如果只是想入门,不想玩得太深。即,你编的代码大多数都不到200行,那其实PERL最
好。因为方便易懂。
我入行的时候,一个老哥告诉我说语言本身不重要,入门的时候关键要看你周围会哪种
语言的人多。这样只要在他们的帮助下学会任一,需要的时候再去琢磨别的就很容易。
我现在回头看,挺同意这个观点。
2. linux,
其实核心就是几个命令行,并且安装一些主流软件。弄台电脑,找个熟手带带,跑几遍
就入门了。
3. R
这个也不难。很多人觉得R很难,其实瓶颈在于对统计学的理解,而不是在于对R代码的
理解。
前几天,老板让我带一个Ph.D学生学R。 这个学生问我的第一个问题是“T-test是什么
?”。
如果是这种情况其实不应该先学R。应该先去学统计学的基础和原理,学会统计学假设
和实验设计这些思想,然后再去学R。
4. 其他
MySQL,这个东西还是要推荐一下。其实这个有点像EXCEL。主要是用来查询和筛选。命
令行简单易学,上手快。
n******7
发帖数: 12463
35
来自主题: Biology版 - 转行 bioinformatics
确实,一天到晚都用linux
经常还要折腾一些安装设置
另外,linux/unix做些快速的文本处理是非常方便的
不过我不建议用awk/sed或者shell脚本做比较复杂的任务
这时候直接上script更方便高效
n******7
发帖数: 12463
36
来自主题: Biology版 - 转行 bioinformatics
确实,一天到晚都用linux
经常还要折腾一些安装设置
另外,linux/unix做些快速的文本处理是非常方便的
不过我不建议用awk/sed或者shell脚本做比较复杂的任务
这时候直接上script更方便高效
F**D
发帖数: 6472
37
来自主题: Physics版 - 为什么很多人这么不待见matlab

智能计算器,呵呵,
补充一点,经常会用matlab做点文本处理,批处理,这两种做科学计算的也是常遇到的
问题之一。
m*****a
发帖数: 95
38
来自主题: Statistics版 - 有人处理过.db文档么?
汗。。这有点难度,所以要问清楚他们是用什么软件写的data,然后下载到那个软件才
可以看是么?
能不能转为excel或者文本来看啊?
g*****o
发帖数: 812
39
来自主题: DataSciences版 - ds要刷leecode吗,
我觉得这两运算以外的操作都比较麻烦,比如文本处理,数据库操作
n*****3
发帖数: 1584
40
来自主题: DataSciences版 - ds要刷leecode吗,
R is at least OK now in terms of data manipulation;
R's 文本处理 can be weak, python and perl' regex are sure way better.
about 数据库操作 or nosql, will there be much difference with either
R or python or any other tools?
g*****o
发帖数: 812
41
来自主题: DataSciences版 - ds要刷leecode吗,
因为文本处理弱,所以输出sql语句也麻烦
g*****o
发帖数: 812
42
来自主题: DataSciences版 - ds要刷leecode吗,
我觉得这两运算以外的操作都比较麻烦,比如文本处理,数据库操作
n*****3
发帖数: 1584
43
来自主题: DataSciences版 - ds要刷leecode吗,
R is at least OK now in terms of data manipulation;
R's 文本处理 can be weak, python and perl' regex are sure way better.
about 数据库操作 or nosql, will there be much difference with either
R or python or any other tools?
g*****o
发帖数: 812
44
来自主题: DataSciences版 - ds要刷leecode吗,
因为文本处理弱,所以输出sql语句也麻烦
h********3
发帖数: 2075
45
搞文本处理的人几乎清一色地用svm。
h********3
发帖数: 2075
46
搞文本处理的人几乎清一色地用svm。
l*******s
发帖数: 1258
47
搞文本处理的 科班出身的 用的最多的其实是MaxEnt
r***u
发帖数: 1272
48
1. 两幅图片同时动作
PowerPoint的动画效果比较多,但图片只能一幅一幅地动作。如果你有两幅图片要一左
一右或一上一下地向中间同时动作,可就麻烦了。其实办法还是有的,先安置好两幅图
片的位置,选中它们,将之组合起来,成为"一张图片"。接下来将之动画效果设置为"
左右向中间收缩",现在请看一看,是不是两幅图片同时动作了?
2. 滚动文本框的制作
右击工具栏打开"控件工具箱",再点击文本框,而后从"属性"里面把滚动条打开,在TEXT
里面输入文本框的内容.(完成)还可以通过"其他控件"中的SHOCKWAVE FLASH OBJECT 实
现PPT中加入FLASH。
3. 轻松隐藏部分幻灯片
对于制作好的powerpoint幻灯片,如果你希望其中的部分幻灯片在放映时不显示出来,
我们可以将它隐藏。方法是:在普通视图下,在左侧的窗口中,按 Ctrl,分别点击要
隐藏的幻灯片,点击鼠标右键弹出菜单选“隐藏幻灯片”。如果想取消隐藏,只要选中
相应的幻灯片,再进行一次上面的操作即可。
4.在PPT演示文稿内复制幻灯片
要复制演示文稿中的幻灯片,请先在普通视图的“大纲”或“幻灯片”选项中,选择... 阅读全帖
d*********p
发帖数: 1531
49
秦晖:“否定”并未彻底,“真相”仍待揭示——《...
头头儿
来自: 头头儿(我不想再拥有,我不能再失去) 2015-05-13 22:08:13
标题:秦晖:“否定”并未彻底,“真相”仍待揭示——《历史拒绝遗忘》序言
本文为《历史拒绝遗忘——清华十年文革回忆反思集》序言,此书由孙怒涛主编,中国
文化传播出版社于2015年2月出版。
前言、目录:http://blog.sina.com.cn/s/blog_ab1b782d0102vpld.html
◇ 我们都是"六六届"
文革当然不仅仅是一场"学生运动",但是在表象上无论当时还是今天一些研究者
眼中,"学生运动"与学生身份的"红卫兵"都是文革的典型景观。而在曾经构成这一景观
的人群中,孙怒涛先生他们这些文革前的大学生是最年长的老大哥,我们这些文革爆发
时刚进中学的"六六级(六九届)初中生"则是最年少的小弟。
与"六六届"中学毕业生(后来所谓狭义"老三届"中最高一届,就入学而言一般是
初六○级)当时几无例外地都滞留学校经历文革不同,该届的大学、小学毕业生与文革
的联系差异很大。六六届大学毕业生该年大部分都没有按时分配工作而留校参加... 阅读全帖
v****i
发帖数: 779
50
湖北大学心理学系反邪教课题组
1、选题的意义和价值
现实生活中有无数案例表明法轮功教众在信教过程中钱财被骗取、亲情被阻断、家
庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮功被中华人民共和国政
府界定为邪教。李洪志作为教主也被有些学者界定为人格变态者。但是在广大教众心目
中教主李洪志俨然就是“神”,公正、英明、睿智、神武,小到“祛病除灾”,大到掌
管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同被下了蛊,对于组织的指令
如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计从;法轮功作为一种宗教“
组织”,更是因为劝人向善、倡导“真、善、忍”吸引一干信徒趋之若鹜,社会在其教
众中声誉极高,影响极大。研究者本人在介入本次课题研究之际也对法轮功教主李洪志
的有关著作进行了研读,其感受和体验却与法轮功教众绝然不同,除了一些涉及到科普
知识的内容以外并未感觉有什么不妥,研究者认为对于同一个人同一个宗教组织的认知
与评价反差如此巨大,这种巨大的反差的产生,除了政治立场不同以外,还极有可能跟
法轮功的传播特征有关,因此研究者试图对以下两个问题进行探讨。第一,通过对教主
李洪志在《转法轮... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)