c*m 发帖数: 1114 | 1 Perl的优势在它的正则表达式,它的正则表达式实在是太强了。在文字处理方面如果不
是超大的项目的话它这个优势还真是一白遮百丑。从scratch开始写个类似lynx的简单t
ext web browser基本上只要400行甚至更少。Java/C++哪个能做到?
of
to |
|
s****a 发帖数: 238 | 2 比如要把a1,a2替换成b1,b2,用replace-regexp只能在查找时支持正则表达式,替换时
就不行,有没有什么命令能够同时支持正则表达式的?手册文档都看过了好像找不到..
. |
|
a***y 发帖数: 2803 | 3 $genename =~ s/"//g; 是把"去掉.
$genename =~ s/" //g; 是把" 去掉.
这都是正则表达式的基本用法.建议你看看正则表达式.perl的这个功能很强大. |
|
a9 发帖数: 21638 | 4 又看了要求,的确用正则表达式。
你弄个streamreader还是叫什么能一行一行读的。读一行,正则表达式一行不就得了。 |
|
|
发帖数: 1 | 6 我tmd有次去应聘个职位 让我写个正则表达式
我说不同系统对那些符号有不同的定义 你说的grep怎么定义的 我记不太清了
瞬间 那个傻x一副不屑之色
我tmd后来一句话都懒的说了
这low b东西还不是看manual查查一分钟的事情
这有什么拿来考的 更有什么得瑟的
别说那些正则符号了
就是java语法 gdb命令 我不用也很快忘一半啊
所以说 很多程序员真的是low b
连得瑟都不知道得瑟啥
你问点device driver的中断处理
问点signal handler的可重入
问点lock-free的优缺点
问点b+tree为什么高效和使用场景
问点caching和buffering的区别
问点llvm前端后段分别怎么写
问点false sharing危害是啥
问点页表中内核部分如何更新
问点thread-local variable是啥
问点memory mapped file怎么帮助加速
问点lock如何用test and set实现
多好
就算为正经程序员队伍在半路出家的low b面前维护点逼格也好啊 |
|
E******d 发帖数: 3514 | 7 你说的这些问题我敢保证小蒙古一个都不会
但人家照样得瑟十万年薪
[在 LiYaoshi (药师——泥腿子五毛一名) 的大作中提到:]
:我tmd有次去应聘个职位 让我写个正则表达式
:我说不同系统对那些符号有不同的定义 你说的grep怎么定义的 我记不太清了
:瞬间 那个傻x一副不屑之色
:我tmd后来一句话都懒的说了
:这low b东西还不是看manual查查一分钟的事情
:这有什么拿来考的 更有什么得瑟的
:别说那些正则符号了
:就是java语法 gdb命令 我不用也很快忘一半啊
:所以说 很多程序员真的是low b
:连得瑟都不知道得瑟啥
:.......... |
|
t********5 发帖数: 522 | 8 可以这么说 或者说是 s 符合 p 的约束
这个你看一下基本的正则表达式概念就会很清楚~ 可以趁机学一下perl然后顺带学正则
最后的例子 c*a*b 表示可以0到多个c 后面跟0到多个a 最后以一个b结尾
所以aab符合这个约束 因为是 0个c 2个a 以1个b结尾
以? |
|
l***o 发帖数: 5337 | 9 数学之美番外篇:进化论中的概率论
BY 刘未鹏 – DECEMBER 2, 2007
李笑来老师在blog上转了一篇宏文,“15 Answers to Creationist Nonsense”;然后
余晟同学(顺便推荐余晟同学译的《精通正则表达式》(第3版))把它给译了出来。
漂亮的文章加上漂亮的翻译,当然是要拜读的:-)
进化论从其诞生以来受到的非难不计其数。这里提到的这篇便收集了广为神创论者提出
以及广为大众误解的一些观点。其中有一点尤其引起了我的兴趣,如下:
8. 严格说起来,我们很难相信复杂如蛋白质的物质能偶然出现,更不用说人或是活细
胞了。
偶然性在进化中确实存在(例如,偶然性的突变可以产生新的特征),但是进化并不依
赖偶然性来产生新的器官、蛋白质或其他实体。截然相反的是,自然选择,作为进化中
已知的最主要机制,却会明确保留“需要的”(能适应的)特性,消除“不需要的”(
无法适应的)特性。只要选择的影响力存在,自然选择就能把进化向一个方向推进,在
出乎意料的短时间内产生复杂的结构。举个例子,现有由13个字母构成的序列“
TOBEORNOTTOBE”,假设有几百万只猴子,每只... 阅读全帖 |
|
w***g 发帖数: 5958 | 10 一行bash命令的事情
if wget -q 网页地址 -O - | grep 关键字正则表达式 > /dev/null
then
sendmail -t <
From: f**[email protected]
To: [email protected]
Subject: your key word appeard
in URL
FOO
fi
把这个命令放到脚本中, 然后加入crontab就可以了. wget也可以做recursive crawl,
然后用grep -R 表达式 网页目录/* 来搜索整个目录. |
|
|
c*********k 发帖数: 4747 | 12 小弟技术不怎么样,慢拍砖。
已经实现的:
1.建立一个马甲池,轮换登陆状态并且获取并保存cookie
2.发贴或者邮件时读取服务器端发给的token
3.用httprequest的post方法发贴或者邮件
4.从返回的页面中分析post是否成功
其中服务器交互就是用httprequest实现的,分析网页代码获取token就用正则表达式截
取字段了。发贴很简单,因为不用cookie;发邮件,必须先获取登陆状态下的cookie才行
。
python的部分源代码近期会发到EUV开的邮件组,大家欢迎加入邮件组互通有无哈。
最近太忙了,两周两篇paper一篇research plan一个presentation,等我有时间,就去
研究破解验证码,还是注册机好玩一些。 |
|
|
k***g 发帖数: 7244 | 14 (这是一篇关于很枯燥的技术,很枯燥的历史文本,和不太枯燥的统计的 blog)
看过一篇关于《全宋词》词频统计文章,挺有趣的,想用类似的方法处理一下《资治通
鉴》,所以就趁周末花了几个小时作了一下。
词是长短句,统计两个字组成的词频比较合适,《通鉴》是古文,文字结构不同,所以
我统计了单字频,两字词词频,三字词词频,四字词词频,和五字词词频。同时也记录
各个统计单位(字或词)出现的卷数。《通鉴》294卷,从三家分晋到五代结束共共
1362年,所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件,也是我的最爱之一,但是
R 并不适合作文本分析,更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本,.Net 是懒人的福音,并且多线程运算非常简单,能够大大提升文本处
理速度,Kdb+用来储存数据,它差不多是性能最好的 in-memory 数据库了,从它的网
站上能下载到免费版本。这个分析里数据库是重头戏,因为需要查询数百万行的数据
row,如果用 MySQL,估计会龟速到死。另外 Kdb + 本身只有 300多K,不用安装,很
... 阅读全帖 |
|
c*****1 发帖数: 3240 | 15 ☆─────────────────────────────────────☆
kzeng (寱语·无味赛百味) 于 (Sun Sep 23 01:21:31 2012, 美东) 提到:
(这是一篇关于很枯燥的技术,很枯燥的历史文本,和不太枯燥的统计的 blog)
看过一篇关于《全宋词》词频统计文章,挺有趣的,想用类似的方法处理一下《资治通
鉴》,所以就趁周末花了几个小时作了一下。
词是长短句,统计两个字组成的词频比较合适,《通鉴》是古文,文字结构不同,所以
我统计了单字频,两字词词频,三字词词频,四字词词频,和五字词词频。同时也记录
各个统计单位(字或词)出现的卷数。《通鉴》294卷,从三家分晋到五代结束共共
1362年,所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件,也是我的最爱之一,但是
R 并不适合作文本分析,更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本,.Net 是懒人的福音,并且多线程运算非常简单,能够大大提升文本处
理速度,Kdb+用来储存数据,它差不多是性能最好的 in-memor... 阅读全帖 |
|
f*********g 发帖数: 632 | 16 会玩输入关键词搜索,就看笑话别人不敢用google了?都扒开google的裤子看Pagerank
的内里给引擎调参数,该有在天庭俯视人间的感觉吧。
顺便问你一下,在google里用过正则表达式搜索吗?
别当真,反正在bbs聊天,就是图轻松。 |
|
c***c 发帖数: 21374 | 17 粗略地统计了一下,还是很能体现一些时代特色和共产党发展特色的。比如,“毛泽东”,“无产阶级”,提的越来越少。“中华民族”提的越来越多,“市场经济”从无到有,
大家可以自己导到excel里面分析分析
没有用正则表达式去严格匹配,就是简单匹配。因此有些词可能完全是不同含义,比如
“民主”,“人民民主专政”。
毛泽东,35,22,11,6
马克思,25,29,43,24
三个代表,0,0,12,2
恩格斯,0,1,2,0
列宁,6,7,13,3
社会主义,43,146,109,100
工人,3,8,31,2
农民,2,3,7,2
知识分子,2,3,8,1
挑战,0,0,2,3
市场经济,0,0,4,4
计划经济,0,4,0,0
商品经济,0,11,0,0
科学发展观,0,0,0,2
邓小平,0,8,12,4
江泽民,0,0,0,1
无产阶级,17,8,3,1
鸦片战争,2,2,2,2
中华民族,2,5,10,24
中华文化,0,0,0,4
改革,1,43,34,44
中国特色,0,26,18,38
一国两制,0,3,1,1
十月革命,0,0,3,0
五四运动,2,1,3,0
封建,5,11,... 阅读全帖 |
|
|
|
|
w****2 发帖数: 12072 | 21 这里用bing translator翻译,看看bing vs google哪个翻译得准
Stevey 的谷歌平台叫道:
大约六个半年,在亚马逊和现在已经在谷歌
那么久。这两家公司关于我立即想起一件事
— — 几乎每天都得到了加强的印象 — — 是亚马逊
一切都错了,不会,和 Google 做每件事。当然,这是
笼统概括,但却是出奇的准确的一个。这是很令人震惊。
有可能一百年或二百年甚至不同的方式,您可以
比较这两家公司,和谷歌优于中,只有三个,
如果我没有记错。我确实有一点但合法的电子表格
不让我展示给任何人,即使招聘喜欢它。
我是说,只是为了让你尝到了非常简短: 亚马逊的招聘流程是
通过让团队聘请为自己,所以他们雇用根本缺陷
整个团队,尽管他们的各种努力栏是令人难以置信的不一致
制造级 it。他们的行动是一团糟 ; 及他们真的不
薛琦表示,他们已使工程师很多做一切,使得
几乎没有时间编码-虽然再次这异组,因此它的运气
抽奖。他们根本不在乎单有关慈善机构或帮助
有需要的人士或社区贡献或那样的东西。那里没有出现过
笑了起来,这件事或许除外。其设施是灰尘抹多维数据集
农场一分钱不花装饰或会... 阅读全帖 |
|
t**n 发帖数: 272 | 22 无语了。你会用unix系统脚本么?sed会用么?
用脚本创建excel的csv文本会么?
正则表达式会写么? |
|
w**********k 发帖数: 6250 | 23 卧槽,这正是我需要的
楼主改进一下,要求带上正则表达式功能,我要过滤数字ID
users
AFTER
, |
|
|
|
发帖数: 1 | 26 你连自己应聘的职位都没搞清楚,怪谁?正则表达式和你的System Architecture/
Compiler/OS/Concurrency 问题列表交叉的部分有,但是少的不能再少了,嘿嘿 |
|
c*********e 发帖数: 16335 | 27 正则表达式 都不会,你是科班的吗?如果是,哪个学校毕业的? |
|
发帖数: 1 | 28 我也很觉得奇怪,
这尼玛不就是搞一个whitelist然后正则表达式匹配就好了么 |
|
a***e 发帖数: 27968 | 29 老大你也不能拿着yacc写俩正则表达式就号称写过编译器
然后倒腾俩fork就说写过操作系统
★ 发自iPhone App: ChinaWeb 1.1.3 |
|
x*****8 发帖数: 10683 | 30 本虾的计算机水平一般,人工智能只会一点正则表达式(RE),用Prolog,和Lisp写,现
在学着用Python写,发现用了递归最有意思。 |
|
x*****8 发帖数: 10683 | 31 弱智儿童欢乐多。
对于没有专门学过人工智能的本虾来说,正则表达式和博弈树启发式修剪就是人工智能。 |
|
D*V 发帖数: 3096 | 32 发信人: cynic (cynic@mitbbs 1998->2010->?), 信区: Military
标 题: 建党60,70,80,90周年讲话词汇分析
发信站: BBS 未名空间站 (Sun Jul 3 00:34:15 2011, 美东)
粗略地统计了一下,还是很能体现一些时代特色和共产党发展特色的。比如,“毛泽东
”,“无产阶级”,提的越来越少。“中华民族”提的越来越多,“市场经济”从无到
有,
大家可以自己导到excel里面分析分析
没有用正则表达式去严格匹配,就是简单匹配。因此有些词可能完全是不同含义,比如
“民主”,“人民民主专政”。
毛泽东,35,22,11,6
马克思,25,29,43,24
三个代表,0,0,12,2
恩格斯,0,1,2,0
列宁,6,7,13,3
社会主义,43,146,109,100
工人,3,8,31,2
农民,2,3,7,2
知识分子,2,3,8,1
挑战,0,0,2,3
市场经济,0,0,4,4
计划经济,0,4,0,0
商品经济,0,11,0,0
科学发展观,0,0,0,2
邓小平,0,8,12,4
江泽民,0,0,0,1
无产阶级... 阅读全帖 |
|
t******e 发帖数: 1293 | 33 比如说里面有*和?,*匹配任何字符,?只匹配一个字符
bool strstr(const char * str, const char * pattern);
记得以前有高人说过在某本书的第一章的最后一个例子就是
这个程序。不过,找不到是哪本书了。大家有印象吗?
提示:作者应该是在AT&T Bell Lab呆过的,和K&R, Unix的
作者那帮人一起共事过。 |
|
|
t******e 发帖数: 1293 | 35 thanks
我也看了这个网页,不过,要求稍微有点不一样
上面的code,作者强调是对的,但是,我要改了之后才能用, |
|
k**********i 发帖数: 177 | 36 上来问了基本情况吧。。。
然后针对我project里面的开始问, 主要问了在这个过程中怎么处理了multi
threading的问题。
。。后来又问 如果这个系统用在多人中怎么样。。我说我们条件不够。。。没能够进
行那么多人
的测试。。。-_-!
后来问了怎么设计一个学生选课系统, 关系数据库的表怎么设计。。。有学生 老师
啥的。。。
答得不太好。。数据库这方面复习的不太好。。。
接下来是一个算法, 怎么判断一个数的二进制是不是回文数。。。
最后问了正则表达式。。。问怎么在一堆东西中提取电话号码, 这个回文数怎么写
regular
expression, 我只是大概的写出来了, 就是具体的语法忘记了。。。
问道这里时间已经超过45分钟了。。。
然后他说不问了。。。说有啥问题没, 然后就又说了会儿。。。
感觉不太难,自己准备的不是很充分。。回答的不是太好。。。
move on了。。。 |
|
k**********i 发帖数: 177 | 37 挺简单的我觉得。。。我面得就比较悲剧。。。让我写正则表达式。。。我都忘了 这
东西了。。
。结果很悲剧。。 |
|
c*********u 发帖数: 361 | 38 是很简单,希望能有下文吧。
他们家好像似乎是比较喜欢正则表达式,还有hash table |
|
j**l 发帖数: 2911 | 39 那些有限自动机,文法,下推自动机,非确定自动机,正则表达式,图灵机,多带图灵
机,停机问题的判定,可计算性,递归可枚举,LR分析,内容真是丰富多彩。
特别是康托用来证明实数不可数的对角线法则,用到停机问题,真是让人觉得巧妙。 |
|
|
x*******7 发帖数: 223 | 41 是用java还是c/c++?如果是java,我觉得用正则表达式很容易做第二题吧。
time
a |
|
d***8 发帖数: 1552 | 42 怎么从文本(可能有很多句子在里面)里面把人名找出来?
用正则表达式吗? |
|
l*********3 发帖数: 26 | 43 刚刚A记电面一面结束,发个面经求BLESS。
1. Hash_table 和 Array 的不同
实现方式、存储机制、访问复杂度
2. 排序算法: quick_sort, merge_sort
3. OOD 如何设计一辆car
老问题
4. SQL 语句 很简单
5. UNIX,怎么从文件中找电话号码
正则表达式表示电话号码,然后 grep
6. 如何设计 hash_function
WIKI上的标准算法
7. 如果有100M本书,每本书200页,每页用100KB的图像存储,设计一个系统,能够更
快的处理用户找特定页(书名+页码)的请求。
hash_fun书名 -> Map到Server -> Hash_fun页索引 -> 使用索引访问外部存储
8. 如何处理polular的书。
monitor访问,如果达到threshold,自动建立book的duplicated copy,自动将页从
外部存储load到内存中
9. 如果某个server crashed,怎么办?
冗余备份,同步
大概就是这些 |
|
l*****a 发帖数: 14598 | 44 关于正则表达式匹配,我的做法如下。
将输入pattern 转化成状态数组。
比方说 ab*d
initial state=s[0]
f(s[0],a)=s[1]
f(s[1],b)=s[2]
f(s[2],b)=s[2]
f(s[1],d)=s[3]
f(s[2],d)=s[3]
end state=s[3]
对于希望进行匹配的字符串,逐个分析当前字符,查上面的hash_map or matrix
judge whether it can start from s[start] and move to s[end]
if so,it match.
otherwise,doesn't match |
|
g*********s 发帖数: 1782 | 45 是啊。会用man/info/google其实就够了。
unix挺烦人的。就这个正则表达式,grep,vim,perl,flex,都不太一样。grep和
egrep也有区
别。其实完全可以统一成一个标准。 |
|
c******t 发帖数: 391 | 46 这题能用grep+正则表达式么?
另外LZ提到的划词和逐词判断,能不能解释一下?
Thanks! |
|
n********7 发帖数: 73 | 47 赶个潮流发个面筋,前几个月申了A本来打算好好复习下的,结果最近工作太忙都没时
间。就抱着裸考的
心态,只当增加人生经历。
老美,估计是个geek,讲话很慢又很怕表达不清的样子。
1.写个程序打印出3的n次方,例如输入4,输出3,9,27,81;
用java写了一个,神马条件都没考虑……
2.讨论程序的问题,问假如输入10000的话程序会怎样?
说会栈溢出,然后他说不会。问我你到底知道计算机可以表示的最大数是多少吗?口
气让我很不爽,
直接把电话摁掉。
3. 再打来,道歉。问最大数,我说那32位的机器不就是正负2的16次方咯。说对,说假
如是unsigned
呢?我说2的32次方,他说不对还有一个符号位。
4. 设计一个服装仓库管理系统。
随便说了下有个服装类,然后裤子鞋子的子类神马神马的……老美很高兴的样子。
5. 问Hashtable神马神马的,为什么可以是O(n)的复杂度。
随便说了说,好像概念都说反了……
6. 找出一个网页里的电话号码,要用linux的grep
说linux不会,不过应该要用到正则表达式,神马神马的。
ps:其实题目都很简单,大家参考内... 阅读全帖 |
|