第2页 - 关于crawlers的讨论汇总 - 话题女王

全部话题 - 话题: crawlers

z****e
发帖数: 54598

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

所谓的mapreduce的话，其实无非是多线程＋切割＋不同物理机器上查找的一个实现
找到后把结果反馈最后归并的一个过程，如果对多线程和垮物理机器有点经验的话
其实大同小异，难点主要是这两个，但是都算不上什么特别难的
多线程是编程基础，这个多线程比绝大多数多线程都简单
甚至没有什么并发的冲突，应该不用加任何锁在map的时候，reduce的话应该也不用
垮物理机的调用稍微有些深入，但是网络学得好的话
问题不大，用不了rmi或者corba可以用socket来写，socket学过网络的应该也都会
毕竟这个查找不要求百分百精准，而且对时间的要求也偏低
不象游戏那样要求那么高，这是第一个
第二个是nosql的存储，这个其实可以看成是一个简化的db
也就是不存在有sql和transaction的db系统，只有很少的几个index
所有查询必须通过这个index来做，所以灵活度比不上sql
但是简化的东西没有理由比脚本更难才对，所以学过db的话
这个其实也不是很难，理论上不会比db的sql难，毕竟是简化的东西
如果是搜多引擎的话，定义两个index就差不多了，一个是网站的域名
另外一个是日期，日期排序... 阅读全帖

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] 求祝福。攒RP. 发些收集到的Google的面经

☆─────────────────────────────────────☆
gzou (gzou) 于 (Thu May 12 02:26:35 2011, 美东) 提到:
马上就要G on site了，
求祝福。
下面是从本版收集到的Google的试题，便于大家查询。
申明：有的附带有解释说明的，也来自于本版或者网络，大家自己看，不保证真确
http://www.mitbbs.com/article_t1/JobHunting/31847453_0_1.html
本人ECE fresh PhD，背景是电路/EDA，跟G业务基本没什么关系
同学内部推荐的，很简单的一次电面就给了onsite
题都不难，但是自己没把握好机会，出了一些小bug。
总的感觉，出错就是硬伤，宁可从最简单的算法写起，也不能出错。
电面：
1，Skip list， http://en.wikipedia.org/wiki/Skip_list
写code实现struct skip_list * find(struct skip_list *head, int value)
2，sorted array... 阅读全帖

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] 求祝福。攒RP. 发些收集到的Google的面经

z****e
发帖数: 54598

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

我肯定不会重造一个hadoop
直接用hadoop和cassandra或者hbase
现在主要少的是web crawler，这个我一直没找到合适的产品
这个要自己做，有现成开源的我一定用
如果web crawler有现成的开源的，最好还是apache的
那就更好了，我们javaer不都是这样的么？
有就用，然后反馈，然后上集团军优势
围剿那些不肯开源的
如果spring可以围剿ejb
那hadoop也可以围剿gfs这些
什么时候搜索引擎遍地都是了
那差不多这行就可以走人了，向下一个进军
开源就是蝗虫
当年搞个论坛，四方连通还能变成新浪
后来论坛代码遍地都是了，天涯做得再好，想变成新浪
想上市，那多少就没这个可能了
我看好hadoop的前景，hadoop基本上三驾马车都模拟了
现在web crawler有什么好的免费的开源的推荐没有？
我不求自己能写出什么jvm，app server这些
但是我很需要知道，有什么比较好的东西能够让我免费使用
而且又能够山寨这些产品
就像当年spring和jboss搞websphere
mysql搞oracle db一样
hadoop和cassandra真... 阅读全帖

s*******f
发帖数: 1114

来自主题: JobHunting版 - 贴华人版程序员简历，大家帮忙拍砖成印度版

Name address
• 5+ years of experience in software
development.
• 3+ years of experience in large scale
software design, network, multithreaded
programming, Inter-process communication and
distributed system.
• Skills: C, C++, Python, Shell, Java,
C#, Perl; SQL, SQL server, MySQL; JavaScript,
Ajax, Asp.Net, XML; UNIX, Windows; Design
Patterns
• Available Immediately
EXPERIENCE
Senior Software Engineer Tencent, Inc
(China's largest internet company) ... 阅读全帖

y*********e
发帖数: 518

来自主题: JobHunting版 - 贴华人版程序员简历，大家帮忙拍砖成印度版

Some thoughts when I read this resume as interviewer. Starts with ## inline.
Name address
• 5+ years of experience in software
development.
• 3+ years of experience in large scale
software design, network, multithreaded
programming, Inter-process communication and
distributed system.
• Skills: C, C++, Python, Shell, Java,
C#, Perl; SQL, SQL server, MySQL; JavaScript,
Ajax, Asp.Net, XML; UNIX, Windows; Design
Patterns
## No need to mention Windows... unless you are f... 阅读全帖

g********g
发帖数: 2172

来自主题: StartUp版 - Nutch vs Lucene

Lucene is a index engine only. Nutch is a web crawler. The crawled results
were indexed with Lucene. So they are different products. Indeed used the
Lucene as the index engine but built their own crawler. Nutch is an general
purpose search engine crawler. It is too much work to modify it as a
vertical search engine crawler.

s*******f
发帖数: 1114

来自主题: Quant版 - 大家帮忙看下我的CS背景够不够quant developer资格，谢谢

College of Information Sciences and Technology
The Pennsylvania State University
University Park, PA 16802
*Objective:
Researcher or Software engineer in Data
mining, Information retrieval, Distributed
System or Finance
*Skill:
Large scale software design
c/c++/ python/java/ c#/Ajax/perl/matlab,
UNIX/shell/windows, network/multithread
programming
*Education:
08/2009 - present Ph.D Candidate in the
College of Information Sciences and
Technology, the Pennsylvania State University,
University Par... 阅读全帖

c*********n
发帖数: 1282

来自主题: Military版 - 一个程序员写了个爬虫程序，整个公司200多人被端了

所谓爬虫就是crawler，这要是违法，google全体都该枪毙。
搜索引擎的资料来源基本上都是crawler。写个crawler算什么违法！

y*********e
发帖数: 518

来自主题: JobHunting版 - 问几个google电面的问题

对于第一题，有很多情况没有clear。
“只允许有限次访问”，是限制单纯的访问次数，还是访问下载的流量？
是限制IP吗？还是根据hostname限制？
若是根据IP限制，那么Google的crawler有好几个，IP都不一样。可以每个crawler
分别去爬去文档。
1、设定一个window时间，在该window时间范围内不再访问该网站。
比如，初始 window = 5 min，那么 crawler 在5分钟之类不会再次访问该网站。可以
用数据结构 hashtable，保存 { URLSignature -> Timestamp } 的映射。
每次遇到一个URL，查询上一次访问的 Timestamp，并判断 CurrentTime >
Timestamp + Window。
若是通过，就检查网页是否更新。
若是不通过，或者检查网页发现没有更新，window *= 2。
这有点类似于 TCP 的 slow start，用来限制过快的访问同一个网页。若是发现网页有更
新，把 window 设置回初始值。window 最大只能增长到一个特定值，比如，1天。
2、每次访问先下载 HTTP

s*****i
发帖数: 32

来自主题: JobHunting版 - G设计题

设计web crawler。包括网页的存储，crawler任务调度等。
是用big table存储吗。访问不同url是BFS还是DFS。还有crawler任务调度。有懂行的
给讲讲。谢谢！

b*****n
发帖数: 618

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

没有过人之处，另外我不是大牛，这个版上藏龙卧虎。
distributed kv store和web crawler是system design里面最基本的题目吧，
看看现在比较流行的几个framework就可以了，比如HBase，Cassandra。
web crawler其实看考什么细节，每个人问的东西会不一样，design的题目其实是你既
要知道可能的问题是什么，还要知道怎么解决。。
比如web crawler IO会是问题，因为从网络上上下载网页会很慢，怎么能尽量不让IO
block

g*c
发帖数: 4510

来自主题: JobHunting版 - 有多少人看过这个talk？

不难啊，很多公司都有类似的一套东西，有grid的地方就有这些
我同意狗搜索细节比别人做得好，googlebot crawl的流量占所有crawler一半，为啥
bing就不能改进自己的crawler做到接近？crawler难度很大么？

P*******L
发帖数: 2637

来自主题: E-Sports版 - [原创] SC2 单位的性价比

抱歉先前的性能定义有问题，重新算了一下。看来初级单位有性价比优势，后期单位有
性能人口比略有优势。
机枪好强大，追猎好悲剧……
定义：
- 性能 = sqrt(DPS * HP) 神族生命值计入护盾，Broodlord 未计入小虫的攻击输出
- 价格 = 水晶 + 气体 * 3
以下按性价比排序。
单位性能性价比性能人口比
Missile Turret 83 83
Zergling (adrenal glands) 17 69 35
Spore Crawler 83 67
Zergling 16 63 32
Spine Crawler (vs armored) 70 46
Photon Cannon 69 46
Zealot ... 阅读全帖

g*******a
发帖数: 903

来自主题: gardening版 - 请问worm cast和鸡粪比哪个好？

這麼長該是African Night Crawler或Alabama Jumper，顏色不很清楚，但若帶灰色就
是Jumper，全身咖啡色就是Night Crawler。
Screen防不了蚯蚓，因為蚯蚓身子是軟的，可以鑽很小的縫。把蚯蚓抓來抓住兩頭可以
拉得很長很細，只要不拉斷，放回土裡一下子還是一溜煙就鑽不見了。一般地底養蚯蚓
先墊層鐵網是要防Gopher或Mole這種土行孫打洞吃蚯蚓，不是倒過來防蚯蚓攻進作物區。
蚯蚓是好東西，假如是Jumper，鬆土效果全世界第一，網上買買一磅得70大洋，鋪地毯
迎接都來不及，為什麼要防?我在還沒到處搜集蚯蚓前家裡得澆兩天水才有兩三隻可憐
兮兮的European Night Crawler被我從土裡翻出來。你在那一州?竟有這種好東西不請
自來???

m*y
发帖数: 1778

来自主题: Automobile版 - JEEP大切的各个型号有什么差别？

from mall crawler to rock crawler

y*********e
发帖数: 518

来自主题: JobHunting版 - Amazon试题算法

这个不就是PageRank那篇论文的idea嘛，Google就是以这篇Paper起家的。
首先要阐述的是incoming link count是怎么来的。
这就是写个Crawler咯，从一个Page走到另外一个Page，同时更新link count。
然后所有的page根据incoming link count排序，就可以了。
无论是Crawler还是排序，需要处理billion级别的数据。用MapReduce吧。

s********y
发帖数: 161

来自主题: JobHunting版 - 亚麻新鲜面经

刚面完，回到酒店。上帝保佑明天拿到给offer。感谢祝福。签了NDA，不过以下应该也
没有泄露亚麻的技术秘密...
网络服务组
Common questions几乎每个人都会问到, why 亚麻, why web service, your
experience/work.
Phone 1 别的组的老美
两个数组求交集。如果已经排好序了，一个数组很大，一个很小怎么办。如果数组都很
大，内存放不下，怎么办。
设计扑克牌。扑克牌shuffle算法。
两个整数，需要多少步才能把一个数的二进制表达转换到另一个数的二进制表达。（
XOR后数1）
Phone 2 本组的印裔
设计LRU Cache, 然后讨论多线程访问Cache的问题。面完后实现Cache发代码给他。
Onsite见了7个人，每个人45分钟，连轴转。上午10点半进building, 下午4点出来
Onsite 1 很Nice的老美
讨论设计web crawler， coding BFS，讨论多线程处理crawler等。
Onsite 2 印裔
OOD机场air traffic control system.
Onsite 3 ... 阅读全帖

g**u
发帖数: 583

来自主题: JobHunting版 - 求祝福。攒RP. 发些收集到的Google的面经

马上就要G on site了，
求祝福。
下面是从本版收集到的Google的试题，便于大家查询。
申明：有的附带有解释说明的，也来自于本版或者网络，大家自己看，不保证真确
http://www.mitbbs.com/article_t1/JobHunting/31847453_0_1.html
本人ECE fresh PhD，背景是电路/EDA，跟G业务基本没什么关系
同学内部推荐的，很简单的一次电面就给了onsite
题都不难，但是自己没把握好机会，出了一些小bug。
总的感觉，出错就是硬伤，宁可从最简单的算法写起，也不能出错。
电面：
1，Skip list， http://en.wikipedia.org/wiki/Skip_list
写code实现struct skip_list * find(struct skip_list *head, int value)
2，sorted array with repeated elements
for given element, find out its range.
e.g. A A B B B B B C C D D E F ... 阅读全帖

b*****n
发帖数: 760

来自主题: JobHunting版 - G面经

1. You have a class that supports to input sample records and to compute the
average of the samples. The class has two members: total and count. How
would you make the class thread-safe? If 99% of the time average() is called
, how to optimize for that?
2. Talk about your recent interesting project/bug.
3. You have 100 files, each containing 10G sorted integers. How to merge all
integers into one sorted file?
4. Write a function to reverse digits of an integer. E.g. 123 --> 321, -890
--> -98.
5.... 阅读全帖

i***d
发帖数: 28

来自主题: JobHunting版 - 问两道题目（算法和开放问题）

1。开放问题：有些网络每天只允许有限次数的访问，设计一个抓取网页的Crawler 能
让搜索结果尽量的全面和新鲜。
不知道这个问题的考点是什么？设计Crawler 是考虑避免 infinite loop 还是
其他方面的；
请大家能不能帮忙看看，怎么回答？
2。两个排序数组的和求第K个的数？以前好像讨论过；好像是用最小堆来做的，
有没有 In place 的做法？如果换成数组的乘积求第K个的数是不是一样啊？
先谢谢了！

j*****y
发帖数: 1071

来自主题: JobHunting版 - 报个fresh的offer，兼面经顺便求建议

恭喜.
那个 n 台机器 web crawler怎么搞阿，每台机器负责某个范围内的
domain name ? 比如机器 1 download 域名是 a-e，的机器二负责 f-k的, ...
?

本人CS PhD quit，所以算是fresh master吧。。。。。。职位就是entry-level的码农。
湾区大家都知道的某大公司，但是在板上讨论的非常少，这两年公司沉寂了。。。
120K+15K sign on+ some RSU
做的东西是码农为主，兼做一点点machine learning方面的研究。公司这两年投了2.5B
在我要去的这个大组，去年已经有1B的revenue了。感觉人少机会多，当然也会更累些
。但是公司假期比较多（两周的带薪shutdown，个人带薪假没有上限找经理批），而且
work life balance据说还比较好。
Yahoo！match了almost same package+20K sign on+free food
不过职位是纯Coding。Model都是Yahoo！ Lab出的，认识的大部分在Yahoo的人都在Lab
里，让自己也很汗颜... 阅读全帖

t*****s
发帖数: 39

来自主题: JobHunting版 - 报F和G的offer+面经

找工作算告一段落了，这一个多月从版上学到了很多，非常感谢大家，也分享点儿自己
的情况。本人cs fresh phd，投了F和G，准备主要是leetcode，做了50题左右，还有就
是板上的面经。强烈推荐leetcode，特别是对于准备时间有限的同学，基本覆盖了各式
各样的题。虽然最后面试没遇到做过的coding题，但基本都差不多。
0. 给定一个双向链表，以及一个数组。数组里存着一部分链表节点的指针。问数组里
的指针们指向的节点在双向列表中可以分成几个连续的blocks。接着问如果是单向链表
怎么做。算法复杂度分别是什么。
1. coke machines。大中小三个可乐机，每按一次出可乐量分别在[Amin,Amax], [Bmin
, Bmax], [Cmin, Cmax]之间，但不能确定具体容量是多少，现在想通过按这三个可乐
机，达到容量为[D, E]之间的可乐，问能否做到。也就是能否找到非负整数x, y, z使
得x*Amin+y*Bmin+z*Cmin>=D并且x*Amax+y*Bmax+z*Cmax<=E。感觉是个扩展的背包问题
，我给了穷举法和DP的解法，不过面试官最后说有... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

前段时间骑驴找马终于告一段落，感觉本版的技术贴和面经贴帮助非常之大，也非常感
谢共享资源的各路大牛。希望提供一些信息和个人感受给还在找工的童鞋，有帮助最好
，但是毕竟本人资历尚浅，如果有不对的地方也请轻喷。
背景：
ms毕业不到两年
主要申请公司：
offer：facebook，google，uber，palantir，sumo logic，walmartlab，yahoo，
amazon，apple
reject：dropbox
主要几个包裹：
U： 145k base + 25k股 RSU
F： 150k base + 40k signon + 10%bonus + 260k美元 RSU
W： 165k base + 50k signon + 20%bonus + 35k美元 RSU每年（
这个略复杂，相当于每年35k美元RSU的refresh，但是每次refresh分四年给）
再上各个公司的面经和感受：
Yahoo：
最早面的公司，面的是Flurry Team，Yah... 阅读全帖

f*******r
发帖数: 976

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

恭喜，都是好包袱！

关键字: 面经
发信站: BBS 未名空间站 (Sat Jun 13 17:27:31 2015, 美东)
前段时间骑驴找马终于告一段落，感觉本版的技术贴和面经贴帮助非常之大，也非常感
谢共享资源的各路大牛。希望提供一些信息和个人感受给还在找工的童鞋，有帮助最好
，但是毕竟本人资历尚浅，如果有不对的地方也请轻喷。
背景：
ms毕业不到两年
主要申请公司：
offer：facebook，google，uber，palantir，sumo logic，walmartlab，yahoo，
amazon，apple
reject：dropbox
主要几个包裹：
U： 145k base + 25k股 RSU
F： 150k base + 40k signon + 10%bonus + 260k美元 RSU
W： 165k base + 50k signon + 20%bonus + 35k美元 RSU每年（
这个略复杂，相当于每年35k美元RSU的refres... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - new graduate刚学完java三大框架做个什么小project好。

spring和hibernate不是做网站才能用的
这两个跟网站没有必然联系
一个典型就是web service/api gateway也同样能用这两个
所以你认为ssh的学习只要把网站做出来就搞定的想法，是错误的
cassandra具体可以用在项目中，nosql用得是越来越多，这个应该是一个趋势
json怎么说也比relational table要频繁使用，但是这些东西说到底都是api而已
最关键还是要有理论指导，理论指导实践，还是要想想你哪里需要这些东东
不过要承认，web公司用这些用得比较多，其他公司用多少，要看其他公司的具体环境
很难一概而论说到底什么项目用什么，如果你非要举例的话
你可以从搜索引擎开始做，比如通过抓取网络上的文件，就是crawler了
很多面试题目上来就要求你做一个crawler，你可以自己实现一下
无非几个http req/resp之类的，当然有这样那样的问题，但是可以自己琢磨琢磨怎么
解决
然后存到本地，然后用elastic search建立一个本地搜索
应该就能够找出来一些东西了，这个只是初步，一点入门而已了
具体的相似度理论什么还是要学，你看东肥面经... 阅读全帖

b*********1
发帖数: 1250

来自主题: NextGeneration版 - 婴儿食品求教

请问这边哪里可以买到那种像国内婴儿乐，或者旺仔小馒头那种婴儿食物？这两种食物
都是入口即化，比较安全给6，7个月还没有长牙的宝宝吃。
我这边找了一下，好像没有找到类似的婴儿食品，大家有没有什么推荐？我在SafeWay
找到几个Gerber的给crawler food, 有一种长的比较像国内小馒头的YOGURT MELTS，但
是不能放到口中马上就融化，宝宝可能有窒息的危险。
http://www.gerber.com/crawler/products/yogurts/yogurt_melts_str

p***h
发帖数: 1462

来自主题: NextGeneration版 - 請問Goddard School Daycare

I like their curriculum and activities.
Their teachers have decent education too.
But the one in our town is small. (We live in crowded MA.) So there is not a
lot of space to separate playing babies and sleeping babies. Also my son
was upgraded to crawler room when he was 9mon. But in the crawler room the
schedule is one nap per day. He got sick a lot because of that.
In short, I think the activity is good. Sleep is not so good.

不好

a***g
发帖数: 2931

来自主题: Fishing版 - 富不归故里，渔不奔鱼版，锦衣夜行。个人crappie记录

在鱼版第一次BSO crappie。咱这crappie真tnnd少见，去年上了一条，没奔，没心情。
只因被条子开了个大单子250刀，上crappie了，急着回去汇报，红灯右转见没车就没停
，交钱了事，从此规规矩矩开车。
这第二次上了一条大的，多大？相当得大，嘿嘿，俺左手抓住这条crappie，右手得抓
住草才能蹲得稳。奶奶得，钓trout早就腻了，就拿整条活凶凶得大蚯蚓，象钩senko钓
大嘴一样，挂上蚯蚓。甩出去后，坐在我的靠椅上等，浮标微动一下，懒得里它，等沉
了再说，丫不沉。就是左移移，右移移。靠，耐不住了，轻拉一下，这一下把它惹火了
，一下子浮标全没了。以为肯定是bluegill，直接拉，没想到力量大得很。都说拿
minnow钓crappie，我看拿活night crawler也不错，整条上。不过可能成本会比minnow
要高，因为被crappie咬过后night crawler基本萎了，不咋动了，得换。

m******h
发帖数: 5753

来自主题: Fishing版 - 请教一下假饵和真饵

楼歪大了，
假饵和真饵对应的不仅仅是形似，更重要的是神似，可以从 fly fishing 的lure
上来体会一下，主要是在水里的泳姿。
LM 塑料软虫对应的是 night crawler，不同的颜色大小也可能模拟 yellow perch，minnow，有的可以模拟 lizard， night crawler 是 bass 的 candy， lizard 是鱼卵的天敌。

o*****y
发帖数: 710

来自主题: Fishing版 - 这是为什么？谁能指教一下？有包子

附近一个糊，里面有 BLUEGILL（CRAPPIE?), BIG MOUTH BASS, CARP, CATFISH。
我用 NIGHT CRAWLER 做饵，BLUEGILL 非常容易咬钩，几乎3，5分钟肯定可以钓
一条，但 BASS 就很难，比如昨天，钓上来 BLUEGILL 25 条，但一次 BASS 都没有，
我想钓的其实是 BASS，以前也只上过两次，而且很小，CATFISH 上过一次，也很小，
CARP 没上钩过，我用 NIGHT CRAWLER, FLOAT，6 号的钩，没用 SINKER，钩和
FLOAT 之间大概 2.5 FEET，
如果我想钓BASS，应该在哪方面改一改呢？
谢谢！有包子！

M***1
发帖数: 239

来自主题: Fishing版 - 技巧探讨

在老美鱼版看到下面的方法：
id recommend a long spinning rod 8ft minium.at least a 8ft 6lb leader.a #4
bait or circle hook.the secrect,is hook the night crawler only, one time
only thru the harder part of the head .the crawler will give smarter fish, a
more natural presentation.the float will move ur bait,for u with the wind,
and wave action.hopefully your ur a catch ,and release guy.make sure to use
a circle hook .if not dont let the fish keep the bait down to long ,if its a
bass.i use it with robos to.
感觉可行... 阅读全帖

h*****0
发帖数: 4889

来自主题: E-Sports版 - 爽！

我今天用Z就被对面枪兵带走了了。
也怪我反应慢，明明看到对面2BB不开气，我还一个劲补农民。自爆巢我放得倒是挺早
，但以前没怎么出过自爆，所以以为很耗气开了两气矿，所以水晶不足。然后crawler
差10秒没补好对面枪兵就到了，直接被打掉二基地。拉农民死伤无数后新出一波狗加自
爆挡住。然后对面二矿开出4个bunker。我狂补农民二矿开出，对面又是一波裸枪兵过
来。我很2的只造了一个crawler，又被杀农民无数。最后飞龙出来时被第三波枪兵带走。

几个scv继续压
方的两个queen和
terrans are so

T*******g
发帖数: 2322

来自主题: E-Sports版 - 爽！

crawler这东西有用？

crawler
走。

k****w
发帖数: 3753

来自主题: E-Sports版 - patch 1.2 PTR

还不够ws
和我打的时候，expo拍了4-5个spine crawler
main base也拍了3-4个spine crawler
我就直接*faint*了

a***a
发帖数: 40617

来自主题: E-Sports版 - t v z 怎么打infestor?

最近PVZ都被人用了。。。到处开矿，修茫茫多spine crawler，然后我去打的时候用
infestor把我顶住。。。被crawler矿扎。。。惨

g*******a
发帖数: 903

来自主题: gardening版 - 请问worm cast和鸡粪比哪个好？

除了Red Wiggler活動力略低，所有的蚯蚓抓手裡都會亂跳。但Alabama jumper的跳法
近似泥鰍，動作又快，很難抓住。
你若有照片我就可以指出那是什麼種類。不過除非你住美南，不然你家的該是African
Night Crawler或European Night Crawler。Alabama Jumpers顏色比較灰，長大後可達
八到十寸，園子裡看到膽小女生得嚇出半條命。
下面有四五種常見的蚯蚓Video
http://www.worms4earth.com/raiseworms.php#16

g*******a
发帖数: 903

来自主题: gardening版 - 请问worm cast和鸡粪比哪个好？

這真說對了，按個贊先。
別說15條，150條都別指望有什麼太大不同。Red Wigglers最佳狀況下一天可吃去本身
體重的含水有機食物，若一個人每天廚餘一磅，你如果只養一磅Red Wigglers，四口之
家的廚餘是吃不完的，得養個四磅才有辦法。一般的Night Crawler，食量大約是Red
Wigglers的一半，所以要達到同樣效率數量還得加倍。
一磅的Red Wigglers約1000條，一磅的European Night Crawlers約600條。你想米飯果
皮，蛋壳一兩天內消失得最少搞個500條才會見到初步效果。
而且你箱裡一定要放Bedding Material，不然蚯蚓在分解中的食物堆裡絕活不久。Coco
Coir最好，但Peat Moss和撕碎的舊報紙也可以，加點水，要潮但不要濕。至不濟加點
土也行。

b******y
发帖数: 9224

来自主题: Java版 - open source java programs/tools database

Search is my hobby ;-) Hope it would be my career in the future... My work
deals with search technology, but, not entirely.
Google used to have crawler based product search (froogle at that time),
they switched to feed based later on. I guess just like you mentioned,
crawler based is too wishywashy. Product search needs precision in data I
think.
Google is extremely good at spam control. However, still not perfect yet.
I am just interested in search, but, I don't have the energy to solve all
th

b******y
发帖数: 9224

来自主题: Java版 - Nutch

Thanks for the info.
I wrote my own crawler before, but since it is not my main focus, so, I am
looking into open source crawler these days.
Definitely not wanting to crawl the whole web, thank god I don't need to do
that ;-)

t*********n
发帖数: 278

来自主题: Programming版 - perl question

用PERL写了个WEB CRAWLER。但是遇到了一点小问题。我要访问的一个网站用了SPLASH
PAGE。在WEB下，可以看到是一个广告的FALSH，如果你等10秒，就会把你带到MAIN
PAGE.或者点击LINK，也可以把你带到MAIN PAGE。但是我这个PERL的WEB CRAWLER 总
是读取INTRO PAGE，也就是那个带有广告的PAGE. 该如何读取真正的main page呢？谢
谢。

m*****k
发帖数: 731

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

crawler 需要care 这些么？
：redirect N 次， n 多广告 link, iframe,
这些link crawler 确实可以从dom 和 network traffic 中很快析出来。
来个实际点的吧，咋个高效的防止cralwer 陷入Loop？
parse

x****d
发帖数: 1766

来自主题: Programming版 - 这个web client application 该用什么语言好？

maybe I get it wrong? Was he trying to do a real crawler? or just something
manage login script like macro? make daily life easier?
If he is trying to do something like monitoring ebay bids, place bids, that
is different. I agree java is good option. But how many of us use a robot
shop amazon? I think it is crazy.
I don't know how much existing java code out there. but php has tons as I
know, should be good for doing things like ebay crawling, if he means
crawling like real.
most users don't hav... 阅读全帖

p**********g
发帖数: 378

来自主题: Biology版 - 报F和G的offer+面经 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: twobits (wahaha), 信区: JobHunting
标题: 报F和G的offer+面经
发信站: BBS 未名空间站 (Fri Aug 2 20:59:05 2013, 美东)
找工作算告一段落了，这一个多月从版上学到了很多，非常感谢大家，也分享点儿自己
的情况。本人cs fresh phd，投了F和G，准备主要是leetcode，做了50题左右，还有就
是板上的面经。强烈推荐leetcode，特别是对于准备时间有限的同学，基本覆盖了各式
各样的题。虽然最后面试没遇到做过的coding题，但基本都差不多。
0. 给定一个双向链表，以及一个数组。数组里存着一部分链表节点的指针。问数组里
的指针们指向的节点在双向列表中可以分成几个连续的blocks。接着问如果是单向链表
怎么做。算法复杂度分别是什么。
1. coke machines。大中小三个可乐机，每按一次出可乐量分别在[Amin,Amax], [Bmin
, Bmax], [Cmin, Cmax]之间，但不能确定具体容量是多少，现在想通过按这三个可乐... 阅读全帖

m***l
发帖数: 1846

来自主题: sysop版 - 我觉得其实dreamer不开的原因是

要是bug修好了，直接开了让crawler更新cache不是更快？
为啥一定要等crawler抓几次抓不到，然后把cache清掉？

m***l
发帖数: 1846

来自主题: sysop版 - 我觉得其实dreamer不开的原因是

玉成，我怎么觉得这是个借口，你是技术流，你来给说说
只要bug修好了，下次crawler抓到，自然页面缓存就更新了
现在一直返回“未明错误”页面，crawler不知道什么情况
还会继续重试多次，为什么一定要等他清空？

m**********e
发帖数: 12525

来自主题: ChinaNews版 - 我给你们说吧,建新站的话sql啥都是无足轻重的屁事

你们纠缠这些注定要失败,对成功的媒体来说,技术永远是次要的,最重要的是
什么人在用
所以建新站最重要的是实现现有用户安全转移,我建议按下面方案实现:
1.写一个Script Crawler扫描买卖提,记录所有用户ID
2.凡是已扫描到的买卖提用户ID都不准在新站注册.
3.新站建一"用户转移"专栏,买卖提现有用户进去输入自己ID,获得一随机字符串.
4.买卖提用户在买卖提任何版面发帖,贴子内贴上该随机字符串,并拷贝帖子的网址
5.买卖提用户讲网址贴到新站用户迁移注册页面,新站机器人自动认证,发送密码并
释放用户名
这些技术上实现不难,一旦实现,将2个网站合二为一,用户可以毫无顾虑地迁移了
至于新站,建议完全采用一致的用户界面

i***s
发帖数: 39120

来自主题: Headline版 - CNN选出最恶心食物多种亚洲食物上榜(组图)

美国有线电视新闻网(CNN)最近选出全球最“恶心”的食物。在他们眼中，多种亚洲食物都是恶心的，其中认为最恶心的是皮蛋。
CNN说，皮蛋的味道吓人，外型也怪异，像是魔鬼生的蛋。其余上榜的亚洲食物，还包括韩国的狗肉与柬埔寨的“炒狼蛛(一种外观毛绒绒的大蜘蛛)”等。
iReport: World's most 'revolting' foods
Everyone likes to tell their friends, and sometimes the world, about the most delicious dishes they discover. But not everything is a tasty delicacy worthy of letters home.
Or are they? Do gruesome foodstuffs such as woodworms and fried frogs taste much better than they sound?
CNNGo iReporters take us through some of the culina... 阅读全帖

G*******1
发帖数: 6411

来自主题: Military版 - 整死Google并不是那么难

web crawler, search engine 后端抓数据的

k******1
发帖数: 2883

来自主题: Military版 - 支持胡总书记去西北大学给kayaker演讲上课

不瞒您说，web crawler你还太嫩。
去年俺的一个学生做了个买卖体的揭老底软件，通过分析发贴关键词，IP，回帖模式，
信区，找马甲，非常准。
哈哈。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天