由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 关于web crawler的设计
相关主题
G设计题word ladder II
发几个面经(7) Google 电面+onsite我的面试题总结
design of web crawlerFG面经和感想
湾区2012-2013,个人面筋总结贡献一道面试题.
请教一下,leetcode surrounded regions这题为什么我的代码会超时G家onsite后求祝福
word search BST 解法,大测试超时,请大家指点迷津目前系统的刷题,题目分类化,求咨询。
问道算法题帕兰提尔 电面面经
请教一道onsite面试题Depth-First Search到底有什么缺点?
相关话题的讨论汇总
话题: web话题: crawler话题: 设计话题: dfs话题: 关于
进入JobHunting版参与讨论
1 (共1页)
b*****u
发帖数: 648
1
翻版上面经时经常看到这题,没有多少解答。
这题是考什么知识点啊? DFS?
p*****2
发帖数: 21240
2
现在只做OO design和system design的题。搬个板凳。
先说一下这个属于系统设计,不属于算法吧。因此DFS应该不是重点。
f*****e
发帖数: 2992
3
应该很简单,网上有本书讲php webbot的。

【在 p*****2 的大作中提到】
: 现在只做OO design和system design的题。搬个板凳。
: 先说一下这个属于系统设计,不属于算法吧。因此DFS应该不是重点。

Z**********4
发帖数: 528
4
网页爬下来以后如何存储? 应该是一个考点。
还有就是怎么爬的时候爬多深?应该是从一个主页开始,然后找里面所有链接,然后对
于没有visit过的链接再爬。我怎么觉得像是BFS。。。所以得有个hash存已经爬过的网
页吧。
p*****2
发帖数: 21240
5
LZ请看CC150 11.5
b*****u
发帖数: 648
6
怪不得我没见过,我用的cc150是电子版,不全。
半本九阴真经害死人啊

【在 p*****2 的大作中提到】
: LZ请看CC150 11.5
p*****2
发帖数: 21240
7

花钱买本吧。虽然错误很多,还是值的。至少我不懂的部分,还没找出错误来。

【在 b*****u 的大作中提到】
: 怪不得我没见过,我用的cc150是电子版,不全。
: 半本九阴真经害死人啊

c***s
发帖数: 192
8
建议参考DataBase System Implementation (second edition) 1143 -- 1145页
里面讲了怎么做Web Crawlers, 包括单机版和多机版,以及怎么选择重要网页(在后面
几页)。
这本书网上有电子版,是Stanford大牛写的经典教材。

【在 b*****u 的大作中提到】
: 翻版上面经时经常看到这题,没有多少解答。
: 这题是考什么知识点啊? DFS?

c********w
发帖数: 2438
9
re
h******d
发帖数: 6
10
我被考过这道题。
我主要答的是怎么开线程,线程之间怎么同步,怎么上锁保护公用的资源,如果线程突
然挂了怎么处理,这些
再加上一些bfs的比如防止loop之类
interviewer似乎还比较满意
p*****2
发帖数: 21240
11

没有考虑distributed吗?

【在 h******d 的大作中提到】
: 我被考过这道题。
: 我主要答的是怎么开线程,线程之间怎么同步,怎么上锁保护公用的资源,如果线程突
: 然挂了怎么处理,这些
: 再加上一些bfs的比如防止loop之类
: interviewer似乎还比较满意

b*******n
发帖数: 847
12
mark
1 (共1页)
进入JobHunting版参与讨论
相关主题
Depth-First Search到底有什么缺点?请教一下,leetcode surrounded regions这题为什么我的代码会超时
贡献一下:本版上搜集的 Google 面试题word search BST 解法,大测试超时,请大家指点迷津
大家看看有这种公司吗?问道算法题
被google追加了一轮面试请教一道onsite面试题
G设计题word ladder II
发几个面经(7) Google 电面+onsite我的面试题总结
design of web crawlerFG面经和感想
湾区2012-2013,个人面筋总结贡献一道面试题.
相关话题的讨论汇总
话题: web话题: crawler话题: 设计话题: dfs话题: 关于