由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
DataSciences版
- 求大侠指点大数据课题预算
相关主题
●
python 网络爬虫和数据处理
●
有没有可以把Amazon FBA的卖家联系方式抓下来的工具?
●
求教如何从网页抓取数据
●
数据大牛们,有个任务不知道能否完成
●
关于个人职业的困惑
●
为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取
●
如何从一堆产品里选出一些产品来? (转载)
●
怎么高效搞CSS reverse engineering?
●
360违反Robots协议将引发行业大乱
●
今天google完蛋的原因查明了
●
一个程序员写了个爬虫程序,整个公司200多人被端了
●
要爬虫一个网页,搜索一次关键词能有100页搜索结果
●
创建了个“网络爬虫”俱乐部
●
关键词:刷牙、海滩、新项链~
●
百度工程师鬼节捉鬼 360浏览器抓取隐私现形
●
大陆甲流疫苗异常反应急升 占11.21%zz
相关话题的讨论汇总
话题: 关键词
话题: 抓取
话题: 大概
话题: 高效
话题: 数据库
进入DataSciences版参与讨论
1
(共1页)
f***h
发帖数: 283
1
需要每天从大概2000个网站抓取关键词,关键词有300个左右。如果某网页中出现一个
关键词,那么就要抓取跟这个关键词相关的大概50个词。当然这50个词有些词可能并没
有出现。
把这些词存入数据库进行清理筛选分析建模(ML,或者统计),来预测某个事件的未来
一个月的发生率。
这种需要写出高效爬虫程序并要建立高效的大数据库,如果一个人做,需要大概多少小
时?在哪个阶段可以进行平行分工给几个人做?哪些阶段必须等前一阶段做完才能继续?
1
(共1页)
进入DataSciences版参与讨论
相关主题
●
大陆甲流疫苗异常反应急升 占11.21%zz
●
360违反Robots协议将引发行业大乱
●
中国将贫困标准提至1500元 贫困人口或将破亿
●
一个程序员写了个爬虫程序,整个公司200多人被端了
●
北京市民公共行为文明指数提升 (转载)
●
创建了个“网络爬虫”俱乐部
●
日本机构调查显示该国女性性欲望关乎日本兴衰
●
百度工程师鬼节捉鬼 360浏览器抓取隐私现形
●
python 网络爬虫和数据处理
●
有没有可以把Amazon FBA的卖家联系方式抓下来的工具?
●
求教如何从网页抓取数据
●
数据大牛们,有个任务不知道能否完成
●
关于个人职业的困惑
●
为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取
●
如何从一堆产品里选出一些产品来? (转载)
●
怎么高效搞CSS reverse engineering?
相关话题的讨论汇总
话题: 关键词
话题: 抓取
话题: 大概
话题: 高效
话题: 数据库
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.