由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 求大侠指点大数据课题预算
相关主题
python 网络爬虫和数据处理有没有可以把Amazon FBA的卖家联系方式抓下来的工具?
求教如何从网页抓取数据数据大牛们,有个任务不知道能否完成
关于个人职业的困惑为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取
如何从一堆产品里选出一些产品来? (转载)怎么高效搞CSS reverse engineering?
360违反Robots协议将引发行业大乱今天google完蛋的原因查明了
一个程序员写了个爬虫程序,整个公司200多人被端了要爬虫一个网页,搜索一次关键词能有100页搜索结果
创建了个“网络爬虫”俱乐部关键词:刷牙、海滩、新项链~
百度工程师鬼节捉鬼 360浏览器抓取隐私现形大陆甲流疫苗异常反应急升 占11.21%zz
相关话题的讨论汇总
话题: 关键词话题: 抓取话题: 大概话题: 高效话题: 数据库
进入DataSciences版参与讨论
1 (共1页)
f***h
发帖数: 283
1
需要每天从大概2000个网站抓取关键词,关键词有300个左右。如果某网页中出现一个
关键词,那么就要抓取跟这个关键词相关的大概50个词。当然这50个词有些词可能并没
有出现。
把这些词存入数据库进行清理筛选分析建模(ML,或者统计),来预测某个事件的未来
一个月的发生率。
这种需要写出高效爬虫程序并要建立高效的大数据库,如果一个人做,需要大概多少小
时?在哪个阶段可以进行平行分工给几个人做?哪些阶段必须等前一阶段做完才能继续?
1 (共1页)
进入DataSciences版参与讨论
相关主题
大陆甲流疫苗异常反应急升 占11.21%zz360违反Robots协议将引发行业大乱
中国将贫困标准提至1500元 贫困人口或将破亿一个程序员写了个爬虫程序,整个公司200多人被端了
北京市民公共行为文明指数提升 (转载)创建了个“网络爬虫”俱乐部
日本机构调查显示该国女性性欲望关乎日本兴衰百度工程师鬼节捉鬼 360浏览器抓取隐私现形
python 网络爬虫和数据处理有没有可以把Amazon FBA的卖家联系方式抓下来的工具?
求教如何从网页抓取数据数据大牛们,有个任务不知道能否完成
关于个人职业的困惑为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取
如何从一堆产品里选出一些产品来? (转载)怎么高效搞CSS reverse engineering?
相关话题的讨论汇总
话题: 关键词话题: 抓取话题: 大概话题: 高效话题: 数据库