由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - python 网络爬虫和数据处理
相关主题
python用起来没有matlab好使,尤其是数据处理python for data analysis
求大侠指点大数据课题预算C1 Coding Exam
求教如何从网页抓取数据根据产品名称找UPC
python数据处理的一个问题 (转载)请问学BI的certificate课程对于我这种背景的找相关工作有用么?
刷kaggle对找工作有用么?data science 其实是苦差
如何用python读取大数据求助: 一个用Hive提取feature的问题
求指点-怎样提高python水平?DS对数据库需要了解多少?
Memory Error in pandas.concat with Python这样的数据怎么处理
相关话题的讨论汇总
话题: python话题: 数据处理话题: 格式话题: 网页话题: 需要
进入DataSciences版参与讨论
1 (共1页)
B*********5
发帖数: 4
1
正在学习python。 请问高手们一个问题。如果需要从几个特定的专业网站上抓取有用
的信息。 每个网站大概有3千个产品,也就是有三千页格式大致相同的网页。每个网页
我需要提取产品名称,价格,产地,等等大概5到8条关键文本信息, 图片啥的统统不
要。我需要用到什么库呢。需要把这些网页拔下来存成某种格式的文件。
第二阶段就是做数据处理,从比较乱的文件中提取我要的几条信息,以统一格式存到
excel里。这个是不是也可以用python来实现? 还是用VBA等别的语言比较好。
请有经验的大牛分享一下。 谢过!
d*****n
发帖数: 754
2
scrapy . 如果是table, pandas 的read_html就行了。

【在 B*********5 的大作中提到】
: 正在学习python。 请问高手们一个问题。如果需要从几个特定的专业网站上抓取有用
: 的信息。 每个网站大概有3千个产品,也就是有三千页格式大致相同的网页。每个网页
: 我需要提取产品名称,价格,产地,等等大概5到8条关键文本信息, 图片啥的统统不
: 要。我需要用到什么库呢。需要把这些网页拔下来存成某种格式的文件。
: 第二阶段就是做数据处理,从比较乱的文件中提取我要的几条信息,以统一格式存到
: excel里。这个是不是也可以用python来实现? 还是用VBA等别的语言比较好。
: 请有经验的大牛分享一下。 谢过!

B*********5
发帖数: 4
3
非常感谢!明天又有新东西学习了。

【在 d*****n 的大作中提到】
: scrapy . 如果是table, pandas 的read_html就行了。
B*********5
发帖数: 4
4
正在学习python。 请问高手们一个问题。如果需要从几个特定的专业网站上抓取有用
的信息。 每个网站大概有3千个产品,也就是有三千页格式大致相同的网页。每个网页
我需要提取产品名称,价格,产地,等等大概5到8条关键文本信息, 图片啥的统统不
要。我需要用到什么库呢。需要把这些网页拔下来存成某种格式的文件。
第二阶段就是做数据处理,从比较乱的文件中提取我要的几条信息,以统一格式存到
excel里。这个是不是也可以用python来实现? 还是用VBA等别的语言比较好。
请有经验的大牛分享一下。 谢过!
d*****n
发帖数: 754
5
scrapy . 如果是table, pandas 的read_html就行了。

【在 B*********5 的大作中提到】
: 正在学习python。 请问高手们一个问题。如果需要从几个特定的专业网站上抓取有用
: 的信息。 每个网站大概有3千个产品,也就是有三千页格式大致相同的网页。每个网页
: 我需要提取产品名称,价格,产地,等等大概5到8条关键文本信息, 图片啥的统统不
: 要。我需要用到什么库呢。需要把这些网页拔下来存成某种格式的文件。
: 第二阶段就是做数据处理,从比较乱的文件中提取我要的几条信息,以统一格式存到
: excel里。这个是不是也可以用python来实现? 还是用VBA等别的语言比较好。
: 请有经验的大牛分享一下。 谢过!

B*********5
发帖数: 4
6
非常感谢!明天又有新东西学习了。

【在 d*****n 的大作中提到】
: scrapy . 如果是table, pandas 的read_html就行了。
s*******f
发帖数: 757
7
可以看看beautiful soup相关的。
1 (共1页)
进入DataSciences版参与讨论
相关主题
这样的数据怎么处理刷kaggle对找工作有用么?
物理驴:我有机会搞搞data scientist吗如何用python读取大数据
Grails求指点-怎样提高python水平?
请帮忙推荐工作用的laptopMemory Error in pandas.concat with Python
python用起来没有matlab好使,尤其是数据处理python for data analysis
求大侠指点大数据课题预算C1 Coding Exam
求教如何从网页抓取数据根据产品名称找UPC
python数据处理的一个问题 (转载)请问学BI的certificate课程对于我这种背景的找相关工作有用么?
相关话题的讨论汇总
话题: python话题: 数据处理话题: 格式话题: 网页话题: 需要