i****f 发帖数: 979 | 1 想问问大家,我现在上课做一个project,需要从网页上抓数据下来,网上的code看不
懂,想问问大家这东西自学能速成么?大虾门指条明路吧 |
R*****d 发帖数: 420 | 2 我记得python可以从网页上抓数据,但不知道sas怎么弄这个。
【在 i****f 的大作中提到】 : 想问问大家,我现在上课做一个project,需要从网页上抓数据下来,网上的code看不 : 懂,想问问大家这东西自学能速成么?大虾门指条明路吧
|
c*****a 发帖数: 808 | 3 what do you return form the website?
xml table, json object ... etc? |
i****f 发帖数: 979 | 4
谢谢回复
【在 R*****d 的大作中提到】 : 我记得python可以从网页上抓数据,但不知道sas怎么弄这个。
|
i****f 发帖数: 979 | 5
没太明白你的问题,你是在问我 output成什么格式么?我只需要data,所以excel或者
text就好了
网上看到一些code,但是实在是读不懂
【在 c*****a 的大作中提到】 : what do you return form the website? : xml table, json object ... etc?
|
c*****a 发帖数: 808 | |
i****f 发帖数: 979 | 7
对不起
对于这个我基本是文盲
这个网页是什么格式?
http://soccernet.espn.go.com/report?id=330062&cc=5901
我只想抓右边下面的match stats
多谢了
【在 c*****a 的大作中提到】 : 网页什么格式
|
t******g 发帖数: 372 | 8 this is not a meaningful job for sas, but rather for some script languages
like perl, python, etc.
you will need some regular expression matching to search and parse the table.
I dont think there is any legacy sas code exists will handle this, even if
some people may have done this you will still need a lot of tweaking, in all
it is a highly tailered job, and html is not that strictly structured as
xml.
【在 i****f 的大作中提到】 : : 对不起 : 对于这个我基本是文盲 : 这个网页是什么格式? : http://soccernet.espn.go.com/report?id=330062&cc=5901 : 我只想抓右边下面的match stats : 多谢了
|
c*******o 发帖数: 8869 | 9 try filename URL, for details, read the following link:
http://www.lexjansen.com/pharmasug/2010/ad/ad23.pdf
【在 R*****d 的大作中提到】 : 我记得python可以从网页上抓数据,但不知道sas怎么弄这个。
|
i****f 发帖数: 979 | 10
table.
all
谢谢你的回复,我也在读一些朋友提供的资料。希望能解决问题,好在我想抓下来的东
西,不多,我试试把url抓下来然后看看有没有一些特征可以找到这些数据
感谢你的回复
【在 t******g 的大作中提到】 : this is not a meaningful job for sas, but rather for some script languages : like perl, python, etc. : you will need some regular expression matching to search and parse the table. : I dont think there is any legacy sas code exists will handle this, even if : some people may have done this you will still need a lot of tweaking, in all : it is a highly tailered job, and html is not that strictly structured as : xml.
|
i****f 发帖数: 979 | 11
我正在读这篇文章,希望能够work out!
感谢感谢!
【在 c*******o 的大作中提到】 : try filename URL, for details, read the following link: : http://www.lexjansen.com/pharmasug/2010/ad/ad23.pdf
|