G********r 发帖数: 3161 | 1 不知道的发在这里合不合适,我有一个IDB(Integrated Database),目前只包括四个部
门的数据已经有300万条记录了,我们主要是用PC SAS处理数据,请教一下有经验的前
辈,对于大数据,是不是应该多用Data step而不是SQL啊,我目前测试的结果是Data
Step明显快于SQL,但是又很想用SQL,因为很多东西用SQL要简洁得多,比如说我要把
每个部门的最大值,最小值加到每个人的数据上,SQL一个语句就做出来了,Data Step
要最大值做一个dataset,最小值做一个Dataset,然后跟主数据Merge起来,至少三步
。请教前辈在处理大数据方面的经验。谢谢了。 |
s**********o 发帖数: 14359 | 2 3M的数据量很小了, SQL HANDLE起来还容易了,之所以慢
你没有PK,没有INDEX,数据没有NORMALIZE好,DATATYPE没搞好 |
a9 发帖数: 21638 | 3 300w条查记录应该1秒内能出来吧?
Step
【在 G********r 的大作中提到】 : 不知道的发在这里合不合适,我有一个IDB(Integrated Database),目前只包括四个部 : 门的数据已经有300万条记录了,我们主要是用PC SAS处理数据,请教一下有经验的前 : 辈,对于大数据,是不是应该多用Data step而不是SQL啊,我目前测试的结果是Data : Step明显快于SQL,但是又很想用SQL,因为很多东西用SQL要简洁得多,比如说我要把 : 每个部门的最大值,最小值加到每个人的数据上,SQL一个语句就做出来了,Data Step : 要最大值做一个dataset,最小值做一个Dataset,然后跟主数据Merge起来,至少三步 : 。请教前辈在处理大数据方面的经验。谢谢了。
|
G********r 发帖数: 3161 | 4 What??? 1秒?你什么机器啊?我Server上用的SAS EG,170w条记录28个变量,要算四
个最大值加到原始数据上,SQL用的时间是:
real time: 48.34 seconds
cpu time: 1:16.20
【在 a9 的大作中提到】 : 300w条查记录应该1秒内能出来吧? : : Step
|
G********r 发帖数: 3161 | 5 万分感谢了。请教如何做你说的PK,INDEX,NORMALIZE,DATATYPE?
【在 s**********o 的大作中提到】 : 3M的数据量很小了, SQL HANDLE起来还容易了,之所以慢 : 你没有PK,没有INDEX,数据没有NORMALIZE好,DATATYPE没搞好
|
s**********o 发帖数: 14359 | 6 你数据库整一啥都不懂啊,怎么搞数据
【在 G********r 的大作中提到】 : 万分感谢了。请教如何做你说的PK,INDEX,NORMALIZE,DATATYPE?
|
a9 发帖数: 21638 | 7 不知道你什么数据,怎么取最大值。没法说。
你要都加到原始数据上,48秒不算多。
【在 G********r 的大作中提到】 : What??? 1秒?你什么机器啊?我Server上用的SAS EG,170w条记录28个变量,要算四 : 个最大值加到原始数据上,SQL用的时间是: : real time: 48.34 seconds : cpu time: 1:16.20
|