由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 用SAS/R如何管理large dataset,存储,读取,高效的数据处理?
相关主题
NIH gene array bank有谁申请过 cancer genome altas control的数据?
SAS clinical training问一下做chip-seq的版友
SAS clinical trainingR&D Information Services Bioinformatics Analyst Position i
这样也能发文章biotorrent现在生物真不是小实验室可以做的了
how to create non-redundant DNA sequence dataset在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!
大家帮帮忙JGI all bacterial reference genome dataset
Hiring: Postdoc in Biostatistics and Computational Biolog哪里可以下载ngs的sample dataset
Bioinformatics Postdoctoral Fellowship -- Harvard Medical求Paper
相关话题的讨论汇总
话题: sas话题: dataset话题: 如何话题: large话题: 数据处理
进入Biology版参与讨论
1 (共1页)
v*******g
发帖数: 334
1
dataset 〉million records
是基因数据。大家是如何处理大型数据,用什么软件。
要用SQL吗?如何与外部数据库联呢?
或者用R 如何管理和处理 large datset?
或哪里有这方面的介绍呢?
谢谢
c*********t
发帖数: 340
2
I used SAS for about 1 year and R for about 1 year. When I was using SAS I
was just dealing with small datasets. For the past year I've been working
with high-through put microarray data and R is extremely good at handling
data matrice. You can find a whole bunch of R tutorials online:-)
t*d
发帖数: 1290
3
million级的数据,对 R 应该是小菜一碟。
用 64 位的R,> 16G 以上的内存。million级的数据应该不是问题。

【在 v*******g 的大作中提到】
: dataset 〉million records
: 是基因数据。大家是如何处理大型数据,用什么软件。
: 要用SQL吗?如何与外部数据库联呢?
: 或者用R 如何管理和处理 large datset?
: 或哪里有这方面的介绍呢?
: 谢谢

y*******o
发帖数: 236
4
用R是可以处理。但是R的version update很快,以前写的code在新版本的R可能有运行
不了的情况,所以要是大project的话,maitain和integrate要小心。
1 (共1页)
进入Biology版参与讨论
相关主题
求Paperhow to create non-redundant DNA sequence dataset
zz昨夜无眠--Why not become a scientist?大家帮帮忙
昨夜无眠ztHiring: Postdoc in Biostatistics and Computational Biolog
paper helpBioinformatics Postdoctoral Fellowship -- Harvard Medical
NIH gene array bank有谁申请过 cancer genome altas control的数据?
SAS clinical training问一下做chip-seq的版友
SAS clinical trainingR&D Information Services Bioinformatics Analyst Position i
这样也能发文章biotorrent现在生物真不是小实验室可以做的了
相关话题的讨论汇总
话题: sas话题: dataset话题: 如何话题: large话题: 数据处理