由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请大家帮我看看这个R的问题吧?
相关主题
请教一个概率问题Postdocotor Position (start immediately)
Re: 请问longest common consecutive sequence用什么算法? (转载)我也来问个生统的问题。 (转载)
Job position for bio-infomatics or bio-statistics请教一个data mining 的问题: sequence data
deep sequencing数据分析请教一个sas求和的问题
关于拿这个统计硕士的困惑,谢谢指点和建议QTL mapping
看看你会不会出错!(Correlation factor vs Similarity)microarray现在是不是火坑?
对于庞大的sequence data,通常会用database储存么?统计program的offer,求建议
菜鸟问题:想用R画一个random sequence的图做 Next generation sequencing 这个方向怎么样?
相关话题的讨论汇总
话题: diversity话题: alpha话题: na话题: sample话题: aovp
进入Statistics版参与讨论
1 (共1页)
o******n
发帖数: 511
1
我在stack overflow发了个帖子,主要想知道我提到的表格怎么处理,才能在R里做分
析,另外aovp怎么处理NA。请版上的统计达人们帮忙看看,谢谢帮助啊。
I need to do some analysis on an output table from the calculation of alpha
diversity (within-sample diversity) for some ecological samples from a
program.
I have attached the output table here: https://app.box.com/s/
1oyc7u2pme2kf80exs95
The analysis I want to do is to partition the variation in the alpha
diversity to the variables plate, sequence_run, sample_type, and environment
, and I plan to use permutation-based multiple regression in R.
I just cannot visualize in my mind how I should prepare this table for R so
that I can do the analysis. So my question is, how should I organize this
output table for analysis in R? And is there a way to deal with NAs in the '
aovp' function?
Please note that the iterations from 0 to 9 at the Nth sequence depth is due
to the random sampling of N sequences from that sample to calculate alpha
diversity for 10 times by the program. If there were not enough sequences in
that sample, the program generated an 'NA'.
Thanks for your help!
h***i
发帖数: 3844
2
df=merge(t4,par1,by.x='sample',by.y='sample')
why not
df = merge(t4, par1, by='sample')

【在 o******n 的大作中提到】
: 我在stack overflow发了个帖子,主要想知道我提到的表格怎么处理,才能在R里做分
: 析,另外aovp怎么处理NA。请版上的统计达人们帮忙看看,谢谢帮助啊。
: I need to do some analysis on an output table from the calculation of alpha
: diversity (within-sample diversity) for some ecological samples from a
: program.
: I have attached the output table here: https://app.box.com/s/
: 1oyc7u2pme2kf80exs95
: The analysis I want to do is to partition the variation in the alpha
: diversity to the variables plate, sequence_run, sample_type, and environment
: , and I plan to use permutation-based multiple regression in R.

o******n
发帖数: 511
3
我以前用merge命令不多,写得麻烦了,嘿嘿。
你能帮我看看我应该怎么处理那个表格,才能做我想做的分析吗?谢谢啦。
h***i
发帖数: 3844
4
http://artax.karlin.mff.cuni.cz/r-help/library/asbio/html/alpha
is this for alpha diversity?

【在 o******n 的大作中提到】
: 我以前用merge命令不多,写得麻烦了,嘿嘿。
: 你能帮我看看我应该怎么处理那个表格,才能做我想做的分析吗?谢谢啦。

o******n
发帖数: 511
5
嗯,我已经有alpha diversity了,我想看不同变量怎么影响各个sample的alpha
diversity的。
附这个表格的iterations和NA简介:
由于前一个算alpha diversity的程序每次在同一个sequence depth下随机取样十次,
算十次alpha diversity,每个样品的同一个sequence depth下的alpha diversity有10
个值;而且在十一个不同sequence depth下计算了alpha diversity。因此,每个样品
有110个alpha diversity measurements,且由于有的样品序列数不一定够,alpha
diversity的值里面有NA。
h***i
发帖数: 3844
6
then why not just remove NA? do you have lots of NA or just a few?
sorry, your problem is really unclear to me.

10

【在 o******n 的大作中提到】
: 嗯,我已经有alpha diversity了,我想看不同变量怎么影响各个sample的alpha
: diversity的。
: 附这个表格的iterations和NA简介:
: 由于前一个算alpha diversity的程序每次在同一个sequence depth下随机取样十次,
: 算十次alpha diversity,每个样品的同一个sequence depth下的alpha diversity有10
: 个值;而且在十一个不同sequence depth下计算了alpha diversity。因此,每个样品
: 有110个alpha diversity measurements,且由于有的样品序列数不一定够,alpha
: diversity的值里面有NA。

o******n
发帖数: 511
7
我不确定能不能去掉NA,也许可以。
但我的主要问题是用我现在的scripts出来的这个data frame做aovp是对的吗?换句话
说,假如给你我帖子里那个原始表格,想看每个样品的alpha diversity variation和
几个变量(plate, sequence_run, type, environment)间的关系,你会怎么处理那个
原始表格,用来做aovp呢?:-)
这样说明白了吗?
谢谢!
o******n
发帖数: 511
8
还是这个问题,我在我的stackoverflow链接里贴的scripts是可以用在example data上
的,但实际的更大的real data用起aovp来就会报memory不够的错。
所以我估计我处理iterations的方式不对,或者我生成那个data frame的方式不对,请
各位帮我看下吧,谢谢啦~~~
1 (共1页)
进入Statistics版参与讨论
相关主题
做 Next generation sequencing 这个方向怎么样?关于拿这个统计硕士的困惑,谢谢指点和建议
postdoc Bioinformatics - NIH看看你会不会出错!(Correlation factor vs Similarity)
想问问版上牛人们,epigenomic 的DNA sequencing study有什么对于庞大的sequence data,通常会用database储存么?
两组时间序列的比较菜鸟问题:想用R画一个random sequence的图
请教一个概率问题Postdocotor Position (start immediately)
Re: 请问longest common consecutive sequence用什么算法? (转载)我也来问个生统的问题。 (转载)
Job position for bio-infomatics or bio-statistics请教一个data mining 的问题: sequence data
deep sequencing数据分析请教一个sas求和的问题
相关话题的讨论汇总
话题: diversity话题: alpha话题: na话题: sample话题: aovp