由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 请教一个统计学问题,需要多少个SNPs去鉴定一个人
相关主题
怎样检测一个基因的变异与疾病的关系求篇全文,万分感谢!
大家来聊聊CNV,methylation和gene expression的关系新手请教CNV caller
illumina测序数据分析Which method is better for copy number variation detection, NGS or microarray?
请问做complex disease有前途吗?请教染色体易位
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?全基因组数据研究SV/CNV用什么软件
请教neurogenomics职业规划怎样检测肿瘤样本里单个基因的LOH(loss of heterozygosity)?
有没有CNV-Phenotype的数据库?forensic是个不错的career啊
现在生物医学界的大热点都是哪些,求讨论一下,激发灵感包子求基因检测查祖先的机构
相关话题的讨论汇总
话题: snp话题: dna话题: snps话题: 测定话题: aa
进入Biology版参与讨论
1 (共1页)
w**k
发帖数: 6722
1
正在找文献,还没有找到那个统计方法和公式合适(统计水平有限)
大概最简单的应该假定每个SNP都是50-50 heterozygous (AA, Aa, aa)
人类总共有多少SNPs
总共有多少人
或者是forensic里面match database,有多好的 power of discrimination
谢谢
D*a
发帖数: 6830
2
为什么要用SNPs鉴定而不用STRs
w**k
发帖数: 6722
3
STRs 也行,统计上的方法差不多吧

【在 D*a 的大作中提到】
: 为什么要用SNPs鉴定而不用STRs
D*a
发帖数: 6830
4
STRs的话不就是亲子鉴定了,现在流行的就是十几个位点,就够了,这方面应该有不少
资料看怎么算出来。
如果是单个SNP的话应该每条染色体有ATCG四种选择(理论上),然后人两条染色体就
是4选2=6,单个位点有六种选择,也就是能把全世界人分成6份,两个位点就是6*6,能
把全世界人分成36份,然后就是6的?次方= 70亿
我的思路。

【在 w**k 的大作中提到】
: STRs 也行,统计上的方法差不多吧
h**********n
发帖数: 506
5
您没做过SNP吧 这理论上有错啊

【在 D*a 的大作中提到】
: STRs的话不就是亲子鉴定了,现在流行的就是十几个位点,就够了,这方面应该有不少
: 资料看怎么算出来。
: 如果是单个SNP的话应该每条染色体有ATCG四种选择(理论上),然后人两条染色体就
: 是4选2=6,单个位点有六种选择,也就是能把全世界人分成6份,两个位点就是6*6,能
: 把全世界人分成36份,然后就是6的?次方= 70亿
: 我的思路。

D*a
发帖数: 6830
6
是没做过,请问哪里错了?

【在 h**********n 的大作中提到】
: 您没做过SNP吧 这理论上有错啊
w**k
发帖数: 6722
7
如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人
,其中的错误的可能性小到可以忽略。

【在 D*a 的大作中提到】
: 是没做过,请问哪里错了?
m*****s
发帖数: 156
8
你这个就是个概率问题了,算清楚概率就行了

如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人
,其中的错误的可能性小到可以忽略。

【在 w**k 的大作中提到】
: 如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
: 是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
: 具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
: 常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
: 我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
: 者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
: panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人

a********k
发帖数: 2273
9
STR的方法简单,成熟。SNP目前还是比较有难度的,不过doable。

【在 w**k 的大作中提到】
: STRs 也行,统计上的方法差不多吧
w**k
发帖数: 6722
10
问题就是怎么算概率,还有该要多少SNPs

X
SNP

【在 m*****s 的大作中提到】
: 你这个就是个概率问题了,算清楚概率就行了
:
: 如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
: 是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
: 具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
: 常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
: 我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或

相关主题
请教neurogenomics职业规划求篇全文,万分感谢!
有没有CNV-Phenotype的数据库?新手请教CNV caller
现在生物医学界的大热点都是哪些,求讨论一下,激发灵感Which method is better for copy number variation detection, NGS or microarray?
进入Biology版参与讨论
a********k
发帖数: 2273
11
真要做的话不仅仅是概率了,SNP和种族的关系太大,多样性又不如STR。做起来有难度。

X
SNP

【在 m*****s 的大作中提到】
: 你这个就是个概率问题了,算清楚概率就行了
:
: 如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
: 是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
: 具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
: 常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
: 我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或

D*a
发帖数: 6830
12
哦对,我想错了。
hetero可以再详细分么?比如如果是A/C,按照测序原理会不会看出来是爸爸是A还是妈
妈是A?还是只能看出来是hetero呢?

X
SNP

【在 w**k 的大作中提到】
: 如果测定某个点位,两套染色体上可以是n=10种组合(4 homo and 6 hetero)。也就
: 是说,如果全世界的人都测定了这个位置,那么全世界的人可以分进这n组中某个组。
: 具体到SNP,通常某个位置上有个主要的常见的,比如C/C,一个不常见的,比如T/T。
: 常见的C/C也许是80%,T/T 20%,那就是64% CC,32% CT,4% TT的分布。
: 我的问题其实是这样的。假定我有某个人(X)的DNA,我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs,比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的,也有可能是X的父母亲的,或
: 者兄弟姐妹的,或者邻居老王的,甚至不遗传相关的陌生人。我需要设计这么一个SNP
: panel,然后我测定X之后,可以在统计学意义上说,样品X和数据库里面的X是同一个人

w**k
发帖数: 6722
13
AA CC GG TT
AC AG AT CG CT GT
测出来的结果,比如AC,你基本上无法知道A是从父亲那里来的,还是母亲那里来的。

【在 D*a 的大作中提到】
: 哦对,我想错了。
: hetero可以再详细分么?比如如果是A/C,按照测序原理会不会看出来是爸爸是A还是妈
: 妈是A?还是只能看出来是hetero呢?
:
: X
: SNP

g**a
发帖数: 2129
14
关键是选择哪几个SNP。CNV, rare variant的发生概率不一样,更何况还有linkage
disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说,要达到你的目
的,直接选用那些SNP不就可以了吗?
w**k
发帖数: 6722
15
只能通过选择不同染色体上面,然后尽量远离的SNP来假定没有linkage了
设定了标准,可以从SNP里面去选,但是标准怎么定,然后statistical
discriminatory power怎么算 --- 还没找到合适的paper

【在 g**a 的大作中提到】
: 关键是选择哪几个SNP。CNV, rare variant的发生概率不一样,更何况还有linkage
: disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
: 面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说,要达到你的目
: 的,直接选用那些SNP不就可以了吗?

1 (共1页)
进入Biology版参与讨论
相关主题
包子求基因检测查祖先的机构有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
Should SNPs be patented?请教neurogenomics职业规划
Re: A question on PCR efficiency有没有CNV-Phenotype的数据库?
mRNA next gen Illumina 问题请教现在生物医学界的大热点都是哪些,求讨论一下,激发灵感
怎样检测一个基因的变异与疾病的关系求篇全文,万分感谢!
大家来聊聊CNV,methylation和gene expression的关系新手请教CNV caller
illumina测序数据分析Which method is better for copy number variation detection, NGS or microarray?
请问做complex disease有前途吗?请教染色体易位
相关话题的讨论汇总
话题: snp话题: dna话题: snps话题: 测定话题: aa