请教一个统计学问题，需要多少个SNPs去鉴定一个人 - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 请教一个统计学问题，需要多少个SNPs去鉴定一个人

相关主题
● 怎样检测一个基因的变异与疾病的关系	● 求篇全文，万分感谢！
● 大家来聊聊CNV，methylation和gene expression的关系	● 新手请教CNV caller
● illumina测序数据分析	● Which method is better for copy number variation detection, NGS or microarray?
● 请问做complex disease有前途吗？	● 请教染色体易位
● 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？	● 全基因组数据研究SV/CNV用什么软件
● 请教neurogenomics职业规划	● 怎样检测肿瘤样本里单个基因的LOH（loss of heterozygosity）？
● 有没有CNV-Phenotype的数据库？	● forensic是个不错的career啊
● 现在生物医学界的大热点都是哪些，求讨论一下，激发灵感	● 包子求基因检测查祖先的机构

相关话题的讨论汇总
话题: snp话题: dna话题: snps话题: 测定话题: aa

进入Biology版参与讨论

(共1页)

w**k
发帖数: 6722

正在找文献，还没有找到那个统计方法和公式合适（统计水平有限）
大概最简单的应该假定每个SNP都是50-50 heterozygous (AA, Aa, aa)
人类总共有多少SNPs
总共有多少人
或者是forensic里面match database，有多好的 power of discrimination
谢谢

D*a
发帖数: 6830

为什么要用SNPs鉴定而不用STRs

w**k
发帖数: 6722

STRs 也行，统计上的方法差不多吧

【在 D*a 的大作中提到】

: 为什么要用SNPs鉴定而不用STRs

D*a
发帖数: 6830

STRs的话不就是亲子鉴定了，现在流行的就是十几个位点，就够了，这方面应该有不少
资料看怎么算出来。
如果是单个SNP的话应该每条染色体有ATCG四种选择（理论上），然后人两条染色体就
是4选2=6，单个位点有六种选择，也就是能把全世界人分成6份，两个位点就是6*6，能
把全世界人分成36份，然后就是6的？次方= 70亿
我的思路。

【在 w**k 的大作中提到】

: STRs 也行，统计上的方法差不多吧

h**********n
发帖数: 506

您没做过SNP吧这理论上有错啊

【在 D*a 的大作中提到】

: STRs的话不就是亲子鉴定了，现在流行的就是十几个位点，就够了，这方面应该有不少
: 资料看怎么算出来。
: 如果是单个SNP的话应该每条染色体有ATCG四种选择（理论上），然后人两条染色体就
: 是4选2=6，单个位点有六种选择，也就是能把全世界人分成6份，两个位点就是6*6，能
: 把全世界人分成36份，然后就是6的？次方= 70亿
: 我的思路。

D*a
发帖数: 6830

是没做过，请问哪里错了？

【在 h**********n 的大作中提到】

: 您没做过SNP吧这理论上有错啊

w**k
发帖数: 6722

如果测定某个点位，两套染色体上可以是n=10种组合（4 homo and 6 hetero）。也就
是说，如果全世界的人都测定了这个位置，那么全世界的人可以分进这n组中某个组。
具体到SNP，通常某个位置上有个主要的常见的，比如C/C，一个不常见的，比如T/T。
常见的C/C也许是80%，T/T 20%，那就是64% CC，32% CT，4% TT的分布。
我的问题其实是这样的。假定我有某个人（X）的DNA，我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs，比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的，也有可能是X的父母亲的，或
者兄弟姐妹的，或者邻居老王的，甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel，然后我测定X之后，可以在统计学意义上说，样品X和数据库里面的X是同一个人
，其中的错误的可能性小到可以忽略。

【在 D*a 的大作中提到】

: 是没做过，请问哪里错了？

m*****s
发帖数: 156

你这个就是个概率问题了，算清楚概率就行了

如果测定某个点位，两套染色体上可以是n=10种组合（4 homo and 6 hetero）。也就
是说，如果全世界的人都测定了这个位置，那么全世界的人可以分进这n组中某个组。
具体到SNP，通常某个位置上有个主要的常见的，比如C/C，一个不常见的，比如T/T。
常见的C/C也许是80%，T/T 20%，那就是64% CC，32% CT，4% TT的分布。
我的问题其实是这样的。假定我有某个人（X）的DNA，我还有一个两百万大小DNA数据
库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs，比如说20个吧。然后X
的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
不是同一个人。需要考虑的是我的DNA样品有可能是X的，也有可能是X的父母亲的，或
者兄弟姐妹的，或者邻居老王的，甚至不遗传相关的陌生人。我需要设计这么一个SNP
panel，然后我测定X之后，可以在统计学意义上说，样品X和数据库里面的X是同一个人
，其中的错误的可能性小到可以忽略。

【在 w**k 的大作中提到】

: 如果测定某个点位，两套染色体上可以是n=10种组合（4 homo and 6 hetero）。也就
: 是说，如果全世界的人都测定了这个位置，那么全世界的人可以分进这n组中某个组。
: 具体到SNP，通常某个位置上有个主要的常见的，比如C/C，一个不常见的，比如T/T。
: 常见的C/C也许是80%，T/T 20%，那就是64% CC，32% CT，4% TT的分布。
: 我的问题其实是这样的。假定我有某个人（X）的DNA，我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs，比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的，也有可能是X的父母亲的，或
: 者兄弟姐妹的，或者邻居老王的，甚至不遗传相关的陌生人。我需要设计这么一个SNP
: panel，然后我测定X之后，可以在统计学意义上说，样品X和数据库里面的X是同一个人

a********k
发帖数: 2273

STR的方法简单，成熟。SNP目前还是比较有难度的，不过doable。

【在 w**k 的大作中提到】

: STRs 也行，统计上的方法差不多吧

w**k
发帖数: 6722

问题就是怎么算概率，还有该要多少SNPs

X
SNP

【在 m*****s 的大作中提到】

: 你这个就是个概率问题了，算清楚概率就行了
:
: 如果测定某个点位，两套染色体上可以是n=10种组合（4 homo and 6 hetero）。也就
: 是说，如果全世界的人都测定了这个位置，那么全世界的人可以分进这n组中某个组。
: 具体到SNP，通常某个位置上有个主要的常见的，比如C/C，一个不常见的，比如T/T。
: 常见的C/C也许是80%，T/T 20%，那就是64% CC，32% CT，4% TT的分布。
: 我的问题其实是这样的。假定我有某个人（X）的DNA，我还有一个两百万大小DNA数据
: 库。数据库里面有X的DNA。这两百万的样品都测定了某些SNPs，比如说20个吧。然后X
: 的DNA也测了这个SNP panel。我需要通过X的SNP panel结果来判定X和数据库里面的X是
: 不是同一个人。需要考虑的是我的DNA样品有可能是X的，也有可能是X的父母亲的，或

相关主题
● 请教neurogenomics职业规划	● 求篇全文，万分感谢！
● 有没有CNV-Phenotype的数据库？	● 新手请教CNV caller
● 现在生物医学界的大热点都是哪些，求讨论一下，激发灵感	● Which method is better for copy number variation detection, NGS or microarray?
进入Biology版参与讨论

a********k
发帖数: 2273

真要做的话不仅仅是概率了，SNP和种族的关系太大，多样性又不如STR。做起来有难度。

X
SNP

【在 m*****s 的大作中提到】

D*a
发帖数: 6830

哦对，我想错了。
hetero可以再详细分么？比如如果是A/C,按照测序原理会不会看出来是爸爸是A还是妈
妈是A？还是只能看出来是hetero呢？

X
SNP

【在 w**k 的大作中提到】

w**k
发帖数: 6722

AA CC GG TT
AC AG AT CG CT GT
测出来的结果，比如AC，你基本上无法知道A是从父亲那里来的，还是母亲那里来的。

【在 D*a 的大作中提到】

: 哦对，我想错了。
: hetero可以再详细分么？比如如果是A/C,按照测序原理会不会看出来是爸爸是A还是妈
: 妈是A？还是只能看出来是hetero呢？
:
: X
: SNP

g**a
发帖数: 2129

关键是选择哪几个SNP。CNV, rare variant的发生概率不一样，更何况还有linkage
disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说，要达到你的目
的，直接选用那些SNP不就可以了吗？

w**k
发帖数: 6722

只能通过选择不同染色体上面，然后尽量远离的SNP来假定没有linkage了
设定了标准，可以从SNP里面去选，但是标准怎么定，然后statistical
discriminatory power怎么算 --- 还没找到合适的paper

【在 g**a 的大作中提到】

: 关键是选择哪几个SNP。CNV, rare variant的发生概率不一样，更何况还有linkage
: disequilibrium。根本不可能按照随机事件的概率来假设。所以选择SNP很重要。这方
: 面应该有很多文章讨论的。DNA测试选的那几个SNP都是有原因的。话说，要达到你的目
: 的，直接选用那些SNP不就可以了吗？

(共1页)

进入Biology版参与讨论

相关主题
● 包子求基因检测查祖先的机构	● 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？
● Should SNPs be patented?	● 请教neurogenomics职业规划
● Re: A question on PCR efficiency	● 有没有CNV-Phenotype的数据库？
● mRNA next gen Illumina 问题请教	● 现在生物医学界的大热点都是哪些，求讨论一下，激发灵感
● 怎样检测一个基因的变异与疾病的关系	● 求篇全文，万分感谢！
● 大家来聊聊CNV，methylation和gene expression的关系	● 新手请教CNV caller
● illumina测序数据分析	● Which method is better for copy number variation detection, NGS or microarray?
● 请问做complex disease有前途吗？	● 请教染色体易位

相关话题的讨论汇总
话题: snp话题: dna话题: snps话题: 测定话题: aa

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天