第4页 - 关于snps的讨论汇总 - 话题女王

l****n
发帖数: 844

SNP-疾病数据库项目合作机会
国内生物技术公司,主要从事研发展分子诊断与分子检测类产品, 拥有大规模SNP检测平
台. 现在通过合作或合同形式寻求生物信息高手, 利用公开数据库以及文献信息,开发
及整合与疾病有关的SNP数据库. 主要目的是试图将大通量SNP检测的产生的数据, 同已
报道的已知疾病SNP和未来的人群流行病调查结合, 建立可能的疾病风险与诊断/预后预
测平台. 合作形势以及报酬可以面议. 有兴趣可以站内联系或者email: linden98@
gmail.com
时间报酬都可以商量, 想海鸥的大侠可以看看

E*********r
发帖数: 4984

来自主题: Stock版 - 简单谈谈我对PACB的看法

今早有人问我对于PACB的看法，不好意思，今天蛮多事情，还来不及马上回复。说实
在对于下一代测序本人不是专家，不过也随便讲几句。其实Mutate大牛是搞测序的，具
体可以问他。我曾经到过Ion Torrent看过他们一个Demo，不过感觉比Illumina的方法
差一些。PACB的话，我以前有一个同事在那边工作，后来离开了，问他原因，他说
Bored。至于长片段有没有用，我的观点是肯定好一些，但不是绝对的。下一代测序是
把短片段通过软件接起来，目前大概Ion Torrent的小片段就100多个碱基，然后串成整
个Genome Sequence。长片段连接的准确率高，短的就差一些，不过还要看软件怎么写。
值得一提的是，测序在临床上的使用还只是开始，能够解决的问题不多，主要是遗传性
疾病，最大的用途是找SNP，现在的Pharmacogenomics很热，也所谓的个体化医疗方案
。现今了解到不少疾病或者药物反应和某些SNP有很大的关系，因此筛选SNP成为分子诊
断非常重要的一个环节。不过测序有点用牛刀，有些东西，一个RT-PCR就可以解决，
Luminex也有专门筛选SNP的检测法，我... 阅读全帖

T**7
发帖数: 264

来自主题: Immigration版 - 审稿机会：Annals of Allergy, Asthma & Immunology

杂志：Annals of Allergy, Asthma & Immunology
请发简历给我，谢谢。
"Genome-wide association study identifies ALLC polymorphisms associated with
FEV1 change by corticosteroid"
Article Type: Original Article
Background: Asthma is characterized by chronic airway inflammation and
remodeling, which can be suppressed by inhaled corticosteroids (ICS).
However, response to ICS shows marked inter-individual variability.
Objective: To identify the genetic variants associated with the change in
the percentage of forced ... 阅读全帖

l******8
发帖数: 9475

来自主题: pets版 - 最新发现认为犬类起源中东

http://newsroom.ucla.edu/portal/ucla/dogs-likely-originated-in-
【纽约时报】最新发现认为犬类起源中东
作者：Nicholas Wade
2010年3月17日
最近，研究人员借助人类疾病遗传学研究手段得出了一项研究成果，认为犬类的起源最
早来自中东地区某地对狼的驯养，而非之前另一项研究所暗示的东亚起源论。
中东是目前已知的人类最早开始改良植物以及驯养非犬类家畜的地区，而这一新发现认
为，人类最早的驯化行为——养狗，也同样起源于此，这一结论同时加强了人类社会第
一批家养动物出现与约一万年前农业的诞生之间存在的联系。
此外，中东起源说与现有的考古学证据更加相符，而且，从大约两万年前游猎部落与狼
的关系到维多利亚时代犬类爱好者创造的诸多现代犬种，中东起源说使遗传学家们能够
完整地重建一部犬类发展史。
由加州大学洛杉矶分校的Bridgett M. vonHoldt和Robert K. Wayne领导的一个研究组
分析了来源于世界各地的大量狼和狗的基因组样本。通过对相似序列的比对，研究组发
现，中东地区狼和狗的基因组相似度最高，尽管东... 阅读全帖

a***r
发帖数: 420

来自主题: Biology版 - LD数据库？

大家好，我的课题需要找到一坨（约10000个）SNP的LD上其余的SNP，因为数量大，一
个个找不太现实，想请问一下大家，有没有可以输入一个SNP名，返回某人种的，此SNP
所在LD上所有其他SNP名的数据库呢？
十分感谢，期待您的回复
有效的帮助包子答谢！

s*****0
发帖数: 357

来自主题: Biology版 - what is the connection between linkage disequlibrium and GWAS?

Not quite sure the "connection" you are referring to, but here are my 2cents
, hopefully they will be helpful.
GWAS tests a huge number of SNPs. To control the global significance at
level of 0.05, usually the local significance is calculated through
Bonferroni correction. For example, for a million SNPs to be tested, the
local significance will be set at magnitude of 1e-7. However, not all SNPs
are independent. LD would be observed from nearby SNPs on the same
chromosome, which means the Bonfer... 阅读全帖

j*p
发帖数: 411

来自主题: Biology版 - 简单介绍 Bioinformatics Tools for NGS 分析

本人在wet lab里面做纯数据分析，for NGS data analysis, 简单介绍一些自己接触过
，并且觉得挺有用的工具，说的有点杂，权作抛砖引玉，还请不吝赐教。
Next-Gen sequencing(NGS)和现在正在发展的3rd-gen sequencing将会在生物学研究中
被越来越广泛应用。不管你信不信，反正我信了。一是基于实验成本的降低（$1k
whole-genome sequencing is coming），越来越多的实验室可以操作；二是可以提供
相对low throughput experiment多的多的数据和信息，可以看到很多从前看不到的东
西；三是sequencer本身对测序的准确性正在逐渐提高，所以实验固有错误率降低；四
是各种算法的成熟应用，这使得很多由于实验产生的误差在出数据后通过对数据的分析
得以过滤。按照library preparation来分，NGS主要有DNA-seq和RNA-seq
DNA-seq is usually used as ChIP-seq to study transcription factor(TF)-DNA
bi... 阅读全帖

j*p
发帖数: 411

来自主题: Biology版 - 简单介绍 Bioinformatics Tools for NGS 分析

b**********a
发帖数: 930

来自主题: Biology版 - Postdoc offer 选择

强烈建议你去1做，理由是方向GWAS很好，验证某个SNP和某疾病相关性很有做头，仅仅
搞清SNP本身就很有意思，和疾病相关就更有意思，SNP课题和以后所谓的personalized
medicine有很大关系，每个人的snp profile明白了，就知道和疾病和用药的关系，这
样真正做到personalized medicine。snp和新药临床实验中选择正确的病人验证新药疗
效十分重要，也是以后临床实验发展方向之一。制药厂和试剂诊断公司都愿意出钱资助
这类研究，所以经费很足。
研究和经费关系太大也太重要了，未来5年都比较充足，这点真的是很大优势。学校是
某一大牛校也很重要。PI是此疾病领域的临床医生，只有具有很好临床背景的医生才能
在personalized medicine领域大有作为。
现在这个课题组的最大问题是管理实验室和管理你的人十分真的懂以上东西。因为大老
板不懂很多，也没有多少时间管理实验室具体工作，一般都是找一个亲信来管理，此人
不懂也不是最大问题，关键是管理博士后的人要行，不然很难出文章。

g**********y
发帖数: 423

来自主题: Biology版 - NGS_Illumina类

欢迎讨论，特别是各种程序的调用参数。。。
http://dl.dropbox.com/u/62547840/NGS_Illumina.pm
http://dl.dropbox.com/u/62547840/NGS_Illumina.pl
screen output:
Illumina 1.3+ fastq format: ASCII(min, max) = (66, 102)
2012/08/25 11:41:15 START maq ill2sanger Run1_testicular-28T_lane2_read1_
sequence.txt Testis_T28_read1_sanger.fq
2012/08/25 11:42:57 SUCCESS after running 0 hours 1 minutes 42 seconds
2012/08/25 11:42:57 START maq ill2sanger Run1_testicular-28T_lane2_read2_
sequence.txt Testis_T28_read2_sanger.fq
2012/08/25... 阅读全帖

O*******e
发帖数: 17

来自主题: Biology版 - 哪位研究药物遗传学？Pharmacogenetics

I totally understand and agree with you in that 不是药物遗传学没用，而是思路
不对。从一个基因或者SNP，到最后的预后，还有很多中间过程和因素。Take 只从基因
角度来解释 as an example, most previous studies only focused on one single
gene or single SNP. Even those studies simultaneously look at the multiple
genes or SNPs,they take a gene by gene or SNP by SNP approach, basically
generate profound false positive as well as false negative findings. This is
actually a sad fact of Gene-environment (or drug) interaction (GxE)
research. Without breakthrough... 阅读全帖

G***G
发帖数: 16778

来自主题: Biology版 - 关于biological vs technical replicate

我认真想了想。重新组织了我的问题。
假设一个基因段：起点 loci 位置坐标是1
终点 loci位置坐标是100
通过研究，我们发现loci 34 和 loci 35 这两个位置会发生变异（GC，AT的转变），
且每个loci，只有两种变异。
那么我们可以说，“在loci34，我们发现了alleles，符号定义为A和a”
"在loci35，我们发现了alleles，符号定义为B和b"
我的问题是：当我们说起alleles的时候，它们永远都是一个位点（loci）上的SNP。
有没有可能，当我们说A和a的时候，它们可能包括至少两个位点上的变异，而不是仅仅
在一个位点上的变异？
其实，我就是想知道SNP 是一个位点上的变化。那么alllele是一个位点上的变化的产
物吗？如果是，每一个allele就是一个snp。每一个snp也是一个allele。
我就是想知道snp和allele的对应关系。

from
aA

a******e
发帖数: 1036

来自主题: History版 - 打嘴炮的mdrosophila能给出证据么？

东亚人主体的父系远祖——O人群
东亚真正的主体是NO人群。
NO是K的一个分支，大致在3.5万年前进入，并在3万年前左右分化成N和O两个姊妹类型。
NO到达东亚时，东亚地区已经为C3所占据，但NO类型在很短时期内就成功的取代了C3，
成为了东亚的主人。
NO是最原始NO原始人群的类型，出现在以下人群中：达斡尔族2.6%、鄂温克族3.82%、
赫哲族2.2%、回族2.9%，华北汉族2.3%，华南汉族2.5%，越南人3.1%，外蒙古人0.7%、
布依族5.7%、日本人2.1%、韩国人2.3%、彝族人2.3%，Bama瑶族2.9%。
N、O的分布在黄种人差异巨大。对东亚黄种人而言，O比N多得多，而对北亚黄种人而言
，只有N而无O，对于泰国以南的黄种人而言，只有O而无N。
O类型分为很多类型，主要有O*、O1、O2*、O2a、O2b、O3等。
O*在是O的原始类型，在东亚只是零星的低频率找到，比如Hammer和XUE的数据中，共有
以下民族中找到过最古老的O*：满族5.8%、壮族5.0%、外蒙古人0.7%、藏族1.0%、达斡
尔族2.6%、鄂伦春族3.2%、兰州汉族2.9%、黎族5.7%，在l... 阅读全帖

a******e
发帖数: 1036

来自主题: History版 - 从父系基因看东亚主要民族的亲缘关系

g**a
发帖数: 2129

来自主题: Joke版 - 淘汰劣等人基因世界首批全基因组测序婴儿在中信湘雅诞生 (转载)

基因测序的结果用SNP-array来做质控？为啥？这个质量怎么控？难道他们自己做了一
个含有1 billion SNP的芯片？既然可以用SNP-array来做质控，为啥不直接用全基因组
的SNP-array来直接检测可能的潜在位点？单细胞（或者少量细胞）全基因组测序的结
果怎么样？这个技术能够实现确实很不错，问题是在无法验证的情况下，起到了什么正
面作用？

V****n
发帖数: 651

来自主题: Piebridge版 - 40岁以上的男人想生孩子还是要慎重

大龄父母对生小孩都不好，这是常识。女性生育期短于男性，同样40岁，女性已接近生
育晚期，男性一般还有二十年，这也是常识。至于同样40岁，女性和男性生育带来的危
险系数哪个大，大多少，现在不能定量，将来迟早是可以的。
自然的这篇文章研究的只是关于autism和精神病的snp突变比例，大龄男性比年轻男性
突变多些，没什么奇怪。大部份的snp对人体都无害。需要注意的是，每个人继承的30
亿个碱基对里都有数百个左右的unique的snp变异，对身体有什么影响，目前还没有能
力研究，但这是personalized medicine研究的理论基础。自然文章提到的相关snp变异
数量为55，绝大部份对小孩没有影响，少数对autism和精神病的影响，文章也提到，只
是可能，不是证明“The study does not prove that older fathers are more
likely than younger ones to pass on disease-associated or other deleterious
genes, but that is the strong imp... 阅读全帖

y*******n
发帖数: 22

来自主题: Biology版 - 有趣的计算生物学问题(2)：标签序列设计问题

[问题] 考虑由A，C，G，T组成的字符串s=a1a2...ak,定义s的权值
为W(s)=sum(w(ai)),其中w(A)=w(T)=1,W(C)=W(G)=2.给定两个参数
c和h(h>c),我们称一组字符串是一组c-h码，如果它们满足下面两个
条件：
(1)其中每个字符串的权值大于h;
(2)只包括任何权值大于c的子串至多一次。
问(1)满足什么条件的c,h才可能有c-h码的解。
(2)给定c和h,如何找到最大的一个c-h码(包含最多字符串)。
[背景]人基因组上存在着一些所谓单核甘酸多态性(single
nucleotide
polymophism)的位点，这些位点上的核甘酸(ACTG之一)在人与人
之间是不一样的。粗略的估计，这些位点大约占整个基因组的0.1%.
根据SNP可以快速的进行基因型鉴定(genotyping)，因为基因型的
差异必然是SNP的一种。假定我们已经发现了所有的SNP，利用基因
芯片就可以进行快速的genotyping。这就是SNP TAT(tag/antitag)
系统。具体步骤是这样：
(1)在溶液中合成一些DNA片段(可看作ACTG字符串)，每个

l*****c
发帖数: 17

来自主题: Biology版 - 吵起来了，关于GWAS

是啊，我们研究遗传学，分子生物学包括搞统计的人，不断的创造新的名词来解释以前
不能解释的现象。每个都合理，最后表示都不合理。现在的GWAS研究，根本不能对超出
QTL范畴的生物学有人和解释。
这又回到了50年前的解释了，把所有（大部分）疾病/表型看成是数量性状，用微效多
基因来解释，既然是微效多基因，那当然是有无穷的组合了，比如有40个基因，每个基
因可能有50个突变，然后加上这些突变的组合，大家计算以下这有多少？从应用的角度
，接近无穷吧。最近的一篇NG文章用新方法来处理以前的数据，发现12万个SNP（我望
了具体的数值，反正很大）能解释56%的疾病表型，那是不是需要1百万的SNPs能解释80
%呢？显然还达不到，因为有环境因素在。那在计算这多大上百万SNPs的组合表型呢？
这还是只从SNP出发来解释。大家在建立简单的BLUP模型的时候，能考虑多少互作？
还有大量的CNV, chromosome rearrangement,methylation......,然后还有这些遗传因
素的组合呢？我们在研究这些生物现象的时候，用了太多的determinism的方法，考虑
太少的stocha

g*********d
发帖数: 233

来自主题: Biology版 - 《柳叶刀》：基因图谱揭开父母姻亲秘密

Genetic Tests Can Unearth Family Secrets, Such as Incest
Medical Community Debates Implications of DNA Tests That Reveal Evidence
of Incest
http://abcnews.go.com/Health/genenic-tests-reveal-incestuous-fa
history/story?id=12889895
=================
http://www.thelancet.com/journals/lancet/article/PIIS0140-6736(
8/fulltext
《柳叶刀》：基因图谱揭开父母姻亲秘密
可提供法律、道德、伦理层面医学证据
美国研究者借助基因图谱分析出生缺陷儿童致病基因时意外发现，基因图谱可清晰揭示
出生缺陷儿童
的父母是否有旁系或直系血缘关系。这一发现可为美国相关机构提供法律、道德、伦理
层面的医学证
据。
美国休斯顿贝勒医学院一支研究组在对先天性残疾儿和智障儿展开基因图谱分析时意外
发现基因图谱... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

作为一个曾经0基础的菜鸟，我还是蛮有体会的。
想想一年前我连linux里的grep都不晓得是啥。老板说“grep”，我说gre。。啥？greb
吗？老板摇摇头说you really have a lot to learn...不过老板超好，想办法给我把
各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
做NGS/bioinformatics的，我觉得核心思想还是：如何利用计算机手段解决生物问题。
说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的，要入门很快
，但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了，但也完全就是
个皮毛，主要是你自己的project决定的。。如果你永远只需要简单的process下你的
text，而且text如果不大比如100MB，你可以永远for line in text。。或者readlines
（），但如果碰到很大的text，就不能readlines（）了因为cluster可能没有那么大的
memory to load the whole text.
所以我觉得就是现学现用，除非你是CS系科班搞计算出身... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - 大家对NGS的发展如何看？

我觉得要考虑几个方面：
1.如何定义“遗传因素比较大”？想确定到底是familial还是sporadic，肯定要收集
足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力，精力，
funding的问题，有的疾病病人死的很快，或者sample本身很少，总是很难碰到一个好
的大的pedigree的
2.NGS技术本身我当然是很看好的了，肯定越来越精确成熟，而且越来越便宜。但到底
能有多便宜？什么时候可以很轻松的给每个人做全基因组测序？read length可以达到
长?（肯定是越长越好）计算机的硬件能跟上NGS数据发展的趋势吗？
3.生物信息分析。我只能说现在的bioinformatic pipeline，除了read alignment和
SNP calling变的非常成熟（不仅sensitivity/specificity很高，而且可以做
population-level的分析），在其他方面，要么很艰难，要么很混乱。就是说无法达成
一个统一大家公认的最好的pipeline，我开发一个方法，你开发一个软件，最后把使用
者都搞的糊里糊涂的。比如indel cal... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - 现在生物医学界的大热点都是哪些，求讨论一下，激发灵感

sequencing: 更多的sequence 新方法，还有intron, promoter sequencing, levi
的TERT promoter是不是要引起一阵promoter and intron region sequencing的热潮
关于melanoma promotor mutation的文章，不知道大家有何评价？
70%的sporadic melanoma都有promotor区域的SNP，这也太surprising了
一般我们就是找coding region的SNP，或者noncoding区域的CNV/SV；没想到小小的
promotor的SNP竟然会成为背后杀手。
同样的，对于其他的神经疾病的genetics，会不会也是noncoding region的很多问题呢
？真是越来越难做了。从SNP到SV/CNV到complex region，从coding到noncoding

levi

u*********1
发帖数: 2518

来自主题: Biology版 - 请教有关Broad institute

另外随便说一句
比如做过SNP calling的人都知道GATK，就是Broad搞出来的
GATK是SNP calling的terminator；基本上GATK横扫其他所有的软件，他们把SNP/indel
calling的功能不管是深度（比如各种data clean和error-correction model以保证找
到的SNP是非常可信的）还是宽度（满足各种不同project的需求，功能多样化，比如
haplotype inference或者推广到population level）都做到极致，据说都要开始商业
化，不free了
另外包括sequencing library preparation protocol，data storage/processing等等
, 我感觉基本NGS这一块Broad做了太多原创工作，算是sets up a standard
那为什么Broad可以做到？我相信因为他们有足够的funding做sequencing，大量的来自
哈佛的patient samples，懂得计算工程的coding和data processing的人才，以及横扫
生物/计算/... 阅读全帖

y**********n
发帖数: 478

来自主题: Biology版 - 如果全外显子组测序不行，我们应该检查什么呢？

我觉得现在一个重要的事情是拿到宝宝相关基因的序列，有三种情况：
1.基因上所有位点都跟正常人的一样，这样基本排除了这个基因
2.有些位点跟正常人不一样，但跟不在hgmd已知致病突变一样－－症状是这个基因导
致的可能性很大
2.有些位点跟正常人不一样，但跟已知致病突变也不一样－－这些突变有可能是未知
的致病突变，也可能是正常SNP
几个有用的连接：
正常SLC25A13序列－ NM_014251
http://www.ncbi.nlm.nih.gov/nuccore/171906609?report=fasta
>gi|171906609|ref|NM_014251.2| Homo sapiens solute carrier family 25 (
aspartate/glutamate carrier), member 13 (SLC25A13), transcript variant 2,
mRNA
AATGGGCGGGCAGCATCCACATGACCCGCGCCGGCGGGAGGGCGTGGGGAGGCAGGCCAGGAACGCACGC
TGCCTGGCCGTATCGC... 阅读全帖

b****r
发帖数: 17995

来自主题: Biology版 - 请教个DNA相关的实验问题

我主要关心的其实就是能不能躲开SNP，最好也能躲开homopolymer，repeats，这些都
是对Sanger结果很致命的。在一两个标本上的一两次测试不能解决这个问题啊
If there happens to be a SNP located at the 3’ end of the primer, the
primer will very likely to fail to amplify. For my purpose that is pretty
much lethal, as if I am trying to see if a heterozygous mutation is in a
patient’s DNA, but your primer happen to locate in one of the patient’s
SNP and mismatch, the PCR will probably only amplify the wildtype allele,
not the mutant allele. And SNPs are so common in t... 阅读全帖

发帖数: 1

来自主题: Biology版 - [原创科普文] 生物学中的深度学习

我说一下我的浅薄看法：
1. 我们习惯于low-dimension的而且是linear的逻辑关系，比如GWAS；一旦维度高了或
者关系非线性后我们人的大脑就想不清楚了。所以很多machine learning其实也都是假
设线性关系基础上继续做研究。而Deep learning强就强在complexity程度要高很多，
或许可以模拟那些特别复杂的非线性关系，也因此挽救了neural network。NN一直被
SVM打压了十几二十年。
2. Deep learning能这么火，主要是在图像识别/声音识别上有巨大的突破，
performance比传统办法高了很多。所以具体到BME上就是做MRI scanning的火了一把，
我们可以更好通过识别比如brain structure图像来获取更好的biomarker，从进行早期
疾病的诊断。
所以，其实这是engineering的一大突破。大家都证实了这个tenique好用，能做事儿，
提高效率。在industry就够了，但至于为什么增加hidden layer后能这么好用，理论上
还解释不清楚。这点思维模式和传统生物bench的scienc... 阅读全帖

发帖数: 1

来自主题: Biology版 - GTex portal dataset download

On your computer with web browser
1. go to https://www.gtexportal.org/home/datasets
2. You will be asked to login, so login with your google account
3. open developer console, run
"gapi.auth2.getAuthInstance().currentUser.get().getAuthResponse().id_token"
4. Copy this token
On your Linux command line
5. run the following command to obtain the URL for each of the file, replace
XXX with the token
curl -X GET https://gtexportal.org/rest/v1/admin/file_download?objectPath=
gtex_analysis_pilot_v3/rna_... 阅读全帖

发帖数: 1

来自主题: Biology版 - GTex portal dataset download

On your computer with web browser
1. go to https://www.gtexportal.org/home/datasets
2. You will be asked to login, so login with your google account
3. Randomly choose a small file to download (such as "GTEx_Analysis_v7_
Annotations_SubjectPhenotypesDD.xlsx"), this is to trigger the
authentication process
4. open developer console, run
"gapi.auth2.getAuthInstance().currentUser.get().getAuthResponse().id_token"
5. Copy this token
On your Linux command line
6. run the following commands to obtain ... 阅读全帖

y*******n
发帖数: 22

来自主题: Science版 - [转载] 有趣的计算生物学问题(2)：标签序列设计问题

【以下文字转载自 Biology 讨论区】
【原文由 yuelushan 所发表】
[问题] 考虑由A，C，G，T组成的字符串s=a1a2...ak,定义s的权值
为W(s)=sum(w(ai)),其中w(A)=w(T)=1,W(C)=W(G)=2.给定两个参数
c和h(h>c),我们称一组字符串是一组c-h码，如果它们满足下面两个
条件：
(1)其中每个字符串的权值大于h;
(2)只包括任何权值大于c的子串至多一次。
问(1)满足什么条件的c,h才可能有c-h码的解。
(2)给定c和h,如何找到最大的一个c-h码(包含最多字符串)。
[背景]人基因组上存在着一些所谓单核甘酸多态性(single
nucleotide
polymophism)的位点，这些位点上的核甘酸(ACTG之一)在人与人
之间是不一样的。粗略的估计，这些位点大约占整个基因组的0.1%.
根据SNP可以快速的进行基因型鉴定(genotyping)，因为基因型的
差异必然是SNP的一种。假定我们已经发现了所有的SNP，利用基因
芯片就可以进行快速的genotyping。这就是SNP TAT(tag/antita

c*********t
发帖数: 340

来自主题: Statistics版 - SAS新手问一个做很多次比较的问题

刚刚开始用SAS，手头上有一个dataset,col1是ID，col2是case/control信息，然后有
1000列的SNP信息，像这样
id study_status snp1 snp2 snp3 ... snp1000
1 case GG GC CC .... GG
2 control TA TT TT ..... TT
...
100 control TC TC CC ..... TT
现在想对于每一个SNP，基于这100个个体的信息，依据其case/control status对基因
频率做chi square test
分别的比较我是会的
可是如果这1000个SNP要manually做1000次比较吗
当然现在也在看宏，不过还没法自己写这样的宏（snp其实不是snp1~100这样标的，而
是rsXXX, rsXXX,没规律可犢
循，可以有类似for each column这样的命令吗）
另外，能不能把这1000次比较的P值输出到同一个文件里

s********0
发帖数: 51

来自主题: Statistics版 - 请问有人用基因型来预测表形吗？

就是用一个动物的SNP来预测这个动物以后会长的多高，多重等，这个被预测的变量一
般是一个连续的数。SNP的个数可以是几千至几万，一般会根据（minor） allele的个
数被编码成0，1，2。而SNP之间会有比较强的相关性，而且绝大多数SNP都根被预测变
量有显著的相关性。
请问大家一般都是用什么machine learning方法来做的预测呢？谢谢了！

R******d
发帖数: 1436

来自主题: Statistics版 - 请问有人熟悉Genomic selection的方法吗？

通常几千个个体，几十万个标记snp，要算出每个snp的效应。貌似这类数据有维度问题
，一般的机器学习和线性方程就做不了，需要先降维处理。但是Genomic selection领
域有一
系列bayes的方法能用这种数据估计出每个snp的效应。请问是怎么实现的？是有偏的吗
？还是只算这些snp之前效应的排序而不是真正的效应值？
谢谢。

w*********g
发帖数: 30882

来自主题: Military版 - 007扮演者肖恩·康纳利呼吁苏格兰独立脱离英国字号:小中大2014-03-04 15:57:03 更多 228 关键字 >> 苏格兰独立苏格兰公投007肖恩·康纳利脱离英国观察者头条头条 “苏格

007扮演者肖恩·康纳利呼吁苏格兰独立脱离英国
字号:小中大2014-03-04 15:57:03
更多
228
关键字 >> 苏格兰独立苏格兰公投007肖恩·康纳利脱离英国观察者头条头条
“苏格兰独立”无疑是今年英国政坛最重要的议题。距离9月18日的公投仅剩半年时间
，最新民调显示人们在苏格兰独立公投中投反对票已经不是板上钉钉，最新的消息是，
“007”也背叛了英国女王。
据路透社3日报道，因在英国“007”系列电影中饰演过特工詹姆斯·邦德而名声大噪的
肖恩·康纳利日前公开呼吁，苏格兰独立“机不可失”，他还说脱离不列颠有利于促进
苏格兰的艺术发展。
“作为一名苏格兰人和终生热爱苏格兰及其文化的人，我认为独立机不可失”，康纳利
在周二出版的《新政治家》杂志上撰文称。
现年83岁的肖恩·康纳利是苏格兰人，目前居住在大西洋西岸的岛国巴哈马。他是苏格
兰独立的铁杆支持者。在自传《身为苏格兰人》中，他就表达了对家乡风土人情的怀念
。如今，在距9月份的公投还有半年之际，康纳利再次喊话，称苏格兰独立后，他就能
回到自己的家乡。
康纳利表示，苏格兰独立可以刺激电影业和创意产业的发展，为苏格兰创造新的... 阅读全帖

D**s
发帖数: 6361

来自主题: Military版 - 粗大！美国与法国DNA权威检测：汉人基因是世上最纯正的基因zz

粗大！美国与法国DNA权威检测：汉人基因是世上最纯正的基因
[cp]【美国与法国DNA权威检测：汉人基因是世上最纯正的基因，同时证实客家人确为
中原汉人】2007年5月，美国权威学术杂志《human genetic》一文：《Y chromosomes
of prehistoric people along Yangtze River》（Hum Genet. 2007 Nov;122(3-4):
383-8. Epub 2007 Jul 27.）指出：
通过对陶寺文化（距今4500年）古人骨DNA的研究，可以肯定龙山文化的居民，其Y染色
体SNP单倍型是O3—M122，并且只含有O3和子类型O3e，无其他类型，和现代汉族的主体
完全一致，也就是说：现在汉族其父系远祖完全是古代中原人，也就是龙山人。
单独看O3，各地汉族中至少60%-70%来自龙山文化，对比2004年的文献《evolution
and migration history of chinese population inferred from chinese Y-
chromosome evidence》（J Hum Ge... 阅读全帖

d**********i
发帖数: 524

来自主题: Military版 - 基因详情参考文献

We did find a significant association between political conservatism and
rs10952668 (Table 5). This SNP lies in LOC642355, a pseudogene on chromosome
7. Not surprisingly, the SNP also showed an association with the highly
correlated trait of Democrat versus Republican (b=0.260, P<
.02).
An interesting finding was that the SNP associated with political
conservatism, rs10952668, also showed marginal evidence for association with
the personality traits openness (b=0.142, P<.06) and
ag... 阅读全帖

s*****n
发帖数: 1998

来自主题: Military版 - 汉族并非民族大融合产物

【美国与法国DNA权威检测：汉人基因是世上最纯正的基因，同时证实客家人确为中原汉
人】2007年5月，美国权威学术杂志《human genetic》一文：《Y chromosomes of pre
historic people along Yangtze River》（Hum Genet. 2007 Nov;122(3-4):383-8. E
pub 2007 Jul 27.）指出：
通过对陶寺文化（距今4500年）古人骨DNA的研究，可以肯定龙山文化的居民，其Y染色
体SNP单倍型是O3—M122，并且只含有O3和子类型O3e，无其他类型，和现代汉族的主体
完全一致，也就是说：现在汉族其父系远祖完全是古代中原人，也就是龙山人。
单独看O3，各地汉族中至少60%-70%来自龙山文化，对比2004年的文献《evolution an
d migration history of chinese population inferred from chinese Y-chromosome
evidence》（J Hum Genet. 2004;49(7):339-48. Epub 2004... 阅读全帖

w********9
发帖数: 64

来自主题: USANews版 - Foreign reporters mailbox (2016)国外媒体记者邮箱

Foreign reporters mailbox (2016)
h****[email protected]中国人权
信息发布：[email protected]/* */
[email protected]/* */国驻华使领馆
[email protected]/* */国驻广州总领馆[email protected]/* */
gov.uk（广州领事处）
[email protected]/* */国驻重庆领事馆[email protected]/* */
gov.uk（重庆领事处）
[email protected]/* */国驻上海总领事处
[email protected]/* */奥巴马
[email protected]/* */白宫[email protected]/* */——subscriptions@
subscriptions.usa.gov
n*****[email protected]新唐人
大纪元投稿Email(海外)：[email p... 阅读全帖

k****n
发帖数: 780

来自主题: Food版 - 为什么香菜有人爱之深有人恨之切这是为什么呢？

香菜是一种非常神奇的草本植物，有数据显示，全球共有七分之一的人口对香菜的味道和气味有着完全不同的感觉。有人觉得，在生熟菜肴中加入香菜是一件非常愉悦的事，但是也有相当一部分人不是那么想的，他们觉得香菜尝起来就像肥皂一样，只要几片香菜叶子就能将整顿饭毁掉。
那么问题来了，为什么人们会对同一样食物产生这么截然不同的感觉呢?事实上，科学家们已经找到了一组跟嗅觉和味觉有关的基因，用于上述现象。
近日，视频网站YouTube的SciShow频道制作的一个新视频就向我们解释了为什么香菜会给人完全不同的感觉，这其中，有4个基因似乎起到了关键性的作用。
根据基因测试公司23andMe的一项最新研究发现，那些将香菜的味道形容成肥皂水的人都拥有一个名为OR6A2的特定基因。据了解，这是一个已知的用于检测香菜中的独特气味的基因。
23andMe公司表示：“我们目前已经向大约50000名公司客户询问了关于香菜的味道的问题，看看他们是否觉得香菜有肥皂水的味道。”该公司的研究人员将喜欢香菜和讨厌香菜的人的DNA进行对比之后发现，25000名拥有欧洲血统的人产生了SNP遗传变异。
研究人员认为：“遗传变异发生在为嗅觉... 阅读全帖

e****7
发帖数: 4387

来自主题: Food版 - 为什么香菜有人爱之深有人恨之切这是为什么呢？

儿时非常讨厌什么香菜，韭菜，茄子，现在挺喜欢

道和气味有着完全不同的感觉。有人觉得，在生熟菜肴中加入香菜是一件非常愉悦的事
，但是也有相当一部分人不是那么想的，他们觉得香菜尝起来就像肥皂一样，只要几片
香菜叶子就能将整顿饭毁掉。
学家们已经找到了一组跟嗅觉和味觉有关的基因，用于上述现象。
会给人完全不同的感觉，这其中，有4个基因似乎起到了关键性的作用。
人都拥有一个名为OR6A2的特定基因。据了解，这是一个已知的用于检测香菜中的独特
气味的基因。
问题，看看他们是否觉得香菜有肥皂水的味道。”该公司的研究人员将喜欢香菜和讨厌
香菜的人的DNA进行对比之后发现，25000名拥有欧洲血统的人产生了SNP遗传变异。
这并不是一件让人意外的事，因为嗅觉受体和生物传感器能检测到香菜中的气味和味道
。”
看，这种遗传变异仅能解释一小部分，毕竟23andMe公司所选定的调查对象中，存在这
种特定SNP变异的人数有50%之多。而从视频中我们可以知道，半数左右的欧洲人都有
OR6A2基因，但其中只有15%的人觉得香菜尝起来像肥皂水。
也就是说，除了上面提到的SNP遗传变异之外，还有其他的因素在影响我们的... 阅读全帖

G******i
发帖数: 5226

来自主题: JobHunting版 - [合集] Amazon 和 Snopsys的选择，两年以后relocate容易么？

☆─────────────────────────────────────☆
holyhalo (liviastone) 于 (Sun Dec 25 16:47:23 2011, 美东) 提到:
cs的小硕一枚，最近刚拿到synopsys 的offer，在东海岸local branch，这是一家做
EDA软件，说是进去会让做多线程大数据量处理。 A家的offer是暑假实习后就拿到了，
十月份的时候签了offer letter。
现在的情况是，LD还在local读phd，还需要两年毕业吧，毕业以后肯定是不会留local
需要relocation，所以我们考虑的是如果真是为了将来好，异地两年也只能忍忍了。
synopsys家的好处是答应去了等三个月就开始给办绿卡，而且这两年也不需要跟领导异
地了。A家给的是SDE1，按现在的政策是办不了绿卡的，但是A家的background将来重新
找工作应该会容易很多吧？
请问版上的大人们，这两家公司将来换工作哪个容易些呢？尤其是synopsys这种做硬件
IC design的软件，虽然主要用的是Unix 和c++，会不会对两年后换工作有限制... 阅读全帖

b*s
发帖数: 82482

来自主题: LeisureTime版 - 芝麻烧饼

However, a 2010 study[40] found variations in both production of odorous
urine and the ability to detect the odour, but that these were not tightly
related. It is believed most people produce the odorous compounds after
eating asparagus, but only about 22% of the population have the autosomal
genes required to smell them.[41][42][43]
In 2010, the company 23andMe published a genome-wide association study on
whether participants have "ever noticed a peculiar odor when you pee after
eating asparagu... 阅读全帖

V****n
发帖数: 651

来自主题: WaterWorld版 - 作为外嫁女其实我挺理解大骂“外F女”的男同胞的

体味消失是因为16号染色体上的ABCC11基因在东亚人群产生变异引起的。具体来说是
48258198位置的碱基对产生了G到A的突变(这种变异称为SNP)
关于体味见http://en.wikipedia.org/wiki/Body_odor
关于SNP见http://www.snpedia.com/index.php/Rs17822931
注意右下的图表示的是90%的汉族(HCB)携带体味消失的突变(或耳屎是干的)
几乎100%的白人(CEU)都不携带这种突变，注意突变的SNP是蓝色
一般引用的文献是http://www.nature.com/ng/journal/v38/n3/abs/ng1733.html

d**********i
发帖数: 524

来自主题: Joke版 - 基因认为我是自由派不是保守派 (转载)

【以下文字转载自 Military 讨论区】
发信人: dayuguanshui (大禹灌水), 信区: Military
标题: 基因认为我是自由派不是保守派
发信站: BBS 未名空间站 (Sat Feb 3 09:53:44 2018, 美东)
We did find a significant association between political conservatism and
rs10952668 (Table 5). This SNP lies in LOC642355, a pseudogene on chromosome
7. Not surprisingly, the SNP also showed an association with the highly
correlated trait of Democrat versus Republican (b=0.260, P<
.02).
An interesting finding was that the SNP associated with political
cons... 阅读全帖

H*********1
发帖数: 56

来自主题: Biology版 - 吵起来了，关于GWAS

在最近一期的cell上。我对GWAS不是很熟，不过我觉着西雅图的这个老太太Mary-
Claire King 说的有道理，从进化上来看，从大规模病人群体上筛的SNP，应该不是跟
这个疾病最相关的。不过她认为这些GWAS筛出来的SNP，因为不是在基因的编码区，就
说这些SNP没有生物学意义，我觉着这点有些牵强，也是别人反驳她的一个重要攻击点。
圈内的人给说说谁对谁错？
另外，有几个扫盲的小问题：
Mutation和allele 啥区别？
啥叫 rare mutations, common variants?
文章：
McClellan and King, 2010 McClellan, J., and King, M.C. (2010). Cell 141, 210
–217.
http://www.cell.com/fulltext/S0092-8674%2810%2900829-9#bib5
http://www.cell.com/fulltext/S0092-8674%2810%2900830-5

H*********1
发帖数: 56

来自主题: Biology版 - 吵起来了，关于GWAS

这些SNP怎么就不能重复呢?
你如果用1000份样本得出的结论,别人在另外的1000份样本得不到同样的SNP,那只能说
明你的结果有
很大的局限性,可能只在少数样本有效.那1000份样本的数据,跟5个样品的数据有啥区别
?别人都不能重
复.而且5个样本花钱还少.
关于湿试验证明这些SNP或者deletion，我记得已经有些这样的文章发表了。

H*********1
发帖数: 56

来自主题: Biology版 - 吵起来了，关于GWAS

关于诊断，是不是还有另外一个问题？
对于肿瘤病人来说，直接检测的就是切下的肿瘤样本，
所以你可以说这些样本里的SNP变化跟这种肿瘤相关。
但如果是测高血压，糖尿病和前面提到的肥胖等，
估计没有特定的组织可以检测，
即使检测到有弱显著性SNP差异（比如说是从病人的血液样品），
没准这些SNP差异主要不是跟这些想检测的病相关，
而是这些病人身上隐藏、未发现的其他病相关。

种病
make

b****r
发帖数: 17995

来自主题: Biology版 - 吵起来了，关于GWAS

GWAS现在还是有一些被多个group还有功能学证实的东西，当然还只是少数，但是剩下
的大多数，不是说将来也一定会重复不出来，科研本来就是个循序渐进的过程。就好象
研究分子功能，绝大部分分子根本还没有和疾病联系起来，还不是在拼命做。这是个必
由之路而已。
GWAS如果能解释1%的患病群体，如果是高血压这种百分之几十的人都得的病，你能说没
什么意义？
人的肥胖症由基因引起的太多了，google一下再发言吧。放到没饭吃的地方确实没有人
会肥胖，但是现在有几个地方没饭吃？你这个前提就几乎不成立。其他常见病很多也有
明确的遗传因素，这个既有流行病学的证据也有实验室的证据。
SNP和肿瘤的关系，不是特别明白你的意思。每年发表的肿瘤和SNP的文章不说成千上万
，实在也够多了，你可以在ncbi搜一下cancer SNP P53
另外回楼主的问题
mutation和variation主要的区别并不是是否致病，纯遗传学的角度两者的差别只是在
人群中的流行程度。低于1%的叫mutation，高于的叫variation，两者的区别非常
arbitrary。不是说一个mutation就一定会导致问题，也不是... 阅读全帖

s******s
发帖数: 13035

来自主题: Biology版 - Postdoc offer 选择

有用的还是有一些的。不过这些都是一个一个啃出来的，看上去
光辉耀眼的SNP背后有100倍倒下的SNP和100倍壮烈的postdoc；其实，
老板是不在乎的，SNP有用最好，没用的话反正grant也申请了，钱也
花了，会搞politics的估计系头也当了，甚至成立consortium。要搞
这个，一定要去一些大牛医学院的大牛实验室，这个很考验老板的人
脉，能搞clinical trial，能快速搞到大量病人的就是偶像，剩下的
都是吃渣的

a********k
发帖数: 2273

来自主题: Biology版 - 2nd generation sequencing能这么用吗？

PAGE用denature的，可以看SNP，以前做mapping的人用SNP做marker就是这么跑的
现在的qPCR仪都有HRM功能，也可以看SNP

b******u
发帖数: 1

来自主题: Biology版 - 有关GWAS的问题求教，多谢！

Hi 您好
对于您的问题，其实是这样的 GWAS的研究主要是归咎于对于疾病的non-preknowledge
的理解的，就是说你只要有两组case-control （一般是这样的）然后上GWAS芯片，然
后看基因之间的SNP频率差异。
对于的您所说的OR在1.3以下，这些在临床意义上都没有任何价值（欢迎拍砖），之所
以可以检测出来，主要是看P-value，然而p-value主要是看样本量，按照公式来推理，
只要你的样本足够大，你就可以检测出significant的细微差异，例如OR<1.2 所以现在
的趋势是1）提高样品量2）如果样品不够大的时候，引入其他变量，例如环境factor (
Gene-Environment Interaction in Genome-Wide Association Studies)，或者加入
expression （eQTL），现在国内更多是单纯的提高样品量，因为在国内收样品较容易。
第二个问题，隔离人群GWAS，首先您朋友要考虑以下问题，首先是您朋友是要screen
mutation还是做疾病的mutation？国内一般是做疾病的，a) 在深山老林... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天