第9页 - 关于ucsc的讨论汇总 - 话题女王

s***5
发帖数: 453

来自主题: Biology版 - 请问：如何查找CpG site , 用什么software?

非常感谢！
我知道这是gene 'SLC6A4，在UCSC genome browser 上我也找到了它的CpG island 区
，但是就是找不到文献上的那个"cg"号,现在明白了,我会去你建议的网站上好好研究研
究.有不明白的,可能还得来请教你.
再次感谢!!!

j******i
发帖数: 939

来自主题: Biology版 - exons for a gene 有包子奖励

我前一阵也查了一个基因结合使用UCSC-ensembl 步骤有点多说起来麻烦看这个中文
的教程 http://www.docin.com/p-47961045.html

l**********1
发帖数: 5204

来自主题: Biology版 - exons for a gene 有包子奖励

RE LZ
even nematode pls try more genome browsers As U Could,
never trust only one Genome broswer for exons identifications.
pls refer
Other genome browsers
Ensembl Metazoa
UCSC
NCBI
WormBase
HTTP: //www.ensembl.org/Caenorhabditis_elegans/Location/Genome
original hint was from Facebook:
HTTPS : //www.facebook.com/EMBLEBI
or
HTTP: //www.ensembl.info/blog/2013/02/07/ensembl-genomes-release-17/?utm_
source=rss&utm_medium=rss&utm_campaign=ensembl-genomes-release-17

a**m
发帖数: 184

来自主题: Biology版 - exons for a gene 有包子奖励

ucsc genome browser
give me the gene i ll look for it
baozi baozi

d**e
发帖数: 2420

来自主题: Biology版 - 晒晒中国生态学口的假全职千人zz

这个真假本版应当最权威，评论一下吧。
◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)
◇◇
晒晒中国生态学口的假全职千人
作者：亦言
新语丝上不断有反映两面（甚至多面）通吃的千人计划教授的文章，如上期
说的华北电力大学的千人潘伟平、浙江大学的千人仇旻、北师大的梁顺林等。这
里也说一说我国生态学口的假全职千人。
(注：1.排名不分先后 2.这些人是入选的以千人A类全职回国工作的形式而
不是B类短期回国工作的形式，A类入选者要求全职回国或在国内工作时间每年不
少于6个月)。
1.骆亦其：美国Oklahoma大学植物与微生物系全职教授
（http://ecolab.ou.edu/?member_info&id=52），2010年复旦大学千人计划教
授、复旦大学全球环境变化研究所所长，教育部长江学者特聘讲座教授、清华大
学全球变化研究院科学指导委员会委员、扬州大学教授。
2.何芳良：加拿大阿尔伯塔（Alberta）大学全职教授
（http://www.ualberta.ca/~fhe/），2010年... 阅读全帖

Z******5
发帖数: 435

来自主题: Biology版 - 求教：知道染色体的位置，如何找具体的序列？

UCSC上，人类基因组不同版本编号不一样。
老鼠的没有注意过是否有不同版本，楼主要注意一下。

s*****3
发帖数: 20

来自主题: Biology版 - 求教：知道染色体的位置，如何找具体的序列？

Good input. GRCm38/mm10 is the most recent version in UCSC for mouse
genome.

d****7
发帖数: 109

来自主题: Biology版 - 如何拿到人类和小鼠整个基因组的基因list

use ucsc table browser

n******2
发帖数: 971

来自主题: Biology版 - 问个UCSC Genes 的小白问题

各位大牛，我就想知道BRCA2在染色体上的位置。在ENCODE gene browser中输入BRCA2
，结果出来这么一堆信息。对照一下，好像有的是一部分，有的是全长。有没有什么
filter的功能能够自动得到全长的位置而不用自己挨个算？基因名后面括号中的是什么
信息？谢了。
BRCA2 (uc031qkz.1) at chr13:32945093-32953652
BRCA2 (uc031qky.1) at chr13:32928998-32936830
BRCA2 (uc001uub.1) at chr13:32889617-32973809
BRCA2 (uc001uua.1) at chr13:32889617-32907524

n******2
发帖数: 971

来自主题: Biology版 - 问个UCSC Genes 的小白问题

或者对同一个基因的variant,哪一个位置的信息是最新的数据？

F*****d
发帖数: 23

来自主题: Biology版 - 问一下做chip-seq的版友

如果文件不太大，直接用UCSC Genome Browser的custom　track就好。
如果要看多个大文件，IGV很不错。把bed换成tdf格式会更快。这里有一个详细的用IGV
看CHIP-Seq数据的说明。
http://bioinforx.com/lims1/blog.php?id=1000022?wm

d****7
发帖数: 109

来自主题: Biology版 - 怎么查看别的LAB做出来的chip-seq data

你既然用mac的话，就好办（虽然linux更好）
如果只想看别人chip-seq中的motif，只要把他们的peak calling结果下载下来就行，
就是个BED file，很小。然后从bed file提取dna sequence，这个步骤很多地方都能做
（UCSC table, galaxy, cistrome 什么的好多），提取了sequence后，上传到MEME
chip或者RSAT这种网站，直接就出结果。也可以在你自己的mac上安装Weeder或者HOMER
之类的软件自己找motif
要是想找其他人的raw data，然后和自己的chip seq比较，最好从头做。
下个sratoolkit(这个有pre-compiled mac version)，然后下载.sra文件，用
sratoolkit里的dump-fastq把它转换成fastq文件，然后做mapping，用bowtie很快。
然后peak calling。
以上这些步骤不用很搞的计算机配置，用比较新的macbook pro就能全跑下来，
你想要user-friendly的软件？很可惜，在bioiformatics... 阅读全帖

u*********1
发帖数: 2518

来自主题: Biology版 - 问个genomics和bioinformatics的问题

对你有兴趣的基因，你直接去UCSC上看就是了。现在基于chip-seq的数据很多了，你可
以看到你有兴趣的（比如transcription有变化的）基因在全基因上被哪些TF binding
；。。。如果你发现一段序列被很多很多TF binding，加上又是conserved的，那么这
段element就很大可能是functional的，然后拿到luciferase system来做

s********o
发帖数: 94

来自主题: Biology版 - 万恶的UC (转载)

【以下文字转载自 Pharmaceutical 讨论区】
发信人: shellyxiao (Potato), 信区: Pharmaceutical
标题: 万恶的UC
发信站: BBS 未名空间站 (Fri Nov 15 16:27:09 2013, 美东)
有没有筒子们在UCSF或是UCSC的？staff的position是不是都不sponsor H1b？楼主
onsite两次UCSF了都是因为不给办H1b生生拒了。哭死。。。难道真得等到绿卡到手才
能去？那4年的经验空缺怎么弥补呢？拜求大牛支招。。。谢谢了。。。

l**********1
发帖数: 5204

来自主题: Biology版 - 关于SEM和SD的争议

Sure, if with R or Bayesian or MCMC then every gene id its p value is
statistical,
pls refer,
http://users.soe.ucsc.edu/~raquel/software/
or one 2009 paper,
http://www.ncbi.nlm.nih.gov/pubmed/19995439
origina was from,
http://www.mitbbs.com/article_t/Faculty/31558807.html
17th floor

X***n
发帖数: 366

来自主题: Biology版 - 新手求教，大家用哪个genome browser看别人publish的Chip-Seq data?

UCSC genome browser.
Galaxy was for data analysis, right?

d***s
发帖数: 1062

来自主题: Biology版 - 新手求教，大家用哪个genome browser看别人publish的Chip-Seq data?

ucsc genome browser只能看peak，不能比较分析。
galaxy不了解，是个分析平台。
从geo上下载chip-seq的data files。上传到genome browser里my data下的customer
tracks里。
customer tracks里有对上传文件格式的要求。可以上传多个文件，同时查看。
上传完以后，你就可以搜索并查看你感兴趣的locus的TF binding peaks了。

d****7
发帖数: 109

来自主题: Biology版 - 新手求教，大家用哪个genome browser看别人publish的Chip-Seq data?

用UCSC genome browser
BED文件也得看是什么bed文件，如果是peak calling出来的bed文件，很小，直接上传
就行，但是如果是mapped reads的话，没法上传也没法看
如果是mapped reads的话，一般用bedtools把它转成bedGraph，再用bedGraphTobigWig
转成bigwig(转成bigwig的好处是loading快，只load当前窗口区域的data，而不是整个
file)，如果测序比较深的话，bigwig也比较大，我们的chip-seq出来的bigwig一般都
好几百MB，没法上传，给自己机子架一个ftp或者http，把链接贴上去就行
fasta或者fastq应该是map之前的raw reads，对与chip-seq来说，看的事map之后的
signal track。想看raw reads的quality，有好多软件，fastqc是比较受欢迎还比较傻
瓜的一个，R里面好像也有一些能读raw reads的package
cisgenome可以，而且支持windows，还有图形界面，不过如果只是想看看track的话，
IG... 阅读全帖

m******5
发帖数: 1383

来自主题: Biology版 - 怎么把IGV(integrated genome browser) 里的featurs另存成BED file?

如题，用motif finder找了一些特征基因，显示在感兴趣的locus周围。
怎么把找出来的这些motif另存成bed file? 想转移到UCSC genome browser里看

j***x
发帖数: 1469

来自主题: Biology版 - 怎么把IGV(integrated genome browser) 里的featurs另存成BED file?

我觉得你把你感兴趣的UCSC的track存下来，到本地的IGV里看，会相对容易些。

m******5
发帖数: 1383

来自主题: Biology版 - 怎么把IGV(integrated genome browser) 里的featurs另存成BED file?

谢谢！好主意。怎么存ucsc里的track?

h******y
发帖数: 351

来自主题: Biology版 - 请问有什么好方法定位qPCR引物在human genome上的位置?

http://genome.ucsc.edu/cgi-bin/hgBlat?command=start
Put your sequence in FASTA format, for example
>primer1
AGCTACAGCTACTAGCATCGACTGCGATG
>Primer2
ATGACTAGCTGGATAGCTAGCTACGATCA
>primer3
...
Make sure the primer sequence is longer than 20nt. So far this is the faste
st and most efficienct way I know. You can easily find out where the primer
s locate and whether there is any non-specific binding sites.
For pimer sequence shorter than 20nt, create four sequences by adding [AGCT]
to make it to 20n... 阅读全帖

s**********a
发帖数: 92

来自主题: Biology版 - 一个基因一定有 5-UTR 么？

一个human基因，在 UCSC 数据库中显示没有 5-UTR，直接从ATG开始，而 3-UTR 倒是
挺长的。对于一个真核基因，没有 5-UTR 是不是不太可能。
谢谢！

r**********e
发帖数: 587

来自主题: Biology版 - 怎样知道什么蛋白结合在特定的DNA序列上？

这其实是个很重要的基本问题。
楼上有人说pull down sequence-bound protein然后上mass spec可以打出上千个蛋白
。表示有点惊讶。
我觉得第一步你可以去参考ENCODE project里的数据（ucsc browser里就有），一般
promoter区域都有NNN多的transcription factor binding，所以我估计你通过ENCODE
就可以找到很多有效信息。结合你研究的生物学pathway估计你也应该知道重要的TF,如
果能在ENCODE数据里看到那就非常promising。但注意，所有的epigenome的调控都是非
常tissue-specific的。ENCODE提供了大概9种cell line，很多时候具体到你的生物学/
医学问题，这9种cell line是完全不能说明问题的（尤其对于神经组织）
但anyway你是promoter区域，希望大大的有，比其他的noncoding区域容易做的多了。
in silico的我个人觉得特别不靠谱。。。有很多类似的预测网站。。不靠谱。
总之，基于protein找DNA, 相对于基于DNA找... 阅读全帖

m******5
发帖数: 1383

来自主题: Biology版 - 用于publication Figure的genome browser图是怎么画的？

看很多文章画出来的Bigwig binding peak，Gene的图都很形象简约，UCSC
genomebrowser截图显得太繁复了，不知大家都用什么genome browser生成publication
用的示意图？
同时要能load Encode project的track

p**c
发帖数: 10

来自主题: Biology版 - UCSC的genome brower为什么这么卡？

试试chromozoom。确实实现google级别的流畅度在技术上已经不成问题，就是需要花更
多的钱来支撑 server infrastructure。

C*********s
发帖数: 31

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了来源应该是Broad 只是不支持大规模的
数据下载可以自己写写script去query 用不着cs master
TCGA的原始数据如果是bam file 是需要账号的我记得只有美国的pi才行也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html

s******s
发帖数: 13035

来自主题: Biology版 - 请大牛科普下这几个database：Oncomine, TCGA, CCLE, cBioPortal

我比较熟TCGA啊，哈哈，估计版上比我熟的不多。
不知道你raw data的定义，TCGA有无数high level的data，比如表达，突变，
genotype等等。TCGA的病人clinical data都deindentify了，所以用起来
没问题；但是genomic data，包括genotype等，凡是有病人基因序列的，都
属于protected, 比如用era commons账号登陆才行，这玩意儿很繁琐，不过
批准不难。
TCGA的数据主要分三部分，一个是data portal上的open access data，随便
下载；另一个是protected access data, 要账号；最后是原始的NGS data，
在ucsc的cghub上有一份，在uchicago的pdc上有一份。
另外，每次有人要玩TCGA data，我都要提醒一句有个annotation database,
这个最好研究一下，比较难用，不过不去看得话，garbage in garbage out。
对于open access的data，有一个R package叫做TCGA Assembler非常好用... 阅读全帖

c***n
发帖数: 223

来自主题: Biology版 - 瞧瞧CS转生物的

Dr. Davis received her BA from UCSC in Computer Science and Biology and her
PhD from Yale University. Her thesis work, performed in the laboratory of
Dr. John Cronan, concerned the assembly of a bacteriophage with an inner
membrane.
现在是生化系的系主任

i*e
发帖数: 352

来自主题: Biology版 - 寻找一个软件

有chr:start-end的话
弄个BED，在UCSC Genome Browser上看就很方便了

b**********8
发帖数: 349

来自主题: Biology版 - 如何用cancer browser分析一个基因的表达情况与肿瘤患者的生存预后？

https://genome-cancer.ucsc.edu/
如题，欢迎讨论！

z*******6
发帖数: 679

来自主题: Biology版 - 请问怎么找一个基因的5’UTR

NCBI每一个基因的序列里面有个绿色的序列，就是5‘UTR... UCSC里面也有...

j*p
发帖数: 411

来自主题: Biology版 - 如何从UCSC genome browser输出高分辨率的图片

View->PDF. 可以下载pdf格式文件，然后你懂得。

Z******5
发帖数: 435

来自主题: Biology版 - 如何从UCSC genome browser输出高分辨率的图片

原来View里面也有EPS格式的，用AI进行编辑，效果更棒！

g********6
发帖数: 86

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

可以用Homer

s*********x
发帖数: 1923

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

download the peak file, rather the raw wig file.

Z******5
发帖数: 435

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

谢谢~~

Z******5
发帖数: 435

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

The peak file is fine.
Thanks

j*p
发帖数: 411

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

Download the peak file, rank by intensity, use the top 10k or whatever for
GREAT.

m******5
发帖数: 1383

来自主题: Biology版 - 请教UCSC ChIP-seq数据的分析

you may have some misunderstanding on what you are looking at.
judging by what you said, the Bed file you are trying to submit is actually
a bedgraph instead of a bed file containing a list of binding sites.
For analyzing using Great, you need a list of binding sites obtained from
peak calling.
To obtain such list, you can do peak calling directly using your bigwig file
by MACS2 or MACS.

b****r
发帖数: 17995

来自主题: Biology版 - 请教个DNA相关的实验问题

如果能解决俺这个问题，五黄包答谢，困扰已久。不同方法越多越好，包子很多
我们做各种突变检查多态分析，经常要把目的位置（经常是1bp，最多几十bp）用PCR扩
增出来然后测序，但是目前总是只能用笨办法，先用UCSC标记好附近的SNP和repeat区
域，然后把周围几百bp拿出来扔到Primer3去设计primer，效率太低了，特别是有时候
要测几十个突变，能搞几天
我总觉得这种工作做遗传的人会经常要做，但是似乎搜不到这样的软件或者数据库提供
自动的引物设计。我觉得这样的软件相关引用率应该会非常高啊，而且不应该很难实现

b****r
发帖数: 17995

来自主题: Biology版 - 请教个DNA相关的实验问题

这种效率也不高啊。一般就是每一两天出来两三个需要设计引物的位点要设计引物
而且人基因组太复杂，很容易出现非特异性扩增。你看primer3 考虑了多少因素，随机
选20bp那样效果肯定要打很多折扣，如果10个里面有一个因此要重复的话，那一个就要
多耽误好几天，不光说成本，光是耽误的时间对于临床检测可以说很致命，还不如现在
这样多花几十分钟手工设计算了
我觉得其实就是写个script，从UCSC网页帮你输入需要的位点，再扒下来标记好的SNP
，repeat，homopolymer等要避免的地方，然后帮你扔到primer3里去，再把primer3设
计的引物扒下来，这样应该是最理想的。我觉得每个临床遗传实验室都会需要这样的软
件的，别说引用文章里，哪怕要license fee都非常值得，起码我的lab会愿意掏钱买

b****r
发帖数: 17995

来自主题: Biology版 - 请教个DNA相关的实验问题

谢谢，这个还不错，不过似乎没有躲避SNP和repeat的功能啊。先请收俩包子
我刚才倒是自己搜到一个，在UCSC里其实已经整合好了，叫做ExonPrimer，纠正一下，
确实有躲开SNP和repeat的功能，有点可惜的是没有batch design的功能

喜欢

s******c
发帖数: 331

来自主题: Biology版 - 竟然到现在还没有人讨论syg的一周三灌

诺奖的工作在于原创性，突破性，而不是完整性，第一个膜蛋白钾离子通道结构，第一
个核糖体结构，第一个RNA polymerase结构，第一个GPCR signaling complex结构，都
不是完整的有包括各个构象结构的工作，从这方面来说，MRC的Nagal和马普的那个名字
很难念的哥们的工作更有突破性和原创性。
不过施一公做的这个，确实是目前最全面的分辨率最高的结构，如果spliceosome靠结
构得奖，我个人觉得一公的这个应该要得。话又说回来，ribosome结构得诺奖的，30S
亚基结构得了，50S亚基结构得了，偏偏全部的70S整体结构没得，UCSC的那位非常的郁
闷，从意义上来说，70S整体的结构意义显然远大于每个亚基的。就膜蛋白结构来说，
oregon的一位大牛对于transporter和channel的工作完整性和意义我认为大过所有人，
synapse上的几乎所有重要的通道，gaba，glutamate，glycine，dopamine等，都是他
做的，他2009年一篇讲AMPA结构的文章，Nature给他的正文里配了12个figure，整篇文
章占了十多页页纸，我至今... 阅读全帖

g********6
发帖数: 86

来自主题: Biology版 - 有什么数据库可以查找蛋白质的终止密码子和3‘UTR序列？

UCSC table browser

：通常，Human的蛋白质序列从数据库下载下来以后有4万-5万个蛋白质，现在想知道所
有这些蛋白质的终止密码子和3‘UTR序列。请问从什么样的数据库里能够批量的得到这
类信息？

i*e
发帖数: 352

来自主题: Biology版 - 翻墙求合作

你可以试试自己搞搞
Cancer Genome Browser
https://genome-cancer.ucsc.edu/
一些简单的东西可以玩玩
或者用下面两个现成的工具试一把
TCGA-assembler
http://www.ncbi.nlm.nih.gov/pubmed/24874569
TCGA2STAT
http://www.ncbi.nlm.nih.gov/pubmed/26568634

x*****d
发帖数: 704

来自主题: Biology版 - 求教怎么深入研究snp的功能

没有什么特别好的办法。先把SNP的位点找出来，然后在UCSC genome browser里面看一
下在不在mirna里面。其他functional study你就得查查文献看之前有没有人做过。

r**********e
发帖数: 587

来自主题: Biology版 - Postdoctoral Position in Bioinformatics & Computational Ge

TFBS在ENCODE project里面已经做烂了
http://www.nature.com/encode/#/threads
如果你关注的是纯计算TFBS prediction，我觉得已经很准确了。如果没记错，ENCODE
用的是MACS这个软件
https://github.com/taoliu/MACS
但是坦白说从纯biology角度，现在大家完全不满足于binding site；
1. Binding doesn't mean function! 好文章现在都要求证明binding后是否调控了
gene expression change
2. 蛋白-DNA和蛋白-蛋白作用非常复杂，所以很多ChIP实验本身就值得质疑，很多猫腻
3. ENCODE project当年豪言说根据他们的研究human genome 80%都有function，当时
受到了批评和质疑
你去看UCSC genome browser里面，一个位点可能有几十个TF在bind；你从单个TF
binding很难预测说，一旦XX TF bind后会有什么作用
对于noncoding human genome... 阅读全帖

r**********e
发帖数: 587

来自主题: Biology版 - 高年级PhD毕业求建议

不生气
我只想请教下您说的“算法”以及“web application”,能否举几个例子？
我的体会是bioinformatics怎么是越来越偏向biology，计算无非是个手段。
需要会的：
1，计算基本是linux，python和R；至少入门是挺容易的。很少人写C/java；除非你自
己做GATK一样的软件。如何在high-throuput cluster上跑big data，如何
parallelization
2，各种NGS各种测序的原理
3，目前主流还是基因组研究，所以各种软件：BLAST/BLAT, bwa/bowtie, samtools,
GATK, Annovar, velvet, 转录组的tophat, cufflinks, RSEM, ChIP-seq的比如MACS，
这些现有软件学会用精就很不易了，大部分人也就是用用这些，你自己去写，写的过
Broad Institute么？写出来也就是junk paper，没有用户群
4，各种public data； UCSC, uniprot, GOterm, ENCODE, 1000Genome,
EpigenomeRo... 阅读全帖

发帖数: 1

来自主题: Biology版 - 问个promoter问题

看了，UCSC里面的细胞系显示关注的基因promoter区没有pol II binding

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天