如何拿到人类和小鼠整个基因组的基因list - Biology版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 如何拿到人类和小鼠整个基因组的基因list

相关主题
● 请教关于KO mice	● 把IRES knock in到内源基因位点会抑制上游基因表达么？
● 求教，老鼠基因Q-PCR 引物设计，	● 再问个RNAi的问题，希望大家讨论。
● 求助:如何找到这个基因的promoter sequence?	● microarray intron probe
● 问个cre-loxp的问题	● 公司订制的抗体在wild type和knock out 小鼠都检测到band了，是小鼠问题还是抗体问题？
● 关于mRNA翻译的问题	● premRNA也有polyA tail么？
● knock out的问题	● UTR 可以是Exon吗？
● 牛人来看看这个图	● Help!: RNA genomic position 数据库哪里下载？
● knockout 老鼠里完全没有targeted gene表达吗？	● geneid -> snp id

相关话题的讨论汇总
话题: gene话题: transcript话题: my话题: mrna话题: feature

进入Biology版参与讨论

1

(共1页)

r*****i 发帖数: 117	1 请问各位xdjm，如何拿到人类和小鼠整个基因组的基因list。谢谢。
f*****h 发帖数: 228	2 我有个script可以干这事，你给我个邮箱吧，我发给你，不是我写的，但我找不到下载地址了【在 r*****i 的大作中提到】 : 请问各位xdjm，如何拿到人类和小鼠整个基因组的基因list。 : 谢谢。
f*****h 发帖数: 228	3 给你贴了吧，大家想用都可以 #!/usr/bin/perl -w ############################################# #Author: Jiang Li #email: r*********[email protected] #Creat Time: Tue 23 Oct 2012 01:37:54 PM CDT #Vanderbilt Center for Quantitative Sciences ############################################# use strict; use warnings; =pod =head1 SYNOPSIS Given a genbank format file (.gb), parse its feature parts (mRNA feature to get exon regions) to get information like transcript id, gene name, etc., and store the result in gtf format =head1 USAGE perl genbank2gtf_mRNA.pl input.gb chromosome >chromosome_mRNA.gtf =head1 RESULTS The output is a file named as chromosome_mRNA.gtf, in which chromosome is given as the input parameter =cut #Script begin #Convert a genbank file into a gtf format file (Only parse mRNA feature) my $usage = "perl $0 GenBank.gb chromosome >chromosome.gtf n"; die $usage unless (@ARGV==2); genbank2gtf($ARGV[0],$ARGV[1]); sub genbank2gtf{ my ($in,$chr) = @_; print $in," ",$chr,"n"; open(IN,$in) or die "The genbank annotation is not exists n"; my $feature=""; my $flag=0; #Getting feature lines while(){ if(/^FEATURES/){ $flag=1; next; } last if(/^ORIGIN/); #The following lines display the sequences $feature.=$_ if ($flag); } close IN; #Begin parse the $feature; #print $feature; my @features; while($feature=~/^ {5}S.n(^ {21}S.n)/gm){ push @features,$&; # print $&,"hahan"; # print $feature,"wawan"; } #Loop each feature and only parse those mRNA features to get the exon region, together with other #information like gene name, transcript id, etc. foreach my $f (@features){ if($f=~/^ {5}(S+).n(^ {21}S.n)/){ #Only feature is mRNA if($1 ne "source"){ # information need to be fetched my ($gene_id,$transcript_id,$gene_name,$transcript_name); my $strand="+"; $strand="-" if($f=~/complement(/); #transcript_id and transcript_name share the same name if($f=~//transcript_id="(.?)"/){ $transcript_id=$1; $transcript_name=$1; } #gene id if($f=~//db_xref="GeneID:(d+)"n/){ $gene_id=$1; } #gene name if($f=~//gene="(.?)"/){ $gene_name=$1; } =head1 EXON REGION PARSE =head2 CODE if($f=~/(complement()?(join()?(d+[d.n,> ]+d)())?/){ my $tmp=$3; $tmp=~s/s\|n\|>//g; my @array = split ",",$tmp; my @start; my @end; foreach my $s(@array){ if($s=~/(d+)..(d+)/){ push @start,$1; push @end,$2; }else{ push @start,$s; push @end,$s+1; } } if($strand eq "-"){ @start=reverse @start; @end=reverse @end; } } =head2 EXAMPLE mRNA complement(join(102429..103045,104811..104942, 105561..105643,105732..105835,105910..106035)) /gene="CCDC115" /product="coiled-coil domain containing 115" /note="Derived by automated computational analysis using gene prediction method: GNOMON. Supporting evidence includes similarity to: 4 ESTs, 1 Protein" /transcript_id="XM_003980242.1" /db_xref="GI:410947098" /db_xref="GeneID:101080349" =cut #Parse exons if($f=~/(complement()?(join()?(d+[d.n,> ]+d)())?/){ my $tmp=$3; $tmp=~s/s\|n\|>//g; my @array = split ",",$tmp; my @start; my @end; foreach my $s(@array){ if($s=~/(d+)..(d+)/){ push @start,$1; push @end,$2; }else{ push @start,$s; push @end,$s+1; } } if($strand eq "-"){ @start=reverse @start; @end=reverse @end; } #if($gene_name eq "ITK"){print STDERR $tmp,"n";print STDERR join "n",@array;}; for(my $i=0;$i<@array;$i++){ my $j=$i+1; my $group="gene_id "$gene_id"; transcript_id "$ transcript_id"; exon_number "$j"; gene_name "$gene_name"; transcript_name "$ transcript_name";n"; print join "t",($chr,"protein_coding","exon",$start[ $i],$end[$i], ".",$strand,".",$group); } } } } } } 【在 r****i 的大作中提到】 : 请问各位xdjm，如何拿到人类和小鼠整个基因组的基因list。 : 谢谢。
r*****i 发帖数: 117	4 谢谢，好人一生平安【在 f***h 的大作中提到】 : 给你贴了吧，大家想用都可以 : #!/usr/bin/perl -w : ############################################# : #Author: Jiang Li : #email: r********[email protected] : #Creat Time: Tue 23 Oct 2012 01:37:54 PM CDT : #Vanderbilt Center for Quantitative Sciences : ############################################# : use strict; : use warnings;
d****7 发帖数: 109	5 use ucsc table browser 【在 r*****i 的大作中提到】 : 请问各位xdjm，如何拿到人类和小鼠整个基因组的基因list。 : 谢谢。
X***n 发帖数: 366	6 bioconductor packages: org.Hs.eg.db org.Mm.eg.db
r*****i 发帖数: 117	7 谢谢各位
y****n 发帖数: 8	8 MARK,3x
y****n 发帖数: 8	9 能解释下这句什么意思？ if($f=~/(complement()?(join()?(d+[d.n,> ]+d)())?/){ Perl编译报错： Unmatched ( in regex; marked by <-- HERE in m/( <-- HERE complement()?(join( )?(d+[d.n,> ]+d)())?/ at genbank2gtf.pl line 135.
f*****h 发帖数: 228	10 话说我原来的Script可以用，肯定是由于mitbbs每行只能显示若干字符，把原来script truncate了。。。我刚找到原网址 https://sites.google.com/site/riverlee2008/post/ asetofscriptstogetannotationingtffromncbigenbankfiles join( 【在 y****n 的大作中提到】 : 能解释下这句什么意思？ : if($f=~/(complement()?(join()?(d+[d.n,> ]+d)())?/){ : Perl编译报错： : Unmatched ( in regex; marked by <-- HERE in m/( <-- HERE complement()?(join( : )?(d+[d.n,> ]+d)())?/ at genbank2gtf.pl line 135.
f*****h 发帖数: 228	11 话说我原来的Script可以用，由于mitbbs每行只能显示若干字符，原来script被 truncate了。。。我刚找到原网址 https://sites.google.com/site/riverlee2008/post/ asetofscriptstogetannotationingtffromncbigenbankfiles 【在 r*****i 的大作中提到】 : 请问各位xdjm，如何拿到人类和小鼠整个基因组的基因list。 : 谢谢。

1

(共1页)

进入Biology版参与讨论

相关主题
● geneid -> snp id	● 关于mRNA翻译的问题
● 为什么抗体能够检测到基因敲除的蛋白？	● knock out的问题
● exons for a gene 有包子奖励	● 牛人来看看这个图
● 审稿人这么说有道理么?	● knockout 老鼠里完全没有targeted gene表达吗？
● 请教关于KO mice	● 把IRES knock in到内源基因位点会抑制上游基因表达么？
● 求教，老鼠基因Q-PCR 引物设计，	● 再问个RNAi的问题，希望大家讨论。
● 求助:如何找到这个基因的promoter sequence?	● microarray intron probe
● 问个cre-loxp的问题	● 公司订制的抗体在wild type和knock out 小鼠都检测到band了，是小鼠问题还是抗体问题？

相关话题的讨论汇总
话题: gene话题: transcript话题: my话题: mrna话题: feature

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)