o******n 发帖数: 511 | 1 输个基因名进去,有好几百条结果,这是问题之一.
问题之二在于,绝大部分的这个基因都是unannotated,在测序过的全基因组里,所以点了结果进去看不到直接的单独的基因序列.我目前用最笨的方法,先进入全基因组,再根据locus tag的号码找我要的基因.
几百个结果,这么做太没效率了,有什么好办法?
还有个问题,等我找出这几百个序列,有没有软件可以帮我把它们按序列相似性分类,比
如这几十个很像,放一组,另几十个长些,放另一组,免得比对出来很乱.
谢谢! | y*****t 发帖数: 264 | | o******n 发帖数: 511 | 3 没有annotated的基因也可以吗?我没学过perl或python,问题幼稚请多多包涵:)
【在 y*****t 的大作中提到】 : perl or python
| m*****u 发帖数: 15526 | 4 database不要选nucleotide,选gene。
了结果进去看
不到直接的单独的基因序列.我目前用最笨的方法,先进入全基因组,再根据locus tag的
号码找我要的
基因.
【在 o******n 的大作中提到】 : 输个基因名进去,有好几百条结果,这是问题之一. : 问题之二在于,绝大部分的这个基因都是unannotated,在测序过的全基因组里,所以点了结果进去看不到直接的单独的基因序列.我目前用最笨的方法,先进入全基因组,再根据locus tag的号码找我要的基因. : 几百个结果,这么做太没效率了,有什么好办法? : 还有个问题,等我找出这几百个序列,有没有软件可以帮我把它们按序列相似性分类,比 : 如这几十个很像,放一组,另几十个长些,放另一组,免得比对出来很乱. : 谢谢!
| o******n 发帖数: 511 | 5 我是在gene里搜索的,这样还有四百多个,大部分是unannotated genes.
估计编程能自动完成,我不会 :( | m*****u 发帖数: 15526 | 6 看不懂你问题。你是在找400多个不同基因么(名字不一样)?还是一个基因有400多不同序列?还是你
要找不同种属的
同一基因
【在 o******n 的大作中提到】 : 我是在gene里搜索的,这样还有四百多个,大部分是unannotated genes. : 估计编程能自动完成,我不会 :(
| c***3 发帖数: 251 | 7 我明白他的意思
他就要找一个基因,名字是固定的。
直接通过名字搜索,但是ncbi上结果出来400多个,他根据每一个结果的locus去下载序
列,发现序列长短不一,相似度也不是那么高。
所以他希望能够有个程序直接通过基因名字把所有相关序列都下载下来,然后根据序列
相似度聚类。
碰巧我这两天也在下载序列,不过我跟你需求不一样,我有locus列表,根据列表下载
序列。你要是不着急我可以过几天帮你弄弄
不同序列?还是你
【在 m*****u 的大作中提到】 : 看不懂你问题。你是在找400多个不同基因么(名字不一样)?还是一个基因有400多不同序列?还是你 : 要找不同种属的 : 同一基因
| m*****u 发帖数: 15526 | 8 他说在gene的database里还有400多个序列,如果就是同一物种的一个基因,这怎么可能。gene里面
都是整理好了的序列
【在 c***3 的大作中提到】 : 我明白他的意思 : 他就要找一个基因,名字是固定的。 : 直接通过名字搜索,但是ncbi上结果出来400多个,他根据每一个结果的locus去下载序 : 列,发现序列长短不一,相似度也不是那么高。 : 所以他希望能够有个程序直接通过基因名字把所有相关序列都下载下来,然后根据序列 : 相似度聚类。 : 碰巧我这两天也在下载序列,不过我跟你需求不一样,我有locus列表,根据列表下载 : 序列。你要是不着急我可以过几天帮你弄弄 : : 不同序列?还是你
| c***3 发帖数: 251 | 9 不是,他的gene是unannotated,也有可能会搜出很多来
比如你搜"putative transposase"
可能。gene里面
【在 m*****u 的大作中提到】 : 他说在gene的database里还有400多个序列,如果就是同一物种的一个基因,这怎么可能。gene里面 : 都是整理好了的序列
| o******n 发帖数: 511 | 10 对的,就是用一个基因名字搜索,找出在不同物种里的序列,但很多这些序列是
unannotated的,要进到全基因组序列里根据locus tag id才能定位到所要基因的序列,
很麻烦,而且有几百个这样的,头大.
我的另外一个问题就是看有没有软件能把这些序列按相似度分组.
谢谢czcz3 :)
【在 c***3 的大作中提到】 : 我明白他的意思 : 他就要找一个基因,名字是固定的。 : 直接通过名字搜索,但是ncbi上结果出来400多个,他根据每一个结果的locus去下载序 : 列,发现序列长短不一,相似度也不是那么高。 : 所以他希望能够有个程序直接通过基因名字把所有相关序列都下载下来,然后根据序列 : 相似度聚类。 : 碰巧我这两天也在下载序列,不过我跟你需求不一样,我有locus列表,根据列表下载 : 序列。你要是不着急我可以过几天帮你弄弄 : : 不同序列?还是你
| c***3 发帖数: 251 | 11 按相似度分组说白了就是clustering问题
你可以从里面找个软件试试
http://en.wikipedia.org/wiki/Sequence_clustering
【在 o******n 的大作中提到】 : 对的,就是用一个基因名字搜索,找出在不同物种里的序列,但很多这些序列是 : unannotated的,要进到全基因组序列里根据locus tag id才能定位到所要基因的序列, : 很麻烦,而且有几百个这样的,头大. : 我的另外一个问题就是看有没有软件能把这些序列按相似度分组. : 谢谢czcz3 :)
| o******n 发帖数: 511 | 12 我太弱了,这些软件有的不会用,有的下下来就是C文件,还是不会用......
找到一个可以用的,Clusterer可以处理muscle比对过的序列.
我想分组是为了根据相似性设计简并引物,我只需要两组,clusterer把序列分成了好多组,我还在摸索怎么调整参数......
【在 c***3 的大作中提到】 : 按相似度分组说白了就是clustering问题 : 你可以从里面找个软件试试 : http://en.wikipedia.org/wiki/Sequence_clustering
|
|