-
FindTelomeres是一个用于在FASTA文件中搜索端粒重复序列TTAGGGCCCTAA的Python脚本
资源介绍
这个脚本做什么?
这是用于在FASTA文件中查找端粒重复序列(TTAGGG / CCCTAA)的工具。
该脚本不做什么?
它只会在序列的开头和结尾寻找端粒。 它仅查找TTAGGG / CCCTAA重复序列的变体。
它是如何做到的?
它以FASTA文件作为输入,并逐一遍历其中的序列。 在每个序列的开头和结尾,它都会忽略N(未知碱基)。
对于每个序列,它将查看前(最后)50个核苷酸,并评估端粒重复覆盖了该序列的多少。 这是故意灵活的,以允许测序错误和端粒基序的序列/长度变化。 更具体地说,如果前50个核苷酸中至少有50%被端粒重复序列覆盖,则将其称为端粒。
在大多数情况下,默认设置50%(-c /-cutoff)和50 nts(-w /-window)似乎效果很好。 一些端粒可能很短,或者与典型的TTAGGG / CCCTAA基序不同。 使用这些参数,它们很可能会被恢复。 但是,可以