BioKanga是一家集高性能生物信息学应用的下一代测序分析所面临的挑战。坎加是'K-MER自适应下一代对准“的首字母缩写,是主要的应用程序。
BioKanga是一种高效的短读取对准器,集成了一个经验导出的目标基因组内的序列唯一性的理解,下一代定序短读取数据集在任一色彩空间(ABI的神器出山:www.shenqi73.comSOLiD)或basespace(Illumina公司)等,可稳定的取向。
与其他广泛使用的光刻机,BioKanga提供了可观的收益中的比例和质量竞争力或提高计算效率的排列顺序读取。
与大多数其他对准,BioKanga利用海明之间的距离公认的比对目标基因组组装为任何给定的阅读的discrimative验收标准,而不是依靠音序源的质量分数。
Kangadna是一个额外的两部分工具包面向NGS读取数据集重新组装的主要组成部分。次要组成部分,主要是针对kangahrdx(K-MER自适应下一代对准纯合性减少)对RNA-seq的转录,转录本异构体导致在许多组装较高的同源性,最有可能的组成部分外显子区域的重叠群共享。
工具集组件:
kangax
用于生成一个非常优化的后缀数组查找数据库,其中包含针对该异常短读取数据集是随后要对齐的参考基因组组件。
加央
这是一个可选组件,它可以用于预先处理的NG短读取数据集到一个进行了优化的格式,该格式用于快速,高效的装载由坎加对准。
坎加
坎加是对准组成部分。这是主要的投入是参考基因组组装所产生的kangax的数据库,以及一个的加央预处理数据集或原始的fasta格式/ fastq读集文件。的主输出从坎加的路线的数量的用户所选的输出格式之一。
kangadna
Kangadna是一个多相贪婪的诺和汇编的质量提供更高的信心重叠群,即使这样的品质获得了在降低成本的跨度和/或contig的NXX常规措施的首要目标。 Kangadna本地组装无论是基地或色彩(固体)读取。
Kangahrdx
Kangahrdx处理重叠群的序列,并确定区域间的重叠群的纯合。但更hetrozygotic的重叠群中最长的重叠群,识别区域将被删除。
这可以帮助诺和RNA-seq的转录组分析或在多倍体基因组的从头组装。 ,一般kangahrdx将执行所产生的kangadna或其他一些汇编,唯一重要的限制是输入必须是basespace,而不是色彩的重叠群。