Fast genome and metagenome distance estimation using MinHash

mash 是一个可快速计算两个(或多个)基因组之间相似度的软件,可输入基因组序列或测序结果(fastq文件),使用计算机科学中一个经典的方法MinHash,一般用来判断两个网页内容是否雷同,以决定是否从搜索结果中去掉某些类似的结果。

使用示例:

mash dist -p 4 -l 、/path/to/ref.fa query_fa.txt > query_mashed.txt

用于计算所有query序列和ref序列的相似度,而相似度和物种间的亲缘关系是相关的,其中<query_fa.txt> 是一个记录了所有query序列的文件