ユークラスト

UCLUST [ 1 ]は、ヌクレオチド配列またはアミノ酸配列を配列類似性に基づいてクラスターにクラスタリングするように設計されたアルゴリズム です。このアルゴリズムは2010年に公開され、同じくUCLUSTという名前のプログラムに実装されました。著者はこのアルゴリズムについて、要求された類似性閾値Tに関して、2つの単純なクラスタリング基準に従うと説明しています。最初の基準は、任意のクラスターのセントロイド配列と他のどのクラスターのセントロイド配列との類似性がT未満であることを示しています。2番目の基準は、任意のクラスター内の各メンバー配列とクラスターのセントロイド配列との類似性がT以上であることを示しています。

UCLUSTアルゴリズムは貪欲アルゴリズムです。そのため、入力ファイル内の配列の順序は、生成されるクラスターとその品質に影響を与えます。そのため、クラスタリング段階に入る前に配列をソートすることをお勧めします。UCLUSTプログラムには、クラスタリング前に入力配列をソートするためのオプションがいくつか用意されています。

UCLUST プログラムはバイオインフォマティクス研究コミュニティで広く利用されており、OTU 割り当て (例: 16s)、非冗長遺伝子カタログの作成、分類割り当て、系統解析など、複数のアプリケーションに使用されています。

参照

参考文献

  1. ^ Edgar, RC (2010). 「BLASTよりも桁違いに高速な検索とクラスタリング」 .バイオインフォマティクス. 26 (19): 2460– 2461. doi : 10.1093/bioinformatics/btq461 . ISSN 1367-4803 . PMID 20709691 .