ClustalW, ClustalOmega, MUSCLEのアルゴリズムを利用してアライメントを行うことが出来る。Biostringsパッケージを依存しているので、前処理にはBiostringsパッケージの関数が使用できる。
導入方法
Bioconductorを使用してインストールする。
> BiocManager::install("msa")
参照
インストール出来たら、library()
で読み込む。
> library(msa)
msa
多重配列アライメントを実行する関数。
msa(inputSeqs, method, type)
引数 | 説明 | 初期値 |
---|---|---|
inputSeqs | XStingSet クラスのベクトル。もしくはFASTA形式のファイルのパス |
|
method | アライメントを行う処理のアルゴリズムを指定する。, “ClustalW”, “ClustalOmega”, “Muscle"のいずれかを指定。 | |
type | inputSeqsで指定した配列の種類。“dna”, “rna”, “protein"のいずれかを指定。 |
FASTA形式のファイルをダウンロードするには、bio3dパッケージのget.seq()
関数が使用できる。
戻り値はMsaMultipleAlignmentClasses
(MsaAAMultipleAlignment
, MsaDNAMultipleAlignment
,もしくはMsaRNAMultipleAlignment
)のオブジェクトとなる。
使用例
> msa("AKT.fasta",type="protein")
use default substitution matrix
CLUSTAL 2.1
Call:
msa("AKT.fasta", type = "protein")
MsaAAMultipleAlignment with 3 rows and 484 columns
aln
[1] MSDVAIVKEGWLHKRGEYIKTWRPRYFLLK...--QDDSMECVDSERRPHFPQFSYSASGTA
[2] MSDVTIVKEGWVQKRGEYIKNWRPRYFLLK...KYDEDGMDCMDNERRPHFPQFSYSASGRE
[3] MNEVSVIKEGWLHKRGEYIKTWRPRYFLLK...--RYDSLGLLELDQRTHFPQFSYSASIRE
Con MSDV?IVKEGWLHKRGEYIKTWRPRYFLLK...--??DSM?C?D?ERRPHFPQFSYSASGRE
msaConvert
msaパッケージで作製されたMsaMultipleAlignment
クラスのオブジェクトを、他のパッケージで使用できるクラスのオブジェクトに変換する。変換できるクラスは以下の通り。
- alignment (seqinrパッケージ)
- align (bios2mdsパッケージ)
- AAbin/DNAbin (apeパッケージ)
- phyDat (phangornパッケージ)
- fasta (bio3dパッケージ)
msaConvert(x, type)
引数 | 説明 |
---|---|
x | |
type | 変換先のオブジェクト名。指定方法は次の通り。“seqinr::alignment”, “bios2mds::align”, “ape::AAbin”,“ape::DNAbin”, “phangorn::phyDat”, and “bio3d::fasta” |