タンパク質配列を解析するパッケージは、他にもseeqinRやmsaなどがある。なお、seeqinRパッケージとは一部の関数がコンフリクトするので注意。
導入方法
常法通りにインストール。このパッケージはncdf等他のパッケージも利用しているため、dep=TRUE
にすると同時にダウンロードしてくれる。
install.packages("bio3d", dep=TRUE)
インストール出来たら、library()
で読み込む。
library(bio3d)
ファイルを読み込む
PDB形式のファイルを読み込む
'’’ read.pdb(file) '’’
FASTA形式のファイルを読み込む
'’’ read.fasta(file) '’’
FASTA形式のファイルをダウンロードする
FASTA形式のファイルを、NRまたはSWISSPROT/UNIPROTからダウンロードします。
get.seq(ids, outfile, db)
引数 | 説明 | 初期値 |
---|---|---|
ids | アクセッション番号を含む文字列ベクター | |
outfile | ローカルに保存する際のファイル名 | “seqs.fasta” |
db | ダウンロード先を指定する文字列。“nr”, “swissprot”, “uniprot"のいずれか | “nr” |
戻り値は以下の内容を含むリストとなる
names属性 | 説明 |
---|---|
ali | アライメントの行列 |
> align <- get.seq(c("P61073", "P70658"))
> align$ali[,c(seq(1,10))]
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
P61073.1 "M" "E" "G" "I" "S" "I" "Y" "T" "S" "D"
P70658.2 "M" "E" "P" "I" "S" "V" "S" "I" "Y" "T"
> align$ids
配列解析
blast.pdb
入力されたアミノ酸配列に対してBLASTサーチをかける。
seq <- "APTRQPSPVT RPWQHVDAIK EALSLLNNSS DTAAIMNETV EVVSETFDAE ELTCLQTRLK LYKQGLRGSL IKLEGPLTMM ASHYKQHCPP TLETSCATQM ITFKSFKKNL KDFLFEIPFD CWSQPRSKAG LPARS"
blast.result <- blast.pdb(seq, database = "swissprot")
引数 | 説明 |
---|---|
seq | 配列を含むベクターもしくはfastaオブジェクト |
database | BLASTサーチする際に使用するデータベース。‘pdb’,‘nr’,‘swissprot’のいずれかを選択 |
戻り値は以下の内容を含むリストとなる
names属性 | 説明 |
---|---|
hit.tbl | BLASTの結果が要約されて格納されたデータフレーム |
raw | BLASTの結果のRawデータを含むデータフレーム |
url | BLSATの結果のURLを含むベクター |
>blast.result$hit.tbl[1,]
queryid subjectids identity positives
1 Query_143179 gi|117563|sp|P28773.1|CSF2_SHEEP 84.426 92.62
alignmentlength mismatches gapopens q.start q.end s.start s.end
1 122 19 0 1 122 18 139
evalue bitscore mlog.evalue pdb.id acc
1 2.1e-74 220 169.6494 P28773.1_c 117563
> blast.result$raw[1,]
queryid subjectids identity positives
1 Query_143179 gi|117563|sp|P28773.1|CSF2_SHEEP 84.426 92.62
alignmentlength mismatches gapopens q.start q.end s.start s.end
1 122 19 0 1 122 18 139
evalue bitscore
1 2.1e-74 220
> blast.result$url
5UFF0NBN015
"https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&FORMAT_OBJECT=Alignment&ALIGNMENT_VIEW=Tabular&RESULTS_FILE=on&FORMAT_TYPE=CSV&ALIGNMENTS=20000&RID=5UFF0NBN015"
uniprot
UniProtデータベースから情報を取ってくる
引数 | 説明 |
---|---|
accid | アクセッションID |
p53.UniProt <- uniprot("P04637")
戻り値は以下のリストとなる
names属性 | 説明 |
---|---|
name | 省略名 |
fullName | 完全タンパク質名 |
shortName | 省略タンパク質名 |
sequence | タンパク質配列 |
gene | 遺伝子名 |
organism | 動物種 |
taxon | 分類法 |
> p53.UniProt$name
[1] "P53_HUMAN"
> p53.UniProt$fullName
[1] "Cellular tumor antigen p53"
> p53.UniProt$shortName
[1] NA
> p53.UniProt$sequence
[1] "MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD"
> p53.UniProt$gene
[1] "TP53"
> p53.UniProt$organism
[1] "Homo sapiens" "Human"
> p53.UniProt$taxon
[1] "Eukaryota" "Metazoa" "Chordata" "Craniata"
[5] "Vertebrata" "Euteleostomi" "Mammalia" "Eutheria"
[9] "Euarchontoglires" "Primates" "Haplorrhini" "Catarrhini"
[13] "Hominidae" "Homo"
参考
bio3d package | RDocumentation