bio3d

タンパク質の配列や構造を解析するためのパッケージ

タンパク質配列を解析するパッケージは、他にもseeqinRやmsaなどがある。なお、seeqinRパッケージとは一部の関数がコンフリクトするので注意。

導入方法

常法通りにインストール。このパッケージはncdf等他のパッケージも利用しているため、dep=TRUEにすると同時にダウンロードしてくれる。

install.packages("bio3d", dep=TRUE)

インストール出来たら、library()で読み込む。

library(bio3d)

ファイルを読み込む

PDB形式のファイルを読み込む

'’’ read.pdb(file) '’’

FASTA形式のファイルを読み込む

'’’ read.fasta(file) '’’

FASTA形式のファイルをダウンロードする

FASTA形式のファイルを、NRまたはSWISSPROT/UNIPROTからダウンロードします。

get.seq(ids, outfile, db)
引数 説明 初期値
ids アクセッション番号を含む文字列ベクター
outfile ローカルに保存する際のファイル名 “seqs.fasta”
db ダウンロード先を指定する文字列。“nr”, “swissprot”, “uniprot"のいずれか “nr”

戻り値は以下の内容を含むリストとなる

names属性 説明
ali アライメントの行列
> align <- get.seq(c("P61073", "P70658"))
> align$ali[,c(seq(1,10))]
         [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
P61073.1 "M"  "E"  "G"  "I"  "S"  "I"  "Y"  "T"  "S"  "D"  
P70658.2 "M"  "E"  "P"  "I"  "S"  "V"  "S"  "I"  "Y"  "T"  

> align$ids

配列解析

blast.pdb

入力されたアミノ酸配列に対してBLASTサーチをかける。

seq <- "APTRQPSPVT RPWQHVDAIK EALSLLNNSS DTAAIMNETV EVVSETFDAE ELTCLQTRLK LYKQGLRGSL IKLEGPLTMM ASHYKQHCPP TLETSCATQM ITFKSFKKNL KDFLFEIPFD CWSQPRSKAG LPARS"
blast.result <- blast.pdb(seq, database = "swissprot")
引数 説明
seq 配列を含むベクターもしくはfastaオブジェクト
database BLASTサーチする際に使用するデータベース。‘pdb’,‘nr’,‘swissprot’のいずれかを選択

戻り値は以下の内容を含むリストとなる

names属性 説明
hit.tbl BLASTの結果が要約されて格納されたデータフレーム
raw BLASTの結果のRawデータを含むデータフレーム
url BLSATの結果のURLを含むベクター
>blast.result$hit.tbl[1,]
queryid subjectids identity positives
1 Query_143179 gi|117563|sp|P28773.1|CSF2_SHEEP 84.426 92.62
alignmentlength mismatches gapopens q.start q.end s.start s.end
1 122 19 0 1 122 18 139
evalue bitscore mlog.evalue pdb.id acc
1 2.1e-74 220 169.6494 P28773.1_c 117563

> blast.result$raw[1,]
queryid subjectids identity positives
1 Query_143179 gi|117563|sp|P28773.1|CSF2_SHEEP 84.426 92.62
alignmentlength mismatches gapopens q.start q.end s.start s.end
1 122 19 0 1 122 18 139
evalue bitscore
1 2.1e-74 220
 
> blast.result$url
5UFF0NBN015 
"https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&FORMAT_OBJECT=Alignment&ALIGNMENT_VIEW=Tabular&RESULTS_FILE=on&FORMAT_TYPE=CSV&ALIGNMENTS=20000&RID=5UFF0NBN015" 

uniprot

UniProtデータベースから情報を取ってくる

引数 説明
accid アクセッションID
p53.UniProt <- uniprot("P04637")

戻り値は以下のリストとなる

names属性 説明
name 省略名
fullName 完全タンパク質名
shortName 省略タンパク質名
sequence タンパク質配列
gene 遺伝子名
organism 動物種
taxon 分類法
> p53.UniProt$name
[1] "P53_HUMAN"
> p53.UniProt$fullName
[1] "Cellular tumor antigen p53"
> p53.UniProt$shortName
[1] NA
> p53.UniProt$sequence
[1] "MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD"
> p53.UniProt$gene
[1] "TP53"
> p53.UniProt$organism
[1] "Homo sapiens" "Human"       
> p53.UniProt$taxon
 [1] "Eukaryota"        "Metazoa"          "Chordata"         "Craniata"        
 [5] "Vertebrata"       "Euteleostomi"     "Mammalia"         "Eutheria"        
 [9] "Euarchontoglires" "Primates"         "Haplorrhini"      "Catarrhini"      
[13] "Hominidae"        "Homo"   

参考

Bio3D

bio3d package | RDocumentation

See Also

msa

多重配列アライメントを行うためのパッケージ

seqinr

DNAやアミノ酸配列を解析するためのパッケージ

tidyr

データをtidyに整形する

swirl

インタラクティブにRを学ぶ。

dplyr

データフレームを操作するためのパッケージ

jsonlite

JSONを処理するためのパッケージ

xml2

XMLを扱うためのパッケージ

rjson

JSONデータを処理するためのパッケージ