stringr

文字列を操作するためのパッケージ

導入方法

常法通りにインストール。

install.packages("stringr", dep=TRUE)

インストール出来たら、library()で読み込む。

library(stringr)

文字列がパターンにマッチするか検出する

str_detect(string, pattern)
string %>%
str_detect("\u00A1")

文字列に含まれるパターンをカウントする

str_count(string, pattern)

str_countはパターンに一致する数を返します。文字列に指定した文字がいくつ含まれているのか、カウントできます。

> str_count("AAAaaaBBBbbbCCCccc", "A")
[1] 3
> str_count("AAAaaaBBBbbbCCCccc", "[Aa]")
[1] 6
> str_count("AAAaaaBBBbbbCCCccc", "BBB")
[1] 1

文字列をパターンで分割する

str_split(string, pattern)

返り値はリスト。

string %>%
str_split("\u00A0")

文字列を長さを調べる

str_length(string)
引数 説明
string 文字列のベクトル

パターンにマッチする文字列を抽出する

str_extract(string, pattern)
引数 説明
string 文字列のベクトル
pattern 検索するパターンの正規表現
> url <- "http://wwww.test.com?page=1001"
> str_extract(url, "page=[0-9]+")
[1] "page=1001"

文字列の前後にあるスペース・改行コードを削除する

str_trim(string, side=c("both", "left", "right"))
引数 位置
string 文字列ベクトル
side 削除する位置 
> str_trim(" Thi is a pen ")
[1] "Thi is a pen"
> str_trim("\r\nThis is a pen\r\n")
[1] "This is a pen"

パターンに一致した文字列を置換する

str_replace(string, pattern, replacement)
str_replace_all(string, pattern ,replacement)

パターンに一致する文字列を置換するには、str_replace()関数とstr_replace_all()関数があります。str_replace()は一致した先頭のみを置換しますが、str_replace_all()は一致したもの全てを置換する関数です。

> str_replace("XXXXX", "X", "A")
[1] "AXXXX"
> str_replace_all("XXXXX", "X", "A")
[1] "AAAAA"

ちなみにpatternには正規表現が使えます。

パターンに一致した文字列を削除する

str_remove(string, pattern)
str_remove_all(string, pattern)

patternに一致した文字列をstringから削除します。

> str_remove("ABCDEFGH", "CD")
[1] "ABEFGH"

See Also

purrr

関数型プログラミングを行うためのパッケージ

tibble

データフレームの拡張版。

tidyr

データをtidyに整形する

dplyr

データフレームを操作するためのパッケージ

jsonlite

JSONを処理するためのパッケージ

xml2

XMLを扱うためのパッケージ

magrittr

パイプ演算子を使うためのパッケージ

rvest

HTMLやXMLを簡単に操作するためのパッケージ