StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

Rのループ中に進捗率を表示するプログレスバーを作る

Rのループで使えるプログレスバーは、いくつかのパッケージで提供されているみたいなのですが、自分で書くのも簡単なので、単純な関数でつくってみた。
進捗が知りたいのは時間のかかる処理をするときであり、時間がかかるなら無駄な計算は省きたいので、ループ1回ごとには出さずに100回とか1000回ごとに表示したほうがいいかもしれない。

### 自作プログレスバーをつくる

# バーは40文字からなり、-が#に置き換わっていくようにした。
# 右端に%表示を出しておく。
# 処理は単に、ループ全体の何番目をやってるのかをwhichとlengthで
# 取得して、それを文字列でのバーに置き換えてmessageとして吐くだけ。
# '\r'は行頭復帰を意味し、appendLF=FALSEは改行しないことを意味する。
# これらの組み合わせで、「表示をまるごと更新する」の意味になる。
# '\r'は、message()内の引数としては、prg.barの前でも後ろでもいいし、
# paster時にくっつけといてもよい。
# (messageは、複数の文字列を任意個数並べられる。)

show.progress <- function(i, x){
  # iとxにはforのループ変数とリストを与える
  prg <- round(which(x==i)/length(x)*100)
  done   <- paste(rep('#', round(prg/2.5)),    collapse='')
  remain <- paste(rep('-', 40-round(prg/2.5)), collapse='')
  prg.bar <- paste('|', done, remain, '|  ', as.character(prg), '%', sep='')
  message('\r', prg.bar, appendLF=FALSE)
}

### 試用してみる

# 素因数分解できるパッケージ
library(gmp)
factorize(as.bigz("5656"))

# 1億〜1億3万までの素因数分解を進捗バーつきでやってみる
x<- 100000000:100030000
primes <- list()
for (xi in x){
  show.progress(xi,x)
  xi <- as.character(xi)
  p <- factorize(as.bigz(xi))
  p <- as.numeric(p)
  primes <- c(primes, list(p))
}


使うと、こんな感じで昔のパソコンみたいな動きになる。


f:id:midnightseminar:20200920130355g:plain


ちなみに、環境によっては、messageの行のあとにflush.console()を挟まないと、100%まで行ってからいきなり表示されるような場合もあるかもしれない。自分の場合は不要だったが。

for、apply、ベクトル演算の処理速度の比較

ツイッターのライムラインで、forループをapplyに置き換えた場合の高速化の話が流れていて(こちら)、気になって検索したところ、applyよりむしろwithを使えと言っている人がいた。
r - apply() is slow - how to make it faster or what are my alternatives? - Stack Overflow


ちなみにこれは、with関数が早いというより、要するに「データフレームの行ごとの計算」を「ベクトル同士の計算」に置き換えることによって速くなっていると考えたほうがよい。withのメリットは、データフレームの列を指定するときに'd$'を書かなくでよくなるという点にある。


以下では、1万行×3列のデータで、横向きに標本分散を計算して1万個取り出す処理を、

  • forループで空のベクトルにアペンドしていく
  • forループで長さを指定したベクトルを更新していく(Pythonのリストの処理でこうすると速くなる場合があったのでやってみる)
  • applyを使う
  • applyを使い、かつ関数を事前にコンパイルしておく
  • ベクトル同士の計算にする($で列を取り出す)
  • ベクトル同士の計算にする(indexで列を取り出す)
  • ベクトル同士の計算にする(with関数をつかう)

の7通りで試してみた。

# パッケージよみこみ
library(rbenchmark)  # 速度を測る作業のラッパー
library(compiler)    # 関数をコンパイルする

# データフレームさくせい
d <- data.frame(
  x1 = runif(10000),
  x2 = runif(10000),
  x3 = runif(10000)
)

# 標本分散を出す関数を定義しておく
svar <- function(x){
  return(sum((x-mean(x))^2)/(length(x)))
}


# 関数をコンパイルする
c.svar <- cmpfun(svar)

# 処理時間を比較する
bm1 <- benchmark(
  'for_append' = {
    v1 <- c()
    for(i in 1:nrow(d)){
      v1 <- c(v1, svar(unlist(d[i,])))
    }
  },
  'for_replace' = {
    v2 <- rep(NA, nrow(d))
    for(i in 1:nrow(d)){
      v2[i] <- svar(unlist(d[i,]))
    }
  },
  'apply' = {
    v3 <- apply(d, 1, svar)
  },
  'apply+compile' = {
    v4 <- apply(d, 1, c.svar)
  },
  'vectorize_$' = {
    v5 <- ((d$x1-(d$x1+d$x2+d$x3)/3)^2 + (d$x2-(d$x1+d$x2+d$x3)/3)^2 + (d$x3-(d$x1+d$x2+d$x3)/3)^2)/3
  },
  'vectorize_index' = {
    v6 <- ((d[,1]-(d[,1]+d[,2]+d[,3])/3)^2 + (d[,2]-(d[,1]+d[,2]+d[,3])/3)^2 + (d[,3]-(d[,1]+d[,2]+d[,3])/3)^2)/3
  },
  'vectorize_with' = {
    v7 <- with(d, ((x1-(x1+x2+x3)/3)^2 + (x2-(x1+x2+x3)/3)^2 + (x3-(x1+x2+x3)/3)^2)/3)
  },
  replications = 100)

# いらん列を消して経過時間でソートしておく
bm1 <- bm1[1:4] %>%
  arrange(elapsed)


replications = 100というのは100回処理を繰り返して比較してるということ。
以下のような結果が得られた。

             test replications elapsed relative
1  vectorize_with          100   0.032    1.000
2     vectorize_$          100   0.034    1.063
3 vectorize_index          100   0.042    1.313
4   apply+compile          100   6.618  206.812
5           apply          100   7.565  236.406
6     for_replace          100  52.767 1648.969
7      for_append          100  93.641 2926.281


elapsedが経過時間を表し、relativeは最速のものとの比を示したもの。
とにかく、ベクトル同士の演算に置き換えられる場合はめちゃめちゃ速くなることが分かる。アクセスの仕方で差はほぼ無く、withを使うと記述が簡単になるのでwithを使っておけばよさそうだ。
applyはforループより1桁速いが、それでもベクトル演算に比べると2桁倍の時間がかかっている。コンパイルしても凄く速くはならない。
forループは、上書き方式にするとアペンド方式より速いが、いずれにしてもベクトル演算の数千倍の時間がかかっている。


↓のように値を置き換えるような処理だと、ベクトル演算にはできないので、とりあえずforよりはapplyを使っておくのが良さそうな気がする。コンパイルしたほうが遅くて草。【追記】Twitterで指摘をもらって気づいたけど、↓の例だと縦方向にも処理できるのでベクトル化容易やなww 横方向にしか処理できない内容であとで試そう。

> ### 値を置換する処理をforとapplyで比較する
> 
> # ベクトル中の0.5より小さい値を0に置換する関数
> rpl <- function(x){
+   replace(x, which(x < 0.5), 0)
+ }
> 
> c.rpl <- cmpfun(rpl)
> 
> bm2 <- benchmark(
+   'for' = {
+     d.new1 <- d
+     for(i in 1:nrow(d)){
+       d[i,] <- rpl(d[i,])
+     }
+   },
+   'for+compile' = {
+     d.new2 <- d
+     for(i in 1:nrow(d)){
+       d[i,] <- c.rpl(d[i,])
+     }
+   },
+   'apply' = {
+     d.new3 <- d
+     apply(d.new2, 1, rpl)
+   },
+   'apply+compile' = {
+     d.new4 <- d
+     apply(d.new2, 1, c.rpl)
+   },
+   replications = 5
+ )
> 
> bm2[1:4] %>% arrange(elapsed)
           test replications elapsed relative
1         apply            5   0.246    1.000
2 apply+compile            5   0.247    1.004
3           for            5  20.957   85.191
4   for+compile            5  22.890   93.049

ggplot2で2軸グラフを描く時の軸スケーリングの作業

ggplot2で2軸のグラフを描くときは、先日のエントリでも書いたように、ggplot2自身は左軸(第1軸)と右軸(第2軸)を別々の情報として持つことはできないので、左軸と右軸の尺度の違いを自分で設定して変換しなければならない。
あとで使いまわすので、このスケーリングの作業を行うスケーラを以下のように定義しておいた。
最初は1行で書いてggplotの描画の中に埋め込んでたけどあとで混乱しないように分けて書いておいた。

library(ggplot2)
data(airquality)  # 練習用データのよみこみ

### 変数を追加
# x軸用に月と日の列を日付の変数にしておく(2行に分けてかいてる)
airquality <- airquality %>%
  mutate(Date = paste(as.character(Month), '/', as.character(Day), sep='')) %>%
  mutate(Date = as.Date(Date, format='%m/%d'))

### y1, y2の目盛り範囲を決めておく
# ここでは恣意的に決めてるが、最大と最小を取るとかでもいいと思う
y1.lim <- c(0, 25)
y2.lim <- c(50, 100)

### スケーラの関数を書いておく
# 上でつくった、y1とy2の目盛りの範囲を定めた要素数2のベクトルを使って、
# いい感じにスケールを合わせる。

# 変数のスケーラ。
# pにy2の値ベクトルを与えると、y1の尺に合わせた数字に変換。
# y2をまずゼロ基準に戻し、y2とy1のlimの幅の比でスケーリング
# した後で、y1のゼロ基準からの乖離分を足す。

variable_scaler <- function(p, lim1, lim2){
  to_zero <- p-lim2[1]
  y1_range <- lim1[2]-lim1[1]
  y2_range <- lim2[2]-lim2[1]
  scaled <- to_zero*y1_range/y2_range
  from_zero <- scaled + lim1[1]
  return(from_zero)
}

# 第2軸の目盛りのスケーラ。
# pは、sec_axis()の'.'になる。y1の目盛りをy2の目盛りに読み替えるもの。
# y1の目盛りをまずゼロ基準に戻し、y1とy2のlimの幅の比スケーリング
# した後で、y2の目盛りのゼロ基準からの乖離分を足す。

axis_scaler <- function(p, lim1, lim2){
  to_zero <- p-lim1[1]
  y1_range <- lim1[2]-lim1[1]
  y2_range <- lim2[2]-lim2[1]
  scaled <- to_zero*y2_range/y1_range
  from_zero <- scaled + lim2[1]
  return(from_zero)
}

### 描画してみる
airquality %>%
  ggplot(aes(x=Date)) +
  geom_line(aes(y=Wind, colour='Wind')) + 
  geom_line(aes(y=variable_scaler(Temp, y1.lim, y2.lim), colour='Temp')) + 
  scale_y_continuous(limit=y1.lim,  # 第1軸の範囲
                     breaks=c(0, 5, 10, 15, 20, 25),  # 第1軸の目盛り
                     sec.axis=sec_axis(
                       ~(axis_scaler(., y1.lim, y2.lim)), # 軸スケーリング
                       breaks=c(50, 60, 70, 80, 90,100), # 第2軸の目盛り
                       name='Temp')  # y2のラベルはここで設定する
                     ) + 
  labs(title = 'DUAL AXIS CHART', 
       x='Date',
       y='Wind',
       colour = 'Variable')


もちろんy2のラベルもscale_y_continuousの中でnameをつかって指定してもよい。
2つ目の折れ線のyを指定するときに変数スケーラを使い、sec.axisを指定するときにformulaの中で軸スケーラを使う。


f:id:midnightseminar:20200908181313p:plain

折れ線グラフの端っこにラベルを付けるやつ(ggplot2)

f:id:midnightseminar:20200831132131p:plain


最近になって遅ればせながらggplot2を頻繁に使うようになってきました。
で、↑こういうふうに、折れ線の端っこにラベルを置きたいと思いました。白黒の記事原稿で4本もの折れ線を重ねるのは見づらいのでそもそもやめたほうがいいですが、人生いろいろあるわけです。
そして、ggplot2の線種は見分けがつきにくいので、凡例だけで示すのは難しい。


ググると解説ブログがいくつか見つかりますが、パット見では何をやっているのか意味がわかりやすくない気もしたので、メモしておきます。
考え方としては、

  • ggplot2の他にggrepelパッケージを入れておく。これは互いに重ならない「いい感じのラベル」を書くときに使うもの。
  • x軸の範囲を左右に少し広げておく。
  • 折れ線の末端を「点」とみなして、そこに新たに散布図を描くようなイメージで、geom_text_repelでテキストを置く。
  • 散布図にnudge(点とラベルの距離)を設定することで、強制的にラベルを左右方向にズラす。するとggrepelの機能で、「点」とラベルが線で結ばれるようになる。(点とラベルというか、正確に言うと、geom_text_repelは座標に文字を配置する散布図を描くものだが、座標で指定した位置が点として認識されている。)


という手順になります。「折れ線の端を点とみなした散布図を描いて、そこに指示線つきのラベルを添える」という考え方がポイントだと思います。
イメージとしては、


f:id:midnightseminar:20200831133007p:plain


こういうタイプのグラフをまず思い浮かべればよい。この、ラベルと点が線で繋がれてる感じのものを、折れ線グラフの端っこに重ねてやって、派手な赤点を目立たないようにしてやればいいわけです。


冒頭のグラフは以下のようなコードで描きましたが、

library(ggplot2)
library(ggrepel)

dat %>%
  ggplot(aes(x=YEAR, y=FREQ)) +
  geom_line(aes(size=CODE, linetype=CODE, colour=CODE)) +   # ここ書いとかないとmanual設定も動かない
  theme_classic() +
  geom_text_repel(
    data = dat %>% filter(YEAR==max(YEAR)),    # 折れ線の右端にうつ点
    aes(x=YEAR, y=FREQ, label = CODE),
    nudge_x = 4,
    segment.alpha = 0.5,
    size = 6,
    family="MS Gothic") + 
  geom_text_repel(
    data = dat %>% filter(YEAR==min(YEAR)),
    aes(x=YEAR, y=FREQ, label = CODE),
    nudge_x = -4,                 #  点とラベルの距離
    segment.alpha = 0.5,     # 間に引かれる線をすこし薄くする
    size = 6,                          # ラベルの大きさ
    family="MS Gothic") +  # 日本語を表示するときはフォント指定しておく
  scale_linetype_manual(values = c("solid", "dashed", "solid", "twodash")) +         # 線のタイプ
  scale_size_manual(values = c(1.1,0.9,1.3,0.9)) +                                                      # 線の太さ
  scale_color_manual(values = c('#000000','#000000','#BBBBBB','#000000')) +  # 線の色
  scale_x_continuous(limits=c(1960, 2023),
                     breaks=c(1970, 1980, 1990, 2000, 2010, 2020)) + 
  theme(text = element_text(family="MS Gothic"),
        axis.text=element_text(size=15,color="black"),
        axis.title.y = element_text(size=15,color="black"),
        legend.position = 'none') + 
  labs(x="", y="\n頻度/掲載論文数\n", color = "")
  • geom_lineの行で、線種、色、太さを分けるグループを指定しておく。
  • theme_classicはシンプルなスタイルを選択してる設定。
  • geom_text_repelを2回やってますが、1つ目はxが最大の点を利用して右側にラベルを書く作業、2つ目はxが最小の点を利用して左側にラベルを書く作業です。要するにこのグラフは、1つの折れ線と2つの散布図が重なったものってことです。
  • nudgeしない場合、点の座標にそのままラベルが書かれることになり、ラベルのテキスト同士が重なる場合だけggrepelの機能でずらされて、場合によっては指示線が出るのですが、正負方向に4年分だけnudgeする設定にしておくことで、強制的にこの指示線を出すようにします。
  • scale_linetype_manual、scale_size_manual、scale_color_manualは、線の種類・太さ・色を手動設定するもので、これを設定しなければ、グループ変数(ここではCODE)ごとに適当に割当られます。
  • x軸のデータは1965年から2017年までしかないのですが、ラベルを表示する領域を確保するために、scale_x_continuousのlimitsで左右の範囲を少し広げています。
  • legend.position = 'none'で凡例は無しにしている。


f:id:midnightseminar:20200831132131p:plain

Rで棒グラフと折れ線グラフを重ねた2軸グラフを描く

さっき、Rで棒グラフと折れ線グラフを重ねたものを作ろうとして、けっこう手間取りました。最終的に描いたのは↓のようなものなのですが。


f:id:midnightseminar:20200811212316p:plain


「2軸グラフの書き方」「種類の異なるグラフの重ね方」についていろいろ調べたところ、barplot()とplot()を組み合わせるやり方もあるんですが、ggplot2でやるほうがやりやすかったです。以下、まず単なる2軸グラフの書き方をおさらいした後で、棒と折れ線を組み合わせる方法をメモしておきます。
 
 

2軸グラフの作り方

左右の軸をつかってスケールの異なるグラフを重ねたいだけなら、さほど難しくはなく、plot()ですぐできます。
例えば折れ線グラフを2つ重ねたいのだとしたら、まず1つめの変数のグラフを軸無しで書いたあとに、x軸と左軸を描く。その後、par(new=T)で、2つめの変数のグラフを軸なしで重ね描きした上で、右軸を描けばいいです。
で、最後にbox()で枠線を入れ、凡例を付けたければ付けます。

以下、適当に乱数でつくった変数で実行例を書いておきますが、冒頭の成果物にあわせてx軸の変数を日付型にしてるので、そこだけ多少ややこしくなっています。ただの数字であれば、x軸を描くときにaxis.Dateを使う必要はないです。

# 練習用の変数を適当に乱数でこしらえる
x.date <- seq(from=as.Date('2020-04-01'), to=as.Date('2020-05-31'), by=1)
y1 <- sin(seq(length(x))/7)+rnorm(n=length(x), mean=0, sd=0.2) + 2
y2 <- sin(seq(length(x))/5)*100 + rnorm(n=length(x), mean=0, sd=20) + 200

# y軸の範囲をそれぞれ決めておく
y1.lim <- c(min(y1), max(y1))
y2.lim <- c(min(y2), max(y2))

# グラフの左右の余白を少し多めにするためparを設定しとく(特に右)
par(oma = c(0, 1, 0, 3))

# 1枚目のグラフをかく(y1)
# いったん軸なしにするためaxes=Fにしてる
plot(x=x.date, y=y1, ylim=y1.lim, type='l', lwd=1.5,
     xlab='Date', ylab='y1', 
     axes = F,
     main='plot関数での二軸グラフ')

# x軸を追加(日付データなのでaxis.Dateを使う)
axis.Date(1,at=seq(min(x.date), max(x.date),"week"),format="%m/%d")

# 左の軸をかく
axis(2)

# 2枚目のグラフを重ねる(y2)
par(new=T)
plot(x=x, y=y2, ylim=y2.lim, type='l', lty='dotted', lwd=1.5,
     xlab='', ylab='', axes = F)

# 右側の軸の名前をかく
mtext('y2', side = 4, line = 3)

# 右側の軸を表示
axis(4)

# 枠をかく
box()

# 凡例
legend("bottomleft", legend = c("y1", "y2"), lty = c('solid', 'dotted'), lwd=1.5)


f:id:midnightseminar:20200811212338p:plain
 
 

ggplot2で棒グラフを折れ線グラフを重ねる

さて、今度は種類の異なるグラフを重ねるやり方ですが、barplot()とplot()を重ねるやり方だと、今回は日付のデータを使ってることもあって、x軸のコントロールが難しかったので、ggplot2でやることにしました。
あと、今日気づきましたが、MacのRStudioだとplotするときに余白が足りませんというエラーが出まくるのが、ggplot2だと出ないんですね。いままで基本的にplot派でしたが、ggplot派に改宗しようかなと思いました……。


さて作図ですが、半分ぐらいは、西浦博(8割おじさん)氏が5月ぐらいに出していた、新型コロナの実行再生算数を計算するプログラムの作図のところを参考にさせて頂きました。
最大のポイントは、左右の軸のスケールの調整です。
上述の「plotの2軸化」の場合、右側の軸の幅は、2つめの変数の値の幅がそのまま反映されていました。plotはそもそもスケールの異なるグラフを重ねることができるようになってて*1、今回の場合でいうと、後で描いたグラフの主軸を単に右側表示にしただけというわけです。


一方、ggplot2の場合は、2軸グラフを描くときも、y軸のスケール(軸の最小値と最大値)はあくまで共通になります。今回の場合、y軸の縦幅はあくまで、1つめの変数y1の最小〜最大の幅に合わせた尺度で固定される感じになります。
じゃあ、そこにどうやって2つ目の変数を重ねるのかというと、両変数の縮尺を先に計算しておいて、2つ目の変数を1つ目の変数にあわせて縮めたり伸ばしたりして収めるわけです。
で、その後で、右側の軸のところに好きなように(ただし左軸からの変換という形で)目盛りを打つことができるので、この目盛りを、もとの第2変数に対応するものにしておけばよい。


少し分かりづらいですが、たとえば左の軸で表現したい第1変数が0〜10ぐらいのレンジで分布していて、右の軸で表現したい第2変数が0〜100ぐらいのレンジで分布してるとすると、縮尺は1:10になるので、

  1. グラフ領域はまず第1変数にあわせて、y軸が0〜10になるように描く。目盛りは左軸に表示される。
  2. 第1変数をプロットする。
  3. 第2変数を0.1倍して縮め、同じ領域に第2変数のグラフを重ねる。
  4. sec.axisというオプションをつかって、左軸を好きなように変換した軸を右側に設定することができるので、ここで「左軸を10倍する」という変換設定をする。
  5. breaksで目盛りも適当な間隔で設定する。


という手順で、2軸グラフが描かれるわけです。


以下の実行例では、さっき乱数でつくった変数をもっかい使ってるのですが、y1(左軸)y2(右軸)の縮尺を先に計算してscalerという変数に入れてあります。

# データフレームにまとめる
d <- data.frame(Date=x.date, Y1=y1, Y2=y2)

# 各軸の範囲をきめる
# yも最小値〜最大値の形で設定してよいが明示的に与えたい場合が多い気がする
x.lim  <- c(min(d$Date), max(d$Date))
y1.lim <- c(0, 4)
y2.lim <- c(0, 400)


# 左軸と右軸の関係を表すスケーラをつくる
# 各軸の最大最小差の比をとっている
scaler <- (y1.lim[2] - y1.lim[1])/(y2.lim[2] - y2.lim[1])

d %>% 
  ggplot() + 
  geom_bar(aes(x=Date, y=Y1), stat='identity', width=0.7) +
  geom_line(aes(x=Date,y=Y2*scaler, colour = "Y2"), size=1) +
  scale_x_date(date_labels="%m/%d",date_breaks="7 day", 
               limits=x.lim, expand=c(0, 0)) +
  scale_y_continuous(limit=y1.lim, expand = c(0, 0), 
                     sec.axis=sec_axis(trans = ~ ./scaler, 
                        breaks=seq(from=y2.lim[1], to=y2.lim[2], by=50), 
                        name="\nY2\n")) +
  theme(text=element_text(size=12, family="MS Gothic",color="black"),
        axis.text=element_text(size=10, family="MS Gothic",color="black"),
        legend.position="top",
        plot.subtitle=element_text(size=10, color="#666666")) + 
  labs(x="\nDate\n", y="\nY1\n", color = "",
       title='\nggplot2で重ねたグラフ', 
       subtitle='(折れ線を複数追加することもできます)')


f:id:midnightseminar:20200811214800p:plain


sec.axisの中のtransというところには、左軸と右軸の対応関係をformula形式で書くのですが、「.」はデータ全体を表してて、これをスケーラで割るという変換を設定してあります。
x軸が日付なので、scale_x_dateをつかって日付表示の設定をしています。
breaksってところで、右2軸の目盛りを設定しています。水平のグリッドがある場合、左軸の目盛りと右軸の目盛りが噛み合ってたほうが綺麗なので、最初にy1とy2の幅を設定する時に、いい感じの公約数がある値を選ぶのがいいと思います。
themeでフォントを指定してるのは、日本語を文字化けなく表示させるためです。


冒頭に貼った成果物のように、折れ線を2本引きたいときは、geom_line()をもう1個プラスすればいいですね。
グラフのタイトルや軸のタイトルの前後に改行(\n)を入れているのはなんとなく隙間を開けるためです。

*1:だから逆に、重ねる時にスケールが揃ってないことを忘れたりすることがありますねw

Macでスクリーンショットの保存先をショートカットキーで振り分ける

ツイッターで尋ねられて、自分でも気になったので設定してみました。
Macでスクリーンショットを撮るときに、ショートカットキーを工夫して、保存先を振り分ける設定です。
Macのスクリーンショットは、じつはいろいろオプションがあって、ウィンドウ単位で撮影するときに影をつけるかどうかとかも変えられるのですが、私は基本的には、


shift+command+3(全画面を撮影)
shift+command+4(インタラクティブモードで範囲を指定して撮影。space)


の2パターンしか使いません。
で、仮に用途に応じて2つのフォルダに振り分けたいとすれば、計4つのショートカットがあればいいことになります。振り分けるフォルダは、仮に、
"~Desktop/ScreenShot1"
"~Desktop/ScreenShot2"
だとしておきます。


どうやってショートカットをつくるかというと、

  1. 処理自体は、シェルスクリプトで書く
  2. Automatorで、そのシェルスクリプトを呼び出すService(Auromator上ではQuick Actionと呼ばれるのでややこしいが)を作っておく
  3. System Preferences(日本語環境の場合は「環境設定」) > Keybord > Shortcuts > Servicesで、さっきつくったサービスを呼び出すショートカットを設定する*1


という手順になります。
サービスってのは、たとえば↓の画像の場合だとFinderの歯車マークの中に並んでいる、様々な処理のことで、私は正確に理解してないですが「Mac上のいろいろな場面で、ワンクリックで呼び出せる処理」ぐらいに思っています。


f:id:midnightseminar:20200710143305p:plain


さて設定手順ですが、まずAutomatorで、New DocumentをQuick Actionとして立ち上げます。


f:id:midnightseminar:20200710142929p:plain


左のメニューの、Utilitiesから、Run Shell Scriptを、右のワークフローのところにドラッグします。その上にある設定欄は、一行目のinputを設定するところを、no inputにしときます。


f:id:midnightseminar:20200710142952p:plain


次にスクリーンショットを撮って名前を付けて保存する処理をbashで書きますが(上の画像ではもう書いてありますが)、スクリーンショットを撮るコマンドである"screencapture"の細かいオプション設定は下記を参考にしてください。
https://do-zan.com/mac-terminal-screencapture/


ここでは、4パターンのうち、インタラクティブモードで撮影し、ファイルをデスクトップの"ScreenShot1"というフォルダに保存するパターンだけやります。ファイル名は、頭に"sc"をつけて、その後に"20200710140230"(2020年07月10日14時02分30秒)みたいに日付と時刻を並べて、拡張子".png"をつけることにします。
1行目は時刻を取得して格納する処理です。
"-i"ってのが、インタラクティブモードを表すオプション設定。
その後ろは、要するに保存するファイルのパスですね。${current_time}でさっき取得した時刻をくっつけています。

current_time=`date +"%Y%m%d%H%M%S"`
screencapture -i ~/Desktop/ScreenShot1/sc${current_time}.png


これをAutomatorのスクリプトの欄に書いて、たとえば"ScreenShot(Interactive-ScreenShot1)"という名前で保存します。


次に、System Preferences(日本語環境の場合は「システム環境設定」) > Keybord > Shortcuts > Servicesに進むと、一覧の下のほうに、さっきつくった"ScreenShot(Interactive-ScreenShot1)"がありますので、


f:id:midnightseminar:20200710143729p:plain


その右のAdd Shortcutっていうボタンをクリックして、例えば
shift+command+7
と押します。すると、下記のように、ショートカットが登録されます。
(なお、shift+command+6のショートカットは、タッチバーを撮影する機能に割り当てられてて使えませんでした。)


f:id:midnightseminar:20200710143751p:plain


さっきつくったサービス(クイックアクション)を修正したい場合は、
~/Library/Services
という場所にファイルが保存されてるので、それをAutomatorで開いて編集すればいいです。(さっきショートカットを設定した画面から右クリックでもその場所が開けます)


で、さっそく
shift+command+7
を押してみたときに、保存先のフォルダが事前に作成されてないとエラーになります。
あと、場合によっては、スクリーンショットを撮る権限を、Automatorに与えないといけないです。↓のように、システム環境設定の、Security & PrivacyのScreen Recordingの権限を、Automatorに与えます。
これで完了です。


f:id:midnightseminar:20200710143143p:plain


なお新しいサービス(Quick Action)をAutomatorで作成したのに、ショートカット設定画面の一覧に出てこない場合は、システム環境設定のウィンドウをいったん落として開き直すと、出てきたりします。
あと、このやりかただと、まずないとは思いますが1秒以内に2回撮影すると、1回目のは上書きで消えてしまいます。

*1:私はMacの言語設定を英語にしてるのですが、英語の勉強のためでも、カッコつけてるわけでも、ましてや英語のほうが理解しやすいからでもなく、分からないことを調べるときに英語の機能名称とかでググったほうが圧倒的に情報が多いからです。一時期、なぜか英語設定にしてないと無料版がインストールできないソフトとかがあったってのもありますが。

Pythonでよく忘れる、よく間違える書き方

  • Pandasのデータフレームは、=でコピーしようとすると、コピーじゃなくて参照渡しになるので、コピーしたつもりのdfを処理すると元のdfも処理されてしまう。df2 = df1.copy()とするのを忘れないように。
  • Pandasで要素がNaNかどうかを判定させようとする時、要素を指定してその後ろに.isnull()メソッドを使うんじゃなくて、データフレームに.isnull()を実行してそのあとで要素を指定する。
df.isnull().iloc[1,1]
  • リストのappendは、直接編集するメソッドなので、=で代入しなおさなくてよい。(リンク
  • リストをソートする時も、.sort()をつけるだけで、代入はしなおさなくてよい。
  • Pandasから.to_csvするとき、「quoting=csv.QUOTE_NONNUMERIC」という引数をつけると文字列のフィールドは""をつけることができるが、これは事前にimport csvしてないといけない。
  • リストの要素を置換する時、置換対照表を辞書にしておいて内包表記を使うと簡単にかけたりする。
X = ['あ','い','あ','あ','う','え','お','あ']
Y = {'あ':'ア','お':'オ'}
X2 = [Y[x] if x in Y.keys() else x for x in X]
print(X2)
  • listをユニークにするには、NumPyなら.unique()が使えるが、setにしてからlistに戻せばユニークにはなる。順序は崩れるので注意。
unique_list = list(set(original_list))
  • 数値をゼロ埋め(ゼロパディング)した文字列がほしい時は、数字を文字列にしてから、たとえば.zfill(3)とつけるとゼロ埋め3桁の数字(文字列だけど)になる。
  • Rばかりやってると間違えるのだが、Pythonでは代入はオブジェクトのコピーを意味せず、名前が増えるだけとなる。つまり、代入した先の変数名に対して編集すると、元のオブジェクトが編集されてしまう。
x1 = [1,2,3,4,5]
x2 = x1
x2.remove(3)
print(x1)
print(x2)
[1, 2, 4, 5]
[1, 2, 4, 5]
  • andとorを組み合わせると、andが優先(先にくくられる)なので、A and B or C and Dだと(A and B) or (C and D)の意味になる。明示的に優先させたければ()でくくる。
  • nanとnanは==マッチしないので、nanかどうか判定するにはmath.isnan()を使う必要がある。
  • object型の列は、中に複数種類のデータ型が含まれている可能性がある。特に、pandasで文字列型の列を読み込むとobject型になるが、nanを含んでいる場合、そのnanが別の型になってたりとか。
  • torch.tensorの次元や長さについて。
# 次元数の確認(何重の入れ子になってるか)
x.dim()
x.ndimension()
x.ndim

# 各次元ごとのサイズを確認(外側の次元から順番に要素数が表示される)
x.size()  # numpy.arrayだとこれでバラしたときの要素数が返る?ので注意
x.shape

# 要素数(次元をバラしたときの要素数)
x.numel()
x.nelement()
  • 文字列の出力を、下に並べていくんじゃなくて上書きさせたいときは、キャリッジ・リターンで先頭に戻す動きをすればよい。(前の出力のほうが長くてケツのほうが残ったりするのを避けるには、スペースで埋める。)
for i in range(100):
    print(f'{i}週目です', end='\r')
    time.sleep(5)
  • データフレームを複数の条件でソートするとき、Rと違って、高階層側(外側)の条件を先に書く。以下のようにすると、全体としてはmatch_id順に並んでいて、同じmatch_idの中でplayer名順に並ぶようになる。Rとかエクセルだと内側から先にソートするので注意。
d2 = d2.sort_values(by=['match_id','player'], ascending=True)
  • pandasのデータフレームをソートしたあと、reset_index(drop=True)しておかないと、順番は代わってるのにインデックスのラベルはもとのままになっているので、あとでおかしなことになる。
d2 = d2.sort_values(by=['match_id','player'], ascending=True)
d2 = d2.reset_index(drop=True)