たまに、2つの相関係数が有意に異なるのかや、1つの重回帰モデル中の2つの回帰係数が有意に異なるかを示せると、主張が通りやすいという場面がある。 まぁ、あまり必要になることはないのだが、相関係数の差の検定や回帰係数の差の検定について、日本語で…
不偏分散の平方根を取っても不偏標準偏差にはならないという話があり、私は不真面目な研究者なのでそもそもそんなこと考えたこともなかったですが、知り合いが「数学的な導出はみれば分かるが、“平方根を取っては駄目な理由”が直観的に理解できなくて気持ち…
Rのループで使えるプログレスバーは、いくつかのパッケージで提供されているみたいなのですが、自分で書くのも簡単なので、単純な関数でつくってみた。 進捗が知りたいのは時間のかかる処理をするときであり、時間がかかるなら無駄な計算は省きたいので、ル…
ツイッターのライムラインで、forループをapplyに置き換えた場合の高速化の話が流れていて(こちら)、気になって検索したところ、applyよりむしろwithを使えと言っている人がいた。 r - apply() is slow - how to make it faster or what are my alternativ…
ggplot2で2軸のグラフを描くときは、先日のエントリでも書いたように、ggplot2自身は左軸(第1軸)と右軸(第2軸)を別々の情報として持つことはできないので、左軸と右軸の尺度の違いを自分で設定して変換しなければならない。 あとで使いまわすので、この…
最近になって遅ればせながらggplot2を頻繁に使うようになってきました。 で、↑こういうふうに、折れ線の端っこにラベルを置きたいと思いました。白黒の記事原稿で4本もの折れ線を重ねるのは見づらいのでそもそもやめたほうがいいですが、人生いろいろあるわ…
さっき、Rで棒グラフと折れ線グラフを重ねたものを作ろうとして、けっこう手間取りました。最終的に描いたのは↓のようなものなのですが。 「2軸グラフの書き方」「種類の異なるグラフの重ね方」についていろいろ調べたところ、barplot()とplot()を組み合わせ…
ツイッターで尋ねられて、自分でも気になったので設定してみました。 Macでスクリーンショットを撮るときに、ショートカットキーを工夫して、保存先を振り分ける設定です。 Macのスクリーンショットは、じつはいろいろオプションがあって、ウィンドウ単位で…
Pandasのデータフレームは、=でコピーしようとすると、コピーじゃなくて参照渡しになるので、コピーしたつもりのdfを処理すると元のdfも処理されてしまう。df2 = df1.copy()とするのを忘れないように。 Pandasで要素がNaNかどうかを判定させようとする時、要…
めちゃくちゃ簡単なしょうもない内容ですが、あとで個人的に使うので、ジニ係数を出す簡単な関数をメモしておきます。 ここでは例として、都道府県の人口データのジニ係数を出してみます。 データを小さい順に並べて、都道府県数の累積(これは単順番を表すi…
Rでの季節調整をやってみます。 季節調整は、arima関数のseasonal引数を指定したSARIMAモデルや、stl関数でできてそっちは簡単なのですが(参考1・参考2・参考3)、一般的にアメリカ商務省センサス局の「X-12-ARIMA」とか「X-13ARIMA-SEATS」とかが有名なの…
GDPは「四半期速報値」というのが作成されており、前の四半期との比(たとえば2019年7-9期と10-12月期の比)を4乗したものが、「年率換算」の成長率として報道などで使われている。最新の速報では、2019年10-12月期の実質GDPが、年率換算でマイナス7.1%と大…
Mac OS(最近はmacOSというらしいが)のディスクユーティリティでパーティションを変更しようとするとき、よくわからない現象に直面することがたまによくあります。 下記の記事のように、一部のボリュームが消してくても消せない(マイナスボタンがない)状…
初歩的な話ですが、今日学生から訊かれたので例を考えてみました。 AICがマイナスの値になってもいいんだっけ?みたいな話です。 AICがマイナスに 統計モデルの最尤推定をする場合、尤度は1より小さい場合が多く、したがって対数尤度が負である場合が多いと…
以前、reserchmapにCSVでデータを投入するときの注意点を書きました。 researchmapにCSVで論文のデータを投入するときの注意点 - StatsBeginner: 初学者の統計学習ノート 私は論文の業績はあまり無いので(笑)管理が楽なのですが、一般の雑誌に書いてる文章…
学生の分析を手伝っていたところ、突然、Rでピボットテーブルみたいな集計をしたくなりました。 度数分布表はtable関数でつくれますが、ピボットテーブルってどうやるのかな、と。 ググるといろいろやり方が出てきますが、とりあえず、{dplyr}のgroup_byと{t…
plmパッケージとpanelvarパッケージ 最近、パネルデータを扱うことが増えてきたのだが、パネルデータで動学的な(つまりt-1期とかのラグ項が出てくる)分析をやろうとすると最小二乗法ではなくGMM推定量を用いる必要がある。 備忘として、動学的パネルデータ…
よく忘れることのメモです。 NAかどうかの判定にはx==NAとかではなくis.na(x)を使う 要素に含まれるかどうかの判定は、%in%かis.element()を使う。これはデータ全体の中から何かを抽出するときの条件を複数条件にしたい場面でも使えるときがある。(たとえば…
さっきハマったエラーを解決したので、備忘のためのメモです。 RStudioとRの両方で試したのですが、{panelvar}というパッケージをインストールしようとしたら、依存パッケージのコンパイルのエラーがでて進めなくなりました。 最初、Rの古いバージョンでやっ…
Macで画像ファイルをまとめてPDFにしたいとき、従来はAutomatorを使ってワークフローを組んでいました。 ところが、いつからか知らないですが、OSに標準でそういう機能が付けられていたようです。 ついさっき、ある人から、とある論文のPDF入手を頼まれたの…
とある雑誌の連載記事に、 言葉というものは曖昧かつ不安定で捉えにくい対象であることもあって、とりわけ現代思想ブームが終焉し実証的社会科学が隆盛を極めているここ三十年ほどの間は、言語理論への関心は総じて低調であったと言える。「言語論的転回」は…
Rのts型(時系列型)のデータについているインデックス("1980 Q1"みたいな)を、文字列情報として取り出す方法が、ぱっとググって分からなかったのですが、とりあえず以下のようにしたらできました。 > library(vars) > data(Canada) > > t <- as.yearqtr(i…
以前も書いたんですが、p値が0.05を下回るかどうかにとらわれる慣習を問題視する人が最近は増えてきていて、たしかにその理由はよく理解できる一方で、p値が過剰にバッシングされている気もします。しかしそんなことより、個人的には、なぜ統計的有意性の判…
昨日のエントリで、テキストエディタの「CotEditor」のスクリプト機能の使い方を書きました。その機能をつかって、濁点・半濁点が分離してしまったテキストを元に戻すツールを作ります。 こういうやつをなんとかしたいわけです。 原因がよくわからないし、悩…
Macでテキストエディタを使うならCotEditorがいいと昔から思っているのですが、CotEditorには、ショートカットの処理とか、あるいは編集中のテキスト上にファイルをドラッグ&ドロップしたときに自動的にテキストを入力するような処理を、自分で追加していけ…
先日、『gretlで計量経済分析』という本に載っている二段階最小二乗法の演習をRでやってみるエントリ(リンク)を書いたのですが、同じ本の次の章は「マクロ計量モデル入門」となっていて、1980年から2009年までの日本経済のデータを用い、5本の構造方程式と…
ResearchmapにCSVで論文のデータを投入するときの注意点として、 英語のタブからダウンロードしたフォーマットを使っているなら、英語のタブからインポートしなければならない。 説明書きに、情報がないセルにはnullを入れろと書いてあるが、べつに入れなく…
『gretlで計量経済分析』という教科書があって、入門的な統計分析を非常にわかりやすく解説していると思いました。 学部レベルの人に統計分析を教える上では、関心の対象が政治や経済なのであれば、こういう「経済ネタ」で統計学が学べる本が良いのかもしれ…
採用の当事者へヒアリング さっき就活エントリを書いたついでに、10年ぐらい前に別のブログに書いたネタを再掲しておこう。 食品会社や製薬会社を狙って研究・開発職志望で就職活動を始めた▲▲大学のA子さんから、エントリーシートの書き方とか面接での自己…
「文系の院生」は就活で不利? とある就活サイトの人から、リレーブログみたいなものへの参加を依頼されたので、今日は統計ではなく就活の話を書くことにします。この記事は主に企業への就職の話ですが、面接対策の部分は公務員であれ何であれ同じようなこと…