StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

2022-12-01から1ヶ月間の記事一覧

Rの正規表現でURLを抽出

正規表現でURLを表現する方法は、ググるといろんな人がエントリにしているが、Rでやる場合は以下のようにする。 '以外のエスケープの\を重ねることや、perlをTRUEにするのを忘れないように。 grep('https?://[\\w!\\?/\\+\\-_~=;\\.,\\*&@#\\$%\\(\\)\'\\[\\…

文章を「カギ括弧に挟まれている場合以外は句点で区切る」のってどうすればいいの?

日本語のパラグラフをセンテンス単位に分割するのって、もちろんいろんなパターンをプログラムで書いていけばできると思うのだが、シンプルなコードでやろうとすると、どうなるんだろうか。 普通に考えると、 「。」で区切る 「?」や「!」でも区切る(これ…

AWSのR4.0.2に{devtools'}が入らない

AWSに設置したRStudio Serverで{devtools}のインストールに失敗し、以下のように依存関係のエラーが出る。(途中の行を省略している) > ERROR: configuration failed for package ‘textshaping’ > ERROR: dependency ‘textshaping’ is not available for pa…

Rで{snow}と{parallel}の並列化を少し試してみた

Rで計算を高速化したいとき、 なるべくベクトル計算にしてforで頭からみていくような処理を避ける 自作関数をコンパイルする 並列化(マルチコアの利用) などの手法があり、ベクトル化とコンパイルに関してはケースによって何が有効かというのは難しい。 た…

MeCabとRMeCabのインストール、NEologd辞書への変更、ユーザ辞書登録をやり直す(Mac OS)

形態素解析エンジンのMeCab(およびRMeCab)をEC2上の新しい環境に入れる必要が生じたので、 MeCabのインストール IPA辞書のインストール RMeCabのインストール NEologd辞書のインストールとシステム辞書の変更 ユーザ辞書の作成、コンパイル、登録 の手順を…