2022-12-01から1ヶ月間の記事一覧
正規表現でURLを表現する方法は、ググるといろんな人がエントリにしているが、Rでやる場合は以下のようにする。 '以外のエスケープの\を重ねることや、perlをTRUEにするのを忘れないように。 grep('https?://[\\w!\\?/\\+\\-_~=;\\.,\\*&@#\\$%\\(\\)\'\\[\\…
日本語のパラグラフをセンテンス単位に分割するのって、もちろんいろんなパターンをプログラムで書いていけばできると思うのだが、シンプルなコードでやろうとすると、どうなるんだろうか。 普通に考えると、 「。」で区切る 「?」や「!」でも区切る(これ…
AWSに設置したRStudio Serverで{devtools}のインストールに失敗し、以下のように依存関係のエラーが出る。(途中の行を省略している) > ERROR: configuration failed for package ‘textshaping’ > ERROR: dependency ‘textshaping’ is not available for pa…
Rで計算を高速化したいとき、 なるべくベクトル計算にしてforで頭からみていくような処理を避ける 自作関数をコンパイルする 並列化(マルチコアの利用) などの手法があり、ベクトル化とコンパイルに関してはケースによって何が有効かというのは難しい。 た…
形態素解析エンジンのMeCab(およびRMeCab)をEC2上の新しい環境に入れる必要が生じたので、 MeCabのインストール IPA辞書のインストール RMeCabのインストール NEologd辞書のインストールとシステム辞書の変更 ユーザ辞書の作成、コンパイル、登録 の手順を…