StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

2015-01-01から1年間の記事一覧

作業&勉強メモ: Pythonで指定したディレクトリ配下のディレクトリ名とファイル名を取得する

ちょっとした作業のメモです。わたし初心者ですのでヘンなことをやってる可能性あります。 指定したディレクトリ配下のディレクトリ名やファイル名を取得しようと思い、↓のページを参考に作業しました。 qiita.com ただ、以下のような変更を行いました。 リ…

Macに入れた各種Pythonを全部アンインストールしてAnacondaを入れなおす

Pythonいろいろ入れすぎた Python3を単独で入れてみたり、Canopyを入れたりAnacondaを入れたり、Spyderを入れたらその中にもPythonが入っていたり・・・と、わけがわからなくなってきたので、いったんMacに標準で入っているもの以外は全部アンインストールし…

Spyder(PythonのIDE)を入れてみたところ、とても使いやすい

Pythonを使う時、なんとなく、Canopy ExpressっていうIDEを使ってました。 あまり深い理由はなく、オライリーの『Pythonによるデータ分析入門』でCanopy使いましょうって書いてあったり、IPythonのインストール解説ページにいくと、IPythonを使いたいなら単…

【作業メモ】テキストファイルの行の先頭の記号を消したい(RとPython)

すごい初歩的なテキストの処理作業のメモです。 Pythonのクラスに関する↓の記事を読んでいたのですが、 http://www.shido.info/py/python7.html この記事に書かれてある「code 1」「code 2」を自分でも実行してみようと思ってコピペしようとすると、各行の先…

Pythonの"Tweepy"でTwitter APIから取得したデータを読んでみる

[追記] このエントリを書いた後、レスポンスデータの読み方について別途詳しくエントリにまとめました。 www.statsbeginner.net [/追記] 前回のエントリで、PythonのTweepyライブラリを導入し、TwitterのAPIをいじることができるようになりました。 statsbeg…

Tweepyを使って、PythonでTwitterのAPIを超簡単に操作する

PythonでTwitterのAPIを触りたい PythonでTwitterのAPIを操作し、検索の自動化による情報収集・解析とか、自動でつぶやくbotの作成を可能にしたい。 そこでTweepyというライブラリを使うと、とても簡単に態勢が整いました。10行以内のコードで準備が終わりま…

RMeCabで単語に品詞を振る作業

前回のエントリで書いたように、外国人向け日本語教科書に登場する単語の分析をしている友人の作業を手伝うために、形態素解析エンジンMeCabのインストールと、RMeCabのインストールを行いました。 今回は、その手伝い作業の内容について書いておきます。 そ…

形態素解析エンジンMeCabの導入と、R及びPythonからの利用(Macの場合)

MeCabで形態素解析 外国人向けの日本語教育の研究をしてる友人がいて、海外での教材出版などを私も共著者として数回手伝ったりしたのですが、彼が20冊ぐらいの日本語教科書の本文に出てくる単語をひたすらエクセルに入力した表を持っていて、それに品詞名を…

レコード・CD・有料ダウンロード等の販売量推移のグラフ

音楽コンテンツの媒体別販売量の推移が気になって昔グラフにしてたのを久しぶりにみつけたので、2014年まで数字を入れて更新しておいた。 元データはここです。 一般社団法人 日本レコード協会|各種統計 有料ダウンロード件数については「有料音楽配信売上…

「人工知能」はやはり「懐かしい言葉」だった――1980年以降の新聞等に出てくる頻度の推移

ディープラーニングやら何やらの隆盛によって、「人工知能」に関する記事がネット上でも増えていますね。 7月に入ってからはてブで50ブクマ以上いってる記事だけでもこんだけある。 人工知能マシン、人間のしつこい質問にキレる--グーグルの実験より - CNET…

『入門 機械学習』第4章:「重要なメール」を特定する

前置き 本エントリはオライリーの『入門 機械学習』の学習メモです。入門 機械学習作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也出版社/メーカー: オライリージャパン発売日: 2012/12/22メディア: 大型本購入: 2人 クリック: 41回…

RでTwitterのデータを分析するための準備(2015年6月現在のやり方)

RでTwitterを触る方法 Twitterのデータを分析しようと思って、手始めに{twitteR}というパッケージを触ってみました*1。 導入前にやることがいくつかあるのですが、ググって出てきた解説サイトに書いてあったとおりにやってみると失敗して数時間苦しみました…

『入門 機械学習』第3章:ベイズスパム分類器の作成

けっこうやっかいな教科書 オライリーの『入門 機械学習』という教科書を、半年ぐらい前に3分の1ぐらい読んで、内容をまとめたりはせずにほっといたのですが、このたび実際にRでコードを写経しながら走らせてみたりしたので、学習ノートとしてエントリを起…

Rによる分散分析でタイプIII平方和を使う時の落とし穴

デフォルト設定ではダメ 先日、RでタイプIII(タイプ3)平方和を使う方法についてエントリを書いた直後に、落とし穴があったことに気づいて、まとめたエントリを書こうと思ったんですが、勉強が進んでなくてあまりきちんと理解できておりません。しかし放置…

南風原朝和『続・心理統計学の基礎』(有斐閣)

私は、南風原朝和著『心理統計学の基礎』の大ファンです。心理学の研究をするしないにかかわらず「文系の人間が、統計学をきちんと使えることを目指して初歩から勉強する」場合の、最初のテキストとして「神レベル」だと思っています。 その続編が昨年末につ…

Rで平方和のタイプを選ぶ

年末年始にやっていた実験データの分析の中で、分散分析を何回も行ったのですが、Rで分散分析をやるときに基本関数では平方和のタイプを選べないんですよね。 簡単な内容なのですが、平方和のタイプを選びながら分析する方法を、メモしておきます。 あわせて…

どちらも一長一短の「短時間集中 vs 長時間ダラダラ」

効率的なコードが書けない 年末年始、帰省してたのですが、12/28〜1/2ぐらいまで、実家の部屋にこもってずっと実験データの分析をやっていました(たまに家族で食事に出かけたりした)。 まともな体勢で寝た日が1日ぐらいしかなく、机の後ろにベッドがある…