StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

数学を勉強しても役に立たないが、「数学化」を学ぶことは役に立つ?――フロイデンタールの数学教育論

数学は役に立つのか 数学は何の役に立つのか?という、よくある疑問についてのエントリを読みました。 「数学は役に立つ/立たない」について思うこと - 34歳からの数学博士 「数学が何の役に立つ?」と疑っている人でも、数学が本当に何の役にも立ってない…

統計メモ:因子分析で斜交回転を行っても、共通性の値は変わらない

2年ぐらい前にブログに書こうと思って、下書きしたまま放置してたネタを見つけました。 今となっては単なる思い出なのですが、せっかくなのでエントリにしておきます。 当時、因子分析における「共通性」の扱いについて勘違いをしていました。 プロマックス…

ボタンを「押下(おうか)する」という言い方はかなり昔から存在していた(文献引用つき)

「押下する」は変な日本語? IT業界でよく使われる「押下(おうか)する」という言葉について考察したQiitaの記事が話題になっておりました。 qiita.com ブコメをみると「変な日本語だと思ってた」的なコメントが散見されましたが、実際、SIerの人とかと仕事…

社会人学生として博士号を修得したのでメモ

先日、社会人学生として4年間在籍した大学から博士(工学)の学位を授与されました。 ひょっとしたら社会人として大学院進学を目指す人の参考になるかもしれないので、資料としてこれまでの過程や気づいたことをメモしておこうと思います。私も以前、社会人…

質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか

アンケート調査なんかで、 Q1. STAP細胞はあります。 □ とてもそう思う □ そう思う □ ややそう思う □ どちらでもない □ あまりそう思わない □ そう思わない □ 全くそう思わない というような質問紙を作成してデータをとり、「とてもそう思う」を7点、「全く…

Pythonのリスト内包表記みたいなのをRで書く方法(とおまけ)

Rの小技 Rでデータ分析するときに最近よくやる書き方があるのですが、よくやるといいながら1か月とか間が開くと忘れているので、メモしておきます。 2個あるのですが、1個目は将来ネットで検索して役に立ててくれる人がいるかもしれないので、1個目の小技…

統計的仮説検定の「p値」にこだわってはいけないのか

(タイトルにやや語弊ありますが、「こだわってはいけない」というような禁止的な議論をしている人とか、「p値はもはや完全に無意味である」というような極端な主張をしている人がいるわけではないということは理解しています。) 検定のロジックはけっこう…

ネットワーク分析ライブラリiGraphをPythonから使うための準備(Macの場合)

ネットワーク分析のツール ネットワーク分析ってありますよね。 表面的な理解としては、こんな風情の図を描いたりするやつです。 頂点(node, vertex)と、頂点を結ぶ線(link, edge)の集まりとしての「グラフ」の性質を記述するグラフ理論というものがあっ…

日本語と英語の、難易度が高い形態素解析の例

小ネタです。 すもももももももものうち 昨日、日本語形態素解析エンジンMeCabに関するエントリを書きました。 statsbeginner.hatenablog.com ところで、MeCabの公式サイト(リンク)にいくと、インストール完了後のテストとして「すもももももももものうち…

形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合)

MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されてい…

Rメモ: 分散分析で交互作用を可視化するときのあのグラフを、Rで描きたい

交互作用の可視化 心理学(に限らないが)で分散分析を行う場合に、交互作用を可視化することなどを目的として、折れ線のグラフが作られることがありますよね。 主に2要因の場合で、水準数もさほど多くないときに、第1の要因をX軸に、第2の要因は線の種類…

作業&勉強メモ: Pythonで指定したディレクトリ配下のディレクトリ名とファイル名を取得する

ちょっとした作業のメモです。わたし初心者ですのでヘンなことをやってる可能性あります。 指定したディレクトリ配下のディレクトリ名やファイル名を取得しようと思い、↓のページを参考に作業しました。 qiita.com ただ、以下のような変更を行いました。 リ…

Macに入れた各種Pythonを全部アンインストールしてAnacondaを入れなおす

Pythonいろいろ入れすぎた Python3を単独で入れてみたり、Canopyを入れたりAnacondaを入れたり、Spyderを入れたらその中にもPythonが入っていたり・・・と、わけがわからなくなってきたので、いったんMacに標準で入っているもの以外は全部アンインストールし…

Spyder(PythonのIDE)を入れてみたところ、とても使いやすい

Pythonを使う時、なんとなく、Canopy ExpressっていうIDEを使ってました。 あまり深い理由はなく、オライリーの『Pythonによるデータ分析入門』でCanopy使いましょうって書いてあったり、IPythonのインストール解説ページにいくと、IPythonを使いたいなら単…

【作業メモ】テキストファイルの行の先頭の記号を消したい(RとPython)

すごい初歩的なテキストの処理作業のメモです。 Pythonのクラスに関する↓の記事を読んでいたのですが、 http://www.shido.info/py/python7.html この記事に書かれてある「code 1」「code 2」を自分でも実行してみようと思ってコピペしようとすると、各行の先…

Pythonの"Tweepy"でTwitter APIから取得したデータを読んでみる

[追記] このエントリを書いた後、レスポンスデータの読み方について別途詳しくエントリにまとめました。 www.statsbeginner.net [/追記] 前回のエントリで、PythonのTweepyライブラリを導入し、TwitterのAPIをいじることができるようになりました。 statsbeg…

Tweepyを使って、PythonでTwitterのAPIを超簡単に操作する

PythonでTwitterのAPIを触りたい PythonでTwitterのAPIを操作し、検索の自動化による情報収集・解析とか、自動でつぶやくbotの作成を可能にしたい。 そこでTweepyというライブラリを使うと、とても簡単に態勢が整いました。10行以内のコードで準備が終わりま…

RMeCabで単語に品詞を振る作業

前回のエントリで書いたように、外国人向け日本語教科書に登場する単語の分析をしている友人の作業を手伝うために、形態素解析エンジンMeCabのインストールと、RMeCabのインストールを行いました。 今回は、その手伝い作業の内容について書いておきます。 そ…

形態素解析エンジンMeCabの導入と、R及びPythonからの利用(Macの場合)

MeCabで形態素解析 外国人向けの日本語教育の研究をしてる友人がいて、海外での教材出版などを私も共著者として数回手伝ったりしたのですが、彼が20冊ぐらいの日本語教科書の本文に出てくる単語をひたすらエクセルに入力した表を持っていて、それに品詞名を…

レコード・CD・有料ダウンロード等の販売量推移のグラフ

音楽コンテンツの媒体別販売量の推移が気になって昔グラフにしてたのを久しぶりにみつけたので、2014年まで数字を入れて更新しておいた。 元データはここです。 一般社団法人 日本レコード協会|各種統計 有料ダウンロード件数については「有料音楽配信売上…

「人工知能」はやはり「懐かしい言葉」だった――1980年以降の新聞等に出てくる頻度の推移

ディープラーニングやら何やらの隆盛によって、「人工知能」に関する記事がネット上でも増えていますね。 7月に入ってからはてブで50ブクマ以上いってる記事だけでもこんだけある。 人工知能マシン、人間のしつこい質問にキレる--グーグルの実験より - CNET…

『入門 機械学習』第4章:「重要なメール」を特定する

前置き 本エントリはオライリーの『入門 機械学習』の学習メモです。入門 機械学習作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也出版社/メーカー: オライリージャパン発売日: 2012/12/22メディア: 大型本購入: 2人 クリック: 41回…

RでTwitterのデータを分析するための準備(2015年6月現在のやり方)

RでTwitterを触る方法 Twitterのデータを分析しようと思って、手始めに{twitteR}というパッケージを触ってみました*1。 導入前にやることがいくつかあるのですが、ググって出てきた解説サイトに書いてあったとおりにやってみると失敗して数時間苦しみました…

『入門 機械学習』第3章:ベイズスパム分類器の作成

けっこうやっかいな教科書 オライリーの『入門 機械学習』という教科書を、半年ぐらい前に3分の1ぐらい読んで、内容をまとめたりはせずにほっといたのですが、このたび実際にRでコードを写経しながら走らせてみたりしたので、学習ノートとしてエントリを起…

Rによる分散分析でタイプIII平方和を使う時の落とし穴

デフォルト設定ではダメ 先日、RでタイプIII(タイプ3)平方和を使う方法についてエントリを書いた直後に、落とし穴があったことに気づいて、まとめたエントリを書こうと思ったんですが、勉強が進んでなくてあまりきちんと理解できておりません。しかし放置…

南風原朝和『続・心理統計学の基礎』(有斐閣)

私は、南風原朝和著『心理統計学の基礎』の大ファンです。心理学の研究をするしないにかかわらず「文系の人間が、統計学をきちんと使えることを目指して初歩から勉強する」場合の、最初のテキストとして「神レベル」だと思っています。 その続編が昨年末につ…

Rで平方和のタイプを選ぶ

年末年始にやっていた実験データの分析の中で、分散分析を何回も行ったのですが、Rで分散分析をやるときに基本関数では平方和のタイプを選べないんですよね。 簡単な内容なのですが、平方和のタイプを選びながら分析する方法を、メモしておきます。 あわせて…

どちらも一長一短の「短時間集中 vs 長時間ダラダラ」

効率的なコードが書けない 年末年始、帰省してたのですが、12/28〜1/2ぐらいまで、実家の部屋にこもってずっと実験データの分析をやっていました(たまに家族で食事に出かけたりした)。 まともな体勢で寝た日が1日ぐらいしかなく、机の後ろにベッドがある…

「学術論文の元データはどれぐらい他人が入手可能なのか?」について調査した論文

今日、知り合いのFacebookで、以下の記事がシェアされていました。 「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース 内容はタイトルのまんまで、特に思うこともないんですが、これ読んで、ある研究を思い出しました。 Vin…

人工知能に関する番組と、素人的に気になること

松尾豊氏のインタビュー動画 マル激(videonews.com)で、人工知能の研究をしている東大の松尾豊准教授のインタビューが放送されていたので、通勤時間にみました。私は会員なのでいつも有料放送もみてますが、これは無料の回なので、YouTubeに全部のっていま…