StatsBeginner: 初学者の統計学習ノート

統計学およびR、Pythonでのプログラミングの勉強の過程をメモっていくノート。たまにMacの話題。

2014-01-01から1年間の記事一覧

「学術論文の元データはどれぐらい他人が入手可能なのか?」について調査した論文

今日、知り合いのFacebookで、以下の記事がシェアされていました。 「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース 内容はタイトルのまんまで、特に思うこともないんですが、これ読んで、ある研究を思い出しました。 Vin…

人工知能に関する番組と、素人的に気になること

松尾豊氏のインタビュー動画 マル激(videonews.com)で、人工知能の研究をしている東大の松尾豊准教授のインタビューが放送されていたので、通勤時間にみました。私は会員なのでいつも有料放送もみてますが、これは無料の回なので、YouTubeに全部のっていま…

検定の繰り返しと多重比較について(追記あり)

真ん中らへんに追記しました。 多重比較とは たとえば学校のクラスがA〜Bの3つあって、それぞれの国語のテストの平均値を比較して、「クラスによって国語の成績は異なるかどうか」を調べるときに、とりあえず分散分析を行いますね。しかし分散分析でクラス…

日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな…

Rの練習: fisher.test()でメモリが足りなくなる

ちょっとしたデータをカイ二乗検定しようとすると、往々にして、期待度数が5に満たないセルが存在するせいで警告が出ます。 > print(d) Group.1 Group.2 Item.1 3 2 Item.2 9 12 Item.3 32 41 Item.4 68 74 Item.5 90 91 Item.6 35 32 Item.7 17 4 > chisq.…

信頼区間の意味と、Rのpredict()関数の使い方の注意点

信頼区間とはなんぞやというのをメモしておこうと思って、簡単なデータで回帰分析を行って図をつくろうかと思ったら、Rのpredict()関数の使い方に落とし穴があったので復習がてらメモ……。 とりあえず単回帰分析する Rの練習用データセット「cars」をつかいま…

首相の「血液型O型」の割合は日本人の平均より有意に多い(産経新聞の記事の数字を検定してみる)

血液型と性格の関係 産経新聞のネット記事で、首相の血液型はO型が多いということや、増税する首相はB型が多いといったことが書かれていました。 この一覧表をみてみると、興味深いことがいくつか浮かび上がってきました。 1つは、O型が突出して多いとい…

『Pythonスタートブック』第6章

全然、Pythonを勉強する時間が取れず、滞っていますw とりあえず、『Pythonスタートブック』の第6章だけやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…

文系がゼロから統計を勉強するときに最初の1年で読むべき本

最初の1年で読むべき本を考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計の本ってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、ま…

Rの練習: 因子分析の分析対象から除去すべき項目を割り出すプログラムを書いてみる

心理学で心理測定尺度の因子分析を行う際に、30項目なら30項目の質問を並べて「とても当てはまる」〜「全く当てはまらない」までの7段階の回答を取り、7点〜1点を割り振って、因子分析を行うことがよくあります。 で、たとえば仮説によって「3因子」の構造…

『Pythonスタートブック』第5章をやりました

教科書第5章をやる 昨日は、『Pythonスタートブック』第5章をやりました。進みが遅いですが、まぁ、何かの合間にやってる程度なので…。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック…

Rメモ: サイズの大きいcsvファイルを読み込むときはdata.tableを使う

私はcsvをRに読み込むときはread.csv()でやってたわけですが、↓のような解説を読むと、どうやら大きなデータを読み込むときにread.csv()とかやってる奴は論外らしい。 data.tableパッケージで大規模データをサクッと処理する Rで高速に大量データを読み込ん…

Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点

Rで、CSVのデータを読み込んだり書き出したりするときに、引数をちゃんと設定してなくてミスることがありますね。 いやべつに大したことではなくて、私のような初心者レベルですら「当たり前」なことではあるんですが、今日あるデータを分析してて一部ミスっ…

Pythonの勉強(実質2日目くらい)を再開

勉強再開 先週のエントリで入門してすぐ1週間ぐらい放置してしまいましたが、今日少しだけPythonの勉強をやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…

勉強会:主成分分析・因子分析(金明哲『Rによるデータサイエンス』)

今回の勉強会 こないだの日曜日は友人とやっている週次の統計勉強会で、金明哲『Rによるデータサイエンス』の主成分分析の章と因子分析の章を扱いました。 Rによるデータサイエンス - データ解析の基礎から最新手法まで作者: 金明哲出版社/メーカー: 森北出…

因子分析の結果の見方がよくわからないのでYahoo!知恵袋で質問してみた

Yahoo!知恵袋にはいろいろお世話になってるのですが、因子分析の結果の見方についてよく分からないことがあったので、質問してみました。 http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10134562600 [心理学][統計] 因子分析で斜交回転を行った…

Python入門初日:環境の構築など

《2016.1.6追記》 なぜか数日前からこの記事に数名の方にブックマークしていただいているのですが、これは結構古いエントリでして、その後Pythonの環境は、Anacondaというパッケージを入れて同梱されているSpyderというIDEを使う方法で落ち着きましたので、…

よくダウンロードされているRのパッケージ

RでMD5などのハッシュ値を得るためのツールはないかなと思って検索したら、digestというパッケージがあることがあっさり分かったのだが、検索してる途中にたまたま以下のような記事をみつけた。 Top 100 R packages for 2013 (Jan-May)! | R-statistics blog…

Pythonの教科書を2冊買った

Pythonを始めてみようかと Pythonの教科書を2冊買いました。 私はプログラミングはまったくの素人ですし、これから頑張ろうと意気込んでいるわけでもないのですが、Rをいじっていると初心者レベルではあってもプログラミングっぽいものに少し関心が出てきて…

自分のEvernoteのタグ付け状況をデータで分析したい

SQL

Evernoteのタグ付けデータ 色々なドキュメントをEvernoteに入れてまして*1、気づいたら1万数千のノートと千数百のタグを運用する状態になってました。 私はタグ付けには色々こだわりがありまして、「テキスト検索だけで十分」という(多数派の)意見には断固…

Rの指数表示を回避するoptions(scipen)の法則

Rの指数表示の回避方法 以前、別のブログのほう(リンク)で、Rの指数表示の回避を行う方法についてのエントリを書いたのですが、せっかく統計とRに関するブログを書き始めたので、こっちに転載しておきます。 元の記事ではいろいろ悩んだ過程を書いてるので…

正規性の検定結果の違い

正規性の検定 先のエントリでも触れたように、分布の正規性の検定にはいくつかの種類があります。 参考に、サンプルサイズを変えながらシャピロ・ウィルク検定とコルモゴロフ・スミノルフ検定を実施し、結果の違いを図にしてみました。とりあえず作図しただ…

Rの練習:Rの乱数で中心極限定理を確かめてみる

乱数によるシミュレーションで中心極限定理を確かめる 統計の初学者としての感想なのですが、統計モデルを「乱数発生器」と見なす考え方は学習の初期でしっかり教えてほしかったなと思っております。私が最初に勉強した『心理統計学の基礎』という本にも、よ…

因子分析の勉強(永田・棟近『多変量解析法入門』)

因子分析の勉強 昨日は、友人とやっている勉強会で、因子分析の勉強をした。教科書は、永田・棟近『多変量解析法入門』の第13章(の一部)。神テキストです。 多変量解析法入門 (ライブラリ新数学大系)作者: 永田靖,棟近雅彦出版社/メーカー: サイエンス社発…

Rで全角数字を半角数字に書き換える

↓このページに、Rで文字列を操作する系のコマンドが色々載っていました。 文字列 | Rを利用して文字列のマッチング,結合,分割,置換を行う関数 これを参考に、データの全角数字を半角数字に入れ替えるというのをやってみたいと思います。 そういえば、はてな…

『データ解析のための統計モデリング入門』読書会第7回の復習 #みどりぼん

2週連続の読書会 8月5日に『緑本』読書会の第7回に参加してきました。 「データ解析のための統計モデリング入門」 読書会 - connpass 2人目のLT(データ解析でご飯を食べるという事)の方に、「データ分析プロジェクトの発注者側に言いたい文句とかないで…

クロンバックのα(信頼性係数)の計算方法がソフトやパッケージによって違うらしい

メモ。 統計解析ソフトやRのパッケージによってクロンバックのα信頼性係数が違う? - Togetterまとめ 心理学で尺度の解析をやる場合などに、たとえば1つの構成概念(心理的な傾向に名前を付けたもの。たとえば「抑鬱傾向」とか。)に対して10個とかの質問を…

『データ解析のための統計モデリング入門』第6章読書会 #みどりぼん

復習部分を追記しました。(2014/7/31) 予習 これから、『データ解析のための統計モデリング』(『緑本』と呼ばれている。*1)読書会という集まりに参加するので、その予習をメモっておきます。*2 毎回、説明が分かりやすく、応用的な知識も紹介していただ…

S字型カーブに沿って成長する皮算用をRで行う

S字型皮算用の必要性 サラリーマンなら誰しも、施策の将来効果を推計したりする際、あまり根拠となるデータもないので適当に鉛筆をなめるという局面は、ありまくると思います。そりゃ根拠あったほうがいいに決まってるんですが、データを集めるのにコストか…

Rのprcomp()関数で主成分分析をするときの注意点

Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点…