2014-01-01から1年間の記事一覧
今日、知り合いのFacebookで、以下の記事がシェアされていました。 「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース 内容はタイトルのまんまで、特に思うこともないんですが、これ読んで、ある研究を思い出しました。 Vin…
松尾豊氏のインタビュー動画 マル激(videonews.com)で、人工知能の研究をしている東大の松尾豊准教授のインタビューが放送されていたので、通勤時間にみました。私は会員なのでいつも有料放送もみてますが、これは無料の回なので、YouTubeに全部のっていま…
真ん中らへんに追記しました。 多重比較とは たとえば学校のクラスがA〜Bの3つあって、それぞれの国語のテストの平均値を比較して、「クラスによって国語の成績は異なるかどうか」を調べるときに、とりあえず分散分析を行いますね。しかし分散分析でクラス…
こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな…
ちょっとしたデータをカイ二乗検定しようとすると、往々にして、期待度数が5に満たないセルが存在するせいで警告が出ます。 > print(d) Group.1 Group.2 Item.1 3 2 Item.2 9 12 Item.3 32 41 Item.4 68 74 Item.5 90 91 Item.6 35 32 Item.7 17 4 > chisq.…
信頼区間とはなんぞやというのをメモしておこうと思って、簡単なデータで回帰分析を行って図をつくろうかと思ったら、Rのpredict()関数の使い方に落とし穴があったので復習がてらメモ……。 とりあえず単回帰分析する Rの練習用データセット「cars」をつかいま…
血液型と性格の関係 産経新聞のネット記事で、首相の血液型はO型が多いということや、増税する首相はB型が多いといったことが書かれていました。 この一覧表をみてみると、興味深いことがいくつか浮かび上がってきました。 1つは、O型が突出して多いとい…
全然、Pythonを勉強する時間が取れず、滞っていますw とりあえず、『Pythonスタートブック』の第6章だけやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…
最初の1年で読むべき本を考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計の本ってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、ま…
心理学で心理測定尺度の因子分析を行う際に、30項目なら30項目の質問を並べて「とても当てはまる」〜「全く当てはまらない」までの7段階の回答を取り、7点〜1点を割り振って、因子分析を行うことがよくあります。 で、たとえば仮説によって「3因子」の構造…
教科書第5章をやる 昨日は、『Pythonスタートブック』第5章をやりました。進みが遅いですが、まぁ、何かの合間にやってる程度なので…。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック…
私はcsvをRに読み込むときはread.csv()でやってたわけですが、↓のような解説を読むと、どうやら大きなデータを読み込むときにread.csv()とかやってる奴は論外らしい。 data.tableパッケージで大規模データをサクッと処理する Rで高速に大量データを読み込ん…
Rで、CSVのデータを読み込んだり書き出したりするときに、引数をちゃんと設定してなくてミスることがありますね。 いやべつに大したことではなくて、私のような初心者レベルですら「当たり前」なことではあるんですが、今日あるデータを分析してて一部ミスっ…
勉強再開 先週のエントリで入門してすぐ1週間ぐらい放置してしまいましたが、今日少しだけPythonの勉強をやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…
今回の勉強会 こないだの日曜日は友人とやっている週次の統計勉強会で、金明哲『Rによるデータサイエンス』の主成分分析の章と因子分析の章を扱いました。 Rによるデータサイエンス - データ解析の基礎から最新手法まで作者: 金明哲出版社/メーカー: 森北出…
Yahoo!知恵袋にはいろいろお世話になってるのですが、因子分析の結果の見方についてよく分からないことがあったので、質問してみました。 http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10134562600 [心理学][統計] 因子分析で斜交回転を行った…
《2016.1.6追記》 なぜか数日前からこの記事に数名の方にブックマークしていただいているのですが、これは結構古いエントリでして、その後Pythonの環境は、Anacondaというパッケージを入れて同梱されているSpyderというIDEを使う方法で落ち着きましたので、…
RでMD5などのハッシュ値を得るためのツールはないかなと思って検索したら、digestというパッケージがあることがあっさり分かったのだが、検索してる途中にたまたま以下のような記事をみつけた。 Top 100 R packages for 2013 (Jan-May)! | R-statistics blog…
Pythonを始めてみようかと Pythonの教科書を2冊買いました。 私はプログラミングはまったくの素人ですし、これから頑張ろうと意気込んでいるわけでもないのですが、Rをいじっていると初心者レベルではあってもプログラミングっぽいものに少し関心が出てきて…
Evernoteのタグ付けデータ 色々なドキュメントをEvernoteに入れてまして*1、気づいたら1万数千のノートと千数百のタグを運用する状態になってました。 私はタグ付けには色々こだわりがありまして、「テキスト検索だけで十分」という(多数派の)意見には断固…
Rの指数表示の回避方法 以前、別のブログのほう(リンク)で、Rの指数表示の回避を行う方法についてのエントリを書いたのですが、せっかく統計とRに関するブログを書き始めたので、こっちに転載しておきます。 元の記事ではいろいろ悩んだ過程を書いてるので…
正規性の検定 先のエントリでも触れたように、分布の正規性の検定にはいくつかの種類があります。 参考に、サンプルサイズを変えながらシャピロ・ウィルク検定とコルモゴロフ・スミノルフ検定を実施し、結果の違いを図にしてみました。とりあえず作図しただ…
乱数によるシミュレーションで中心極限定理を確かめる 統計の初学者としての感想なのですが、統計モデルを「乱数発生器」と見なす考え方は学習の初期でしっかり教えてほしかったなと思っております。私が最初に勉強した『心理統計学の基礎』という本にも、よ…
因子分析の勉強 昨日は、友人とやっている勉強会で、因子分析の勉強をした。教科書は、永田・棟近『多変量解析法入門』の第13章(の一部)。神テキストです。 多変量解析法入門 (ライブラリ新数学大系)作者: 永田靖,棟近雅彦出版社/メーカー: サイエンス社発…
↓このページに、Rで文字列を操作する系のコマンドが色々載っていました。 文字列 | Rを利用して文字列のマッチング,結合,分割,置換を行う関数 これを参考に、データの全角数字を半角数字に入れ替えるというのをやってみたいと思います。 そういえば、はてな…
2週連続の読書会 8月5日に『緑本』読書会の第7回に参加してきました。 「データ解析のための統計モデリング入門」 読書会 - connpass 2人目のLT(データ解析でご飯を食べるという事)の方に、「データ分析プロジェクトの発注者側に言いたい文句とかないで…
メモ。 統計解析ソフトやRのパッケージによってクロンバックのα信頼性係数が違う? - Togetterまとめ 心理学で尺度の解析をやる場合などに、たとえば1つの構成概念(心理的な傾向に名前を付けたもの。たとえば「抑鬱傾向」とか。)に対して10個とかの質問を…
復習部分を追記しました。(2014/7/31) 予習 これから、『データ解析のための統計モデリング』(『緑本』と呼ばれている。*1)読書会という集まりに参加するので、その予習をメモっておきます。*2 毎回、説明が分かりやすく、応用的な知識も紹介していただ…
S字型皮算用の必要性 サラリーマンなら誰しも、施策の将来効果を推計したりする際、あまり根拠となるデータもないので適当に鉛筆をなめるという局面は、ありまくると思います。そりゃ根拠あったほうがいいに決まってるんですが、データを集めるのにコストか…
Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点…