関連サイト
本書の関連ページが用意されています。
内容紹介
Pythonデータ分析+機械学習への第一歩! 本格学習の前に、基礎を固め、全容を把握。― データの取り込み・整備・集約から、可視化、モデル化、正規化、高速化など、一連の基本作法を学べます。付録では、Python環境のインストール、Pythonの文法などを確認できます。使用するライブラリは、pandasを中心に、matplotlib、seaborn、numpy、statsmodels、sklearnなど。
本書は『Pandas for Everyone: Python Data Analysis』の翻訳書です。
書誌情報
- 著者: Daniel Y. Chen(著), 吉川邦夫(訳), 福島真太朗(監修)
- ページ数: 424ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
データ分析や機械学習を始める前に基本的なコーディングを確認したい方。
著者について
Daniel Y. Chen
バージニア工科大学生物複雑性研究所内の社会意思決定分析研究所に研究員およびデータエンジニアとして勤務。また、データ分析コンサルティング会社Lander Analyticsのデータサイエンティストでもある。遺伝学、生命情報科学、および計算生物学といった学際的な分野の博士課程に在籍。
吉川邦夫
1957年生まれ。ICU(国際基督教大学)卒。おもに制御系のプログラマとして、ソフトウェア開発に従事した後、翻訳家として独立。英文雑誌記事の和訳なども手掛ける。訳書は、Scott Meyersらによる「Effective」ソフトウェア開発シリーズ(アスキー、翔泳社)、『本格アプリを作ろう! Androidプログラミングレシピ』(インプレス)など多数。
福島真太朗
1981年生まれ。株式会社トヨタIT開発センターのシニアリサーチャー。2004年東京大学理学部物理学科卒業。2006年東京大学大学院新領域創成科学研究科複雑理工学専攻修士課程修了。現在、東京大学大学院情報理工学系研究科数理情報学専攻博士課程に在学中。専攻は機械学習・データマイニング・非線形力学系。
目次
序文
まえがき
- 本書の構成
- 本書の読み方
- データの入手方法など
- 謝辞
第1部 基本的な使い方の基本
第1章 DataFrameの基礎
- 1.1 はじめに
- 1.2 最初のデータセットをロードする
- 1.3 列、行、セルを見る
- 1.4 グループ化と集約
- 1.5 基本的なグラフ
- 1.6 まとめ
第2章 pandasのデータ構造
- 2.1 はじめに
- 2.2 データを自作する
- 2.3 Seriesについて
- 2.4 DataFrameについて
- 2.5 SeriesとDataFrameの書き換え
- 2.6 データのエクスポートとインポート
- 2.7 まとめ
第3章 プロットによるグラフ描画
- 3.1 はじめに
- 3.2 matplotlib
- 3.3 matplotlibによる統計的グラフィックス
- 3.4 seaborn
- 3.5 pandasのオブジェクト
- 3.6 seabornのテーマとスタイル
- 3.7 まとめ
第2部 データ操作によるクリーニング
第4章 データを組み立てる
- 4.1 はじめに
- 4.2 "整然データ"
- 4.3 連結
- 4.4 複数のデータセットをマージする
- 4.5 まとめ
第5章 欠損データへの対応
- 5.1 はじめに
- 5.2 NaNとは何か
- 5.3 欠損値はどこから来るのか
- 5.4 欠損データの扱い
- 5.5 まとめ
第6章 "整然データ"を作る
- 6.1 はじめに
- 6.2 複数列に(変数ではなく)値が入っているとき
- 6.3 複数の変数を含む列がある場合
- 6.4 行と列の両方に変数があるとき
- 6.5 1個の表に観察単位が複数あるとき(正規化)
- 6.6 同じ観察単位が複数の表にまたがっているとき
- 6.7 まとめ
第3部 データの準備―変換/整形/結合など
第7章 データ型の概要と変換
- 7.1 はじめに
- 7.2 データ型
- 7.3 型変換
- 7.4 カテゴリ型データ
- 7.5 まとめ
第8章 テキスト文字列の操作
- 8.1 はじめに
- 8.2 文字列
- 8.3 文字列メソッド
- 8.4 その他の文字列メソッド
- 8.5 文字列のフォーマッティング
- 8.6 正規表現
- 8.7 regexライブラリ
- 8.8 まとめ
第9章 applyによる関数の適用
- 9.1 はじめに
- 9.2 関数
- 9.3 applyの基本
- 9.4 applyの応用
- 9.5 関数のベクトル化
- 9.6 ラムダ関数
- 9.7 まとめ
第10章 groupby演算による分割-適用-結合
- 10.1 はじめに
- 10.2 集約
- 10.3 変換(transform)
- 10.4 フィルタリング
- 10.5 DataFrameGroupByオブジェクト
- 10.6 マルチインデックスを使う
- 10.7 まとめ
第11章 日付/時刻データの操作
- 11.1 はじめに
- 11.2 Pythonのdatetimeオブジェクト
- 11.3 datetimeへの変換
- 11.4 日付を含むデータをロードする
- 11.5 日付のコンポーネントを抽出する
- 11.6 日付の計算とtimedelta
- 11.7 datetimeのメソッド
- 11.8 株価データを取得する
- 11.9 日付によるデータの絞り込み
- 11.10 日付の範囲
- 11.11 値をシフトする
- 11.12 リサンプリング
- 11.13 時間帯
- 11.14 まとめ
第4部 モデルをデータに適合させる
第12章 線形モデル
- 12.1 はじめに
- 12.2 単純な線形回帰
- 12.3 重回帰
- 12.4 sklearnでインデックスラベルを残す
- 12.5 まとめ
第13章 一般化線形モデル
- 13.1 はじめに
- 13.2 ロジスティック回帰
- 13.3 ポアソン回帰
- 13.4 その他の一般化線形モデル
- 13.5 生存分析
- 13.6 まとめ
第14章 モデルを診断する
- 14.1 はじめに
- 14.2 残差
- 14.3 複数のモデルを比較する
- 14.4 k分割交差検証
- 14.5 まとめ
第15章 正則化で過学習に対処する
- 15.1 はじめに
- 15.2 なぜ正則化するのか
- 15.3 LASSO回帰
- 15.4 リッジ回帰
- 15.5 ElasticNet
- 15.6 交差検証
- 15.7 まとめ
第16章 クラスタリング
- 16.1 はじめに
- 16.2 k平均法
- 16.3 階層的クラスタリング
- 16.4 まとめ
第5部 締めくくり―次のステップへ
第17章 pandas周辺の強力な機能
- 17.1 Pythonの科学計算スタック
- 17.2 コードの性能
- 17.3 大きなデータをより速く処理する
第18章 さらなる学びのための情報源
- 18.1 1人歩きは危険だ!
- 18.2 地元でのミートアップ
- 18.3 カンファレンス
- 18.4 インターネット
- 18.5 ポッドキャスト
- 18.6 まとめ
第6部 付録
- 付録A インストール
- 付録B コマンドライン
- 付録C プロジェクトのテンプレート
- 付録D Pythonの使い方
- 付録E ワーキングディレクトリ
- 付録F 環境
- 付録G パッケージのインストール
- 付録H ライブラリのインポート
- 付録I リスト
- 付録J タプル
- 付録K 辞書
- 付録L 値のスライス
- 付録M ループ
- 付録N 内包表記(comprehension)
- 付録O 関数
- 付録P 範囲とジェネレータ
- 付録Q 複数代入
- 付録R numpyのndarray
- 付録S クラス
- 付録T Odo(TheShapeshifter)