ビッグデータ時代のRの活用法を1冊に集約
はじめに
1.1 Rはビッグデータ時代のデファクトスタンダード
1.2 Rが克服しなければならない課題
1.3 本書で使用するデータ
2.1 スモールデータの分析
2.1.1 データの選択
2.1.2 前処理
2.1.3 データマイニング
2.2 ビッグデータの分析におけるRの限界
2.3 Rを用いたビッグデータ分析に向けて
3.1 必要な加工処理
3.2 Pythonを用いた加工
3.3 Perlを用いた加工
4.1 並列計算とは
4.2 Rにおけるパフォーマンスチューニング
4.2.1 ベクトル処理によるループ演算の効率化
4.2.2 ベクトル処理のモンテカルロ積分への適用
4.2.3 applyファミリーによる効率化と限界
4.3 並列化できる処理・分析の例
4.3.1 層別集計
4.3.2 k平均法
4.3.3 ブートストラップ法
4.3.4 ランダムフォレスト
4.3.5 機械学習の予測モデル構築・評価
4.4 Rでの並列計算方法
4.5 並列計算における乱数生成
4.6 ロードバランシング
4.7 各パッケージの概要と用途
4.7.1 各パッケージの概要
4.7.2 用途に応じたパッケージ選択
4.8 snowパッケージ
4.8.1 クラスターの生成と終了
4.8.2 並列計算の実行
4.8.3 k平均法の並列計算
4.8.4 ランダムフォレストの並列化
4.8.5 タイミングの測定
4.8.6 乱数の生成
4.8.7 ロードバランシング
4.8.8 主要な関数のまとめ
4.9 multicoreパッケージ
4.9.1 並列計算の実行
4.9.2 乱数の生成
4.9.3 ロードバランシング
4.9.4 主要な関数のまとめ
4.10 parallelパッケージ
4.10.1 snowパッケージやmulticoreパッケージとの相違点
4.10.2 クラスターの生成と終了
4.10.3 並列計算の実行
4.10.4 乱数の生成
4.10.5 ロードバランシング
4.10.6 主要な関数のまとめ
4.11 foreachパッケージ
4.11.1 逐次処理
4.11.2 並列処理
4.11.3 ランダムフォレストの並列化
4.11.4 デバッグ
4.11.5 乱数の生成
4.11.6 主要な関数のまとめ
5.1 各パッケージの概要と用途
5.1.1 各パッケージの概要
5.1.2 用途に応じたパッケージ選択
5.2 bigmemoryパッケージ
5.2.1 bigmemoryが提供する機能
5.2.2 データの入出力
5.2.3 基本的な集計
5.2.4 多変量解析・機械学習
5.2.5 bigmemoryを用いた並列計算
5.2.6 bigmemoryパッケージの機能の拡張
5.2.7 主要な関数のまとめ
5.3 ffパッケージ
5.3.1 ffパッケージのデータ構造
5.3.2 データの入出力
5.3.3 テーブルの連結
5.3.4 基本的な集計
5.3.5 多変量解析・機械学習
5.3.6 ffパッケージを用いた並列計算
5.3.7 主要な関数のまとめ
5.4 mmapパッケージ
5.4.1 mmapパッケージが役立つケース
5.4.2 mmapパッケージの使用方法
5.4.3 主要な関数のまとめ
5.5 filehashパッケージ
5.5.1 データベースの作成と初期化
5.5.2 データの追加
5.5.3 データのリストの表示
5.5.4 データに対する操作
5.5.5 データの取得
5.5.6 データベースの削除
5.5.7 主要な関数のまとめ
5.6 colbycolパッケージ
5.6.1 データの読み込み
5.6.2 大規模データの読み込み
5.6.3 主要な関数のまとめ
5.7 data.tableパッケージ
5.7.1 データの読み込み
5.7.2 データの概要の確認
5.7.3 要素の抽出
5.7.4 データ加工・集計
5.7.5 主要な関数のまとめ
5.8 dplyrパッケージ
5.8.1 dplyrパッケージが提供する機能
5.8.2 行の抽出
5.8.3 列の抽出
5.8.4 列の追加
5.8.5 行の並べ替え
5.8.6 データの要約
5.8.7 グループ化処理
5.8.8 パイプ処理
5.8.9 主要な関数のまとめ
6.1 Hadoop の環境構築
6.1.1 Oracle JDKのインストール
6.1.2 CDHのインストール
6.2 MapReduceで実行できる処理
6.3 Rhipeパッケージ
6.3.1 環境構築
6.3.2 HDFS の操作とデータ連携
6.3.3 MapReduce による並列分散処理
6.3.4 実行例: ワードカウント
6.3.5 実行例: 最小二乗法
6.3.6 主要な関数のまとめ
6.4 RHadoopパッケージ
6.4.1 環境構築
6.4.2 HDFS の操作とデータ連携
6.4.3 MapReduceによる並列分散処理
6.4.4 実行例:ワードカウント
6.4.5 実行例:最小二乗法
6.4.6 plyrmrパッケージによるデータハンドリング
6.4.7 主要な関数のまとめ
7.1 Rによるハイパフォーマンスコンピューティングの動向
7.2 Rhpcパッケージ
7.2.1 環境の構築
7.2.2 ワーカープロセスの起動
7.2.3 並列計算の実行
7.2.4 既存のパッケージとの比較
7.3 pqR
7.3.1 インストール
7.3.2 マルチスレッドによる計算の実行例
付録A フライトデータの入手方法
付録B Rの性能測定
B.1 処理時間の測定
B.2 メモリ使用量の測定