• Amazonで購入

Rによるハイパフォーマンスコンピューティング

ビッグデータ時代のRの活用法を1冊に集約

著者
福島真太朗
定価
3,888円(本体価格 3,600円)
発売日
2014年9月24日
判型/ページ数
A5判/352ページ(オール1C)
ISBN
978-4-88337-935-4
備考
-

ビッグデータ時代を迎え、さまざまな大規模なデータを分析するニーズが高まってきています。

本書では、フリーの統計処理言語であるR言語を使った大規模処理や並行処理の手法を解説しています。

そのほかにもHadoopとの連携なども解説しており、Rを使って大規模なデータマイニングなどのデータ処理を行いたい人の必携の書籍となっています。

ジャンル
キーワード

読者サポート

  • 正誤情報

目次

はじめに

CHAPTER 1 ビッグデータ時代とR

1.1 Rはビッグデータ時代のデファクトスタンダード
1.2 Rが克服しなければならない課題
1.3 本書で使用するデータ

CHAPTER 2 Rでのビッグデータ分析

2.1 スモールデータの分析
 2.1.1 データの選択
 2.1.2 前処理
 2.1.3 データマイニング
2.2 ビッグデータの分析におけるRの限界
2.3 Rを用いたビッグデータ分析に向けて

CHAPTER 3 大規模データの加工

3.1 必要な加工処理
3.2 Pythonを用いた加工
3.3 Perlを用いた加工

CHAPTER 4 並列計算

4.1 並列計算とは
4.2 Rにおけるパフォーマンスチューニング
 4.2.1 ベクトル処理によるループ演算の効率化
 4.2.2 ベクトル処理のモンテカルロ積分への適用
 4.2.3 applyファミリーによる効率化と限界
4.3 並列化できる処理・分析の例
 4.3.1 層別集計
 4.3.2 k平均法
 4.3.3 ブートストラップ法
 4.3.4 ランダムフォレスト
 4.3.5 機械学習の予測モデル構築・評価
4.4 Rでの並列計算方法
4.5 並列計算における乱数生成
4.6 ロードバランシング
4.7 各パッケージの概要と用途
 4.7.1 各パッケージの概要
 4.7.2 用途に応じたパッケージ選択
4.8 snowパッケージ
 4.8.1 クラスターの生成と終了
 4.8.2 並列計算の実行
 4.8.3 k平均法の並列計算
 4.8.4 ランダムフォレストの並列化
 4.8.5 タイミングの測定
 4.8.6 乱数の生成
 4.8.7 ロードバランシング
 4.8.8 主要な関数のまとめ
4.9 multicoreパッケージ
 4.9.1 並列計算の実行
 4.9.2 乱数の生成
 4.9.3 ロードバランシング
 4.9.4 主要な関数のまとめ
4.10 parallelパッケージ
 4.10.1 snowパッケージやmulticoreパッケージとの相違点
 4.10.2 クラスターの生成と終了
 4.10.3 並列計算の実行
 4.10.4 乱数の生成
 4.10.5 ロードバランシング
 4.10.6 主要な関数のまとめ
4.11 foreachパッケージ
 4.11.1 逐次処理
 4.11.2 並列処理
 4.11.3 ランダムフォレストの並列化
 4.11.4 デバッグ
 4.11.5 乱数の生成
 4.11.6 主要な関数のまとめ

CHAPTER 5 大規模データの管理・分析

5.1 各パッケージの概要と用途
 5.1.1 各パッケージの概要
 5.1.2 用途に応じたパッケージ選択
5.2 bigmemoryパッケージ
 5.2.1 bigmemoryが提供する機能
 5.2.2 データの入出力
 5.2.3 基本的な集計
 5.2.4 多変量解析・機械学習
 5.2.5 bigmemoryを用いた並列計算
 5.2.6 bigmemoryパッケージの機能の拡張
 5.2.7 主要な関数のまとめ
5.3 ffパッケージ
 5.3.1 ffパッケージのデータ構造
 5.3.2 データの入出力
 5.3.3 テーブルの連結
 5.3.4 基本的な集計
 5.3.5 多変量解析・機械学習
 5.3.6 ffパッケージを用いた並列計算
 5.3.7 主要な関数のまとめ
5.4 mmapパッケージ
 5.4.1 mmapパッケージが役立つケース
 5.4.2 mmapパッケージの使用方法
 5.4.3 主要な関数のまとめ
5.5 filehashパッケージ
 5.5.1 データベースの作成と初期化
 5.5.2 データの追加
 5.5.3 データのリストの表示
 5.5.4 データに対する操作
 5.5.5 データの取得
 5.5.6 データベースの削除
 5.5.7 主要な関数のまとめ
5.6 colbycolパッケージ
 5.6.1 データの読み込み
 5.6.2 大規模データの読み込み
 5.6.3 主要な関数のまとめ
5.7 data.tableパッケージ
 5.7.1 データの読み込み
 5.7.2 データの概要の確認
 5.7.3 要素の抽出
 5.7.4 データ加工・集計
 5.7.5 主要な関数のまとめ
5.8 dplyrパッケージ
 5.8.1 dplyrパッケージが提供する機能
 5.8.2 行の抽出
 5.8.3 列の抽出
 5.8.4 列の追加
 5.8.5 行の並べ替え
 5.8.6 データの要約
 5.8.7 グループ化処理
 5.8.8 パイプ処理
 5.8.9 主要な関数のまとめ

CHAPTER 6 Hadoopとの連携

6.1 Hadoop の環境構築
 6.1.1 Oracle JDKのインストール
 6.1.2 CDHのインストール
6.2 MapReduceで実行できる処理
6.3 Rhipeパッケージ
 6.3.1 環境構築
 6.3.2 HDFS の操作とデータ連携
 6.3.3 MapReduce による並列分散処理
 6.3.4 実行例: ワードカウント
 6.3.5 実行例: 最小二乗法
 6.3.6 主要な関数のまとめ
6.4 RHadoopパッケージ
 6.4.1 環境構築
 6.4.2 HDFS の操作とデータ連携
 6.4.3 MapReduceによる並列分散処理
 6.4.4 実行例:ワードカウント
 6.4.5 実行例:最小二乗法
 6.4.6 plyrmrパッケージによるデータハンドリング
 6.4.7 主要な関数のまとめ

CHAPTER 7 最近の動向

7.1 Rによるハイパフォーマンスコンピューティングの動向
7.2 Rhpcパッケージ
 7.2.1 環境の構築
 7.2.2 ワーカープロセスの起動
 7.2.3 並列計算の実行
 7.2.4 既存のパッケージとの比較
7.3 pqR
 7.3.1 インストール
 7.3.2 マルチスレッドによる計算の実行例

付録

付録A フライトデータの入手方法
付録B Rの性能測定
B.1 処理時間の測定
B.2 メモリ使用量の測定

この書籍の購入

  • Amazonで購入する