いまどきのWebアプリに必須とも言える機械学習・深層学習・スクレイピング・クローリング。
こうした施術を習得するには、サンプルを動かしながら使ってみるのがいちばんの早道。
本書では、まずインターネットのクローリングと、そのデータのスクレイピングを行います。
そして、得られたデータを活用する例として、機械学習や深層学習、画像認識などの例を紹介しています、
実用的なものから、ちょっと笑えるものまで、さまざまなサンプルが紹介されているので、これからPythonをつかって何か新しいアプリを開発してみたい…という人には最適の一冊といえます。
★★著者によるサポートサイトが開設されました★★
http://kujirahand.com/blog/go.php?740
★0 章 機械学習のためのデータ処理とは
0-1 クローリング、スクレイピングそして機械学習
ビッグデータはネットにある
インターネットは宝の山
ブログやSNS - トレンド解析
ネットショップ - 商品データベースの利用
金融情報の利用
画像データの利用
行政機関の情報 - オープンデータ
辞書情報の利用
著作権切れの作品 - パブリックドメイン
機械学習用のデータセットの利用
スクレイピングとクローリング〜データの入手と加工
スクレイピングとは?
クローリングとは?
機械学習で使えるデータ構造
★1 章 クローリングとスクレイピング
1-1 データのダウンロード
Web 上の情報を取得する方法
urllib.request を使ったダウンロード
urlopen() を使ってファイルに保存する方法
Web からデータを取得してみよう
クライアントの接続情報を表示してみよう
任意のパラメーターを付けてリクエストを送信する方法
百人一首を検索するコマンドを自作してみよう
1-2 BeautifulSoup でスクレイピング
BeautifulSoup でスクレイピングしよう
BeautifulSoup のインストール
BeautifulSoup の基本的な使い方
任意のid で要素を探す方法
複数の要素を取得する - find_all() メソッド
DOM 要素の属性について
urlopen() とBeautifulSoup の組み合わせ
CSS セレクタを使う
Yahoo! ファイナンスの為替情報を取得してみよう!
1-3 CSS セレクタについて
HTML の構造確認にはWeb ブラウザーを使おう
任意の要素を選択してみよう
青空文庫で公開されている夏目漱石の作品一覧を得る
CSS セレクタをマスターしよう
CSS セレクタを抽出する練習をしてみよう
CSS セレクタで野菜・フルーツを選択しよう
正規表現と組み合わせる方法
1-4 リンク先を丸ごとダウンロード
丸ごとダウンロードを実現するのに必要な処理
相対パスを展開する方法
再帰的にHTML ページを処理すること
丸ごとダウンロードするプログラム
★2 章 高度なスクレイピング
2-1 ログインの必要なサイトからダウンロード
HTTP 通信について
クッキーについて
セッションについて
requests を使ってみよう
requestsモジュールのメソッド
ログイン時に送信しているデータを調べる
2-2 ブラウザーを経由したスクレイピング
Web ブラウザーを遠隔操作するSelenium について
画面なしブラウザー「PhantomJS」について
Selenium + PhantomJS の実行環境を整えよう
画面キャプチャしてみよう
会員制Web サイトにログインしてみよう
Selenium でスクレイピングする方法
Selenium でDOM 要素を選択する方法
Selenium で要素に対して行う操作
Selenium のドライバに対する操作
より詳しいSelenium のマニュアルについて
JavaScript を実行してみよう
2-3 スクレイピング道場
ページからリンク一覧を列挙する
URL の一覧を一気にダウンロードする方法