• Amazonで購入

あなたのワークシートがインターネットにつながるExvel VBAクローリング&スクレイピング

お手元のExcelでもクローリング&スクレイピングが可能になる!

著者
五十嵐貴之
定価
3,024円(本体価格 2,800円)
発売日
2018年11月15日
判型/ページ数
B5変型/416ページ
ISBN
978-4-8026-1159-6
備考
-

ネットのデータを見ながらワークシートにデータ入力…こんな作業から解放されたい!

ネットで集めたデータがたくさんあるけど、これをうまく整形してワークシートに落とし込みたい!


Excel VBAからクローリングができる!
Excel VBAでスクレイピングができる!

あなたのワークシートがインターネットにつながれば、作業の可能性が拡がります。

ジャンル
キーワード

読者サポート

  • ダウンロード

目次

■第1章 クローリングとスクレイピングに必要な基礎知識

1-1 本書を読み進める上での事前知識
VBAの経験
基本的なHTMLのタグの理解
1-2 そもそもクローリング/スクレイピングとは何か
インターネットを通じて繋がる世界
クローリングとスクレイピングについて
1-3 クローリングを行う際の注意事項
データの無断利用等による著作権法違反
リソース圧迫による業務妨害
1-4 行儀よくクローリングを行うには
利用規約に従う
robots.txtに従う
robots metaタグに従う

■第2章 Excel VBAでInternet Explorerを制御する
2-1 COMの参照設定
Internet ExplorerのCOMを参照設定するには
2-2 URLのしくみ
URLはインターネット上のファイルの位置
絶対パスと相対パス
2-3 Webページを開く
指定したWebページを開く
サンプルプログラムとその解説
2-4 Webページからテキストを取得
Webページの文字列を収集する
サンプルプログラムとその解説
2-5 WebページからHTMLを取得
Webページを操作するもっとも基本的なこと
サンプルプログラムとその解説
2-6 COMの参照設定なしでInternet Explorerを制御
COM参照を動的に行う
サンプルプログラムとその解説
2-7 起動中のInternet Explorerを制御する
すでに開いているWebページをExcel VBAでキャッチする
サンプルプログラムとその解説
2-8 Webページを閉じるまで処理を待機する
ブラウザーが終了するまで監視する
サンプルプログラムとその解説
2-9 ファイルをダウンロードする
写真や動画を収集するために
サンプルプログラムとその解説

■第3章 Excel VBAでHTMLタグを制御する
3-1 Excel VBAでHTMLを制御するには
HTMLとは
HTMLタグを解析するための技術
サンプルプログラムの検証で使用するWebページについて
3-2 テキストボックス操作
テキストボックスの用途
サンプルプログラムとその解説
3-3 パスワード入力欄操作
パスワード入力欄について
サンプルプログラムとその解説
3-4 チェックボックス操作
チェックボックスの用途
サンプルプログラムとその解説
3-5 ラジオボタン操作
ラジオボタンの用途
サンプルプログラムとその解説
3-6 セレクトボックス操作
セレクトボックスの用途
サンプルプログラムとその解説
3-7 テキストエリア操作
テキストエリアの用途
サンプルプログラムとその解説
3-8 ハイパーリンク操作
ハイパーリンクの概要
サンプルプログラムとその解説
3-9 ボタン操作
ボタン・コントロールについて
サンプルプログラムとその解説
3-10 Submitボタン操作
Submitボタンについて
サンプルプログラムとその解説
3-11 テーブル操作
テーブルタグについて
サンプルプログラムとその解説

■第4章 さまざまなファイルを解析する
4-1 Webページのファイル形式(HTML/XML/CSV/JSON/PDF/DOCX)
HTML
XML
CSV
JSON
PDF
DOCX
4-2 XMLファイルを解析する
サンプルプログラムとその解説
4-3 CSVファイルを解析する
サンプルプログラムとその解説
4-4 JSONファイルを解析する
サンプルプログラムとその解説
4-5 PDFファイルを解析する
サンプルプログラムとその解説
4-6 WORDファイルを解析する
サンプルプログラムとその解説
4-7 改行文字の違い
改行コードの種類
4-8 Unicodeのテキストファイルを読み込むには
文字コードとエンコーディング
サロゲートペア文字について

■第5章 クローリング/スクレイピングの運用について
5-1 指指定したURLが存在するかをチェックする
404「not found」エラーをクローリングしないようにする
サンプルプログラムとその解説
5-2 同じURLを何度もクローリングしないようにするために
クローリングで永久ループ?
5-3 クローリングを同時進行するには
マルチスレッドとは
Excel VBAで並行処理を実装するには
5-4 データベースを利用する
SQL Serverに接続
Microsoft Accessに接続
ODBC経由でデータベースに接続する
5-5 定期的にクローリング/スクレイピングするには
タスクスケジューラ
5-6 クローラーが強制終了した場合の対処
考えられるエラーの原因
エラーが発生した場合の対処

■第6章 プログラムが文章を理解するために
6-1 形態素解析を利用して文章を品詞に分割する
あ形態素解析とは
MeCabを用いた形態素解析
Yahoo! APIを用いた形態素解析
Microsoft Wordで代替する場合
6-2 マルコフ連鎖を利用して文章を要約する
マルコフ連鎖とは
サンプルプログラムとその解説
6-3 ベイズ推定を利用して文章を分類する
ベイズ推定とは
サンプルプログラムとその解説

■第7章 robots.txtを考慮したクローリングサンプル
7-1 Webサイトを根こそぎ取得する
サンプルプログラムについて
7-2 共通モジュールの作成
共通モジュールのメンバ紹介
7-3 専用モジュールの作成
サンプルコードの紹介
7-4 サンプルプログラムをさらに拡張させるには
拡張すべき機能とソースコードの箇所

■Appendix
最強のクローリングツールの紹介

■第1章 クローリングとスクレイピングに必要な基礎知識

1-1 本書を読み進める上での事前知識
VBAの経験
基本的なHTMLのタグの理解
1-2 そもそもクローリング/スクレイピングとは何か
インターネットを通じて繋がる世界
クローリングとスクレイピングについて
1-3 クローリングを行う際の注意事項
データの無断利用等による著作権法違反
リソース圧迫による業務妨害
1-4 行儀よくクローリングを行うには
利用規約に従う
robots.txtに従う
robots metaタグに従う

■第2章 Excel VBAでInternet Explorerを制御する
2-1 COMの参照設定
Internet ExplorerのCOMを参照設定するには
2-2 URLのしくみ
URLはインターネット上のファイルの位置
絶対パスと相対パス
2-3 Webページを開く
指定したWebページを開く
サンプルプログラムとその解説
2-4 Webページからテキストを取得
Webページの文字列を収集する
サンプルプログラムとその解説
2-5 WebページからHTMLを取得
Webページを操作するもっとも基本的なこと
サンプルプログラムとその解説
2-6 COMの参照設定なしでInternet Explorerを制御
COM参照を動的に行う
サンプルプログラムとその解説
2-7 起動中のInternet Explorerを制御する
すでに開いているWebページをExcel VBAでキャッチする
サンプルプログラムとその解説
2-8 Webページを閉じるまで処理を待機する
ブラウザーが終了するまで監視する
サンプルプログラムとその解説
2-9 ファイルをダウンロードする
写真や動画を収集するために
サンプルプログラムとその解説

■第3章 Excel VBAでHTMLタグを制御する
3-1 Excel VBAでHTMLを制御するには
HTMLとは
HTMLタグを解析するための技術
サンプルプログラムの検証で使用するWebページについて
3-2 テキストボックス操作
テキストボックスの用途
サンプルプログラムとその解説
3-3 パスワード入力欄操作
パスワード入力欄について
サンプルプログラムとその解説
3-4 チェックボックス操作
チェックボックスの用途
サンプルプログラムとその解説
3-5 ラジオボタン操作
ラジオボタンの用途
サンプルプログラムとその解説
3-6 セレクトボックス操作
セレクトボックスの用途
サンプルプログラムとその解説
3-7 テキストエリア操作
テキストエリアの用途
サンプルプログラムとその解説
3-8 ハイパーリンク操作
ハイパーリンクの概要
サンプルプログラムとその解説
3-9 ボタン操作
ボタン・コントロールについて
サンプルプログラムとその解説
3-10 Submitボタン操作
Submitボタンについて
サンプルプログラムとその解説
3-11 テーブル操作
テーブルタグについて
サンプルプログラムとその解説

■第4章 さまざまなファイルを解析する
4-1 Webページのファイル形式(HTML/XML/CSV/JSON/PDF/DOCX)
HTML
XML
CSV
JSON
PDF
DOCX
4-2 XMLファイルを解析する
サンプルプログラムとその解説
4-3 CSVファイルを解析する
サンプルプログラムとその解説
4-4 JSONファイルを解析する
サンプルプログラムとその解説
4-5 PDFファイルを解析する
サンプルプログラムとその解説
4-6 WORDファイルを解析する
サンプルプログラムとその解説
4-7 改行文字の違い
改行コードの種類
4-8 Unicodeのテキストファイルを読み込むには
文字コードとエンコーディング
サロゲートペア文字について

■第5章 クローリング/スクレイピングの運用について
5-1 指指定したURLが存在するかをチェックする
404「not found」エラーをクローリングしないようにする
サンプルプログラムとその解説
5-2 同じURLを何度もクローリングしないようにするために
クローリングで永久ループ?
5-3 クローリングを同時進行するには
マルチスレッドとは
Excel VBAで並行処理を実装するには
5-4 データベースを利用する
SQL Serverに接続
Microsoft Accessに接続
ODBC経由でデータベースに接続する
5-5 定期的にクローリング/スクレイピングするには
タスクスケジューラ
5-6 クローラーが強制終了した場合の対処
考えられるエラーの原因
エラーが発生した場合の対処

■第6章 プログラムが文章を理解するために
6-1 形態素解析を利用して文章を品詞に分割する
あ形態素解析とは
MeCabを用いた形態素解析
Yahoo! APIを用いた形態素解析
Microsoft Wordで代替する場合
6-2 マルコフ連鎖を利用して文章を要約する
マルコフ連鎖とは
サンプルプログラムとその解説
6-3 ベイズ推定を利用して文章を分類する
ベイズ推定とは
サンプルプログラムとその解説

■第7章 robots.txtを考慮したクローリングサンプル
7-1 Webサイトを根こそぎ取得する
サンプルプログラムについて
7-2 共通モジュールの作成
共通モジュールのメンバ紹介
7-3 専用モジュールの作成
サンプルコードの紹介
7-4 サンプルプログラムをさらに拡張させるには
拡張すべき機能とソースコードの箇所

■Appendix
最強のクローリングツールの紹介

この書籍の購入

  • Amazonで購入する