Webページからデータやコンテンツを抽出する方法(追記)
WebスクレイピングとはWeb上のデータを抽出することをいい、コピー&ペーストをしてExcelなどに貼り付けて情報の分析を行うこともWebスクレイピングの1つと言えます。
コピペする・・・完全手作業で単純動作を繰り返す訳ですが、時間もかかるし、かなり退屈な作業です。そこで自動化し時間を節約して効率化を図りたい訳ですが、そもそもプログラミングの知識がないので自動化することができません。
HTMLやCSSの知識がなくてもワードプレスを自由にカスタマイズできるThemifyがあるように、プログラミングの知識がなくてもWeb上のデータを思い通りにスクレイピングできる便利な強力なツールを紹介します。
1 クリックでWebスクレイピングする「Octoparse」
Octoparseは、Web上に公開されているWebページから抽出した部分をクリックして選んでいくので、難しいコードを必要とせずスクレイピングの初心者でも簡単に情報の抽出が簡単できるWindows用のアプリケーションです。
Webサイト作成の初心者でもドラッグ&ドロップで簡単にサイト作成ができるThemifyと同じです。Themifyと違うところは、OctoparseはWindows用のアプリケーションのため、MacOSでは使えません。
Octoparseでできること
・Webページ上のHTMLファイル、テキストファイル、jpegやPNGなどの画像URLなどほとんどの情報を取得できます。
・ページネーションを辿ることができます。
・単一ページだけでなく複数ページを登録してデータ収集することができます。
・ログイン認証が必要なページもIDやPASSを登録して自動収集することができます。
抽出したデータは、CSV、Excel、HTML、JSON、データベース(MySQL、SQL server、Oracle)などで出力することができます。
Octoparseを使ってWebスクレイピングすることにより、ニュースポータル、ブログ、フォーラム、Eコマースサイト、ソーシャルメディア、不動産、財務報告などさまざまな分野の情報を、比較検討、研究、分析、マーケティングに利用して効率的に進めることができるようになります。
クレジットカード不要
1ヶ月契約の場合は$89
WebスクレイピングアプリであるOctoparseは、有料アプリですが一部機能制限があるものの無料で使用することができます。
企業で情報分析に使用するならいざ知れず、個人がWebサイトのコンテンツに使用する程度の抽出量なら無料プランでも全く問題なく使用できます。
そして、何よりWebスクレイピングアプリとしてOctoparseをお勧めするかと言うと、2018年6月からOctoparseには日本語サイトが開設されてサポートも日本語で対応してくれるからです。
Webスクレイピングアプリを提供している会社は、外国製のものばかりで当然言語は英語になります。実は私がOctoparseを知った時はまだ日本語サイトがなくマニュアルを読んでも専門用語ばかりで英語が苦手な私にはチンプンカンプン! まともに使いこなせるようになるまでに3ヶ月以上の時間を要した記憶があります。
しかし、今は日本語サイトがあり日本語のマニュアルとサポートがあるので私がした苦労はしなくてもいいと思います。更に、もう一つ嬉しいいメールがOctoparseのサポートチームから届きました。
日本語サイトに日本語サポートが提供されるようになりましたが、アプリ自体は英語で作られているため、使用するにあたり戸惑う部分があると思います。しかし、メールに書かれている通り、日本語版のアプリが提供されるようになればもう戸惑うことはなくなると思います。
待ち遠しいですね。
2 Octoparseのダウンロード方法
Octoparseの使用環境
1. Windows xp、7、8、10(Macでは使用できません。)
2. Microsoft Net Framework3.5 が必要
(最新のFrameworkを使用していもFramework3.5が必要になりますが、Frameworkは複数のバージョンを同時にインストールすることができます。)
Frameworkの確認の方法とダウンロードに関しては、日本語版のホームページにマニュアルがあるので確認してください。
Octoparseの登録方法
Octoparseの日本語サイトを開きます。(https://www.octoparse.jp/)
右上の「新規登録」をクリックします。
登録フォームが開くので必要事項を入力して「登録する」をクリックします。
すぐに入力したメールアドレスにアカウント開設用URLが届きます。
(写真は日本語サイトがない時のものなので英語ですが、日本語サイトから登録すれば日本語でメールがきます。))
クリックして登録を完了させます。
Octoparseのアプリをダウンロードします。
アカウント作成が完了した時点でアプリのダウンロード画面が表示されるのでパソコンにダウンロードしてください。
ここではアカウントにログインしてアプリをダウンロードする方法を説明します。
日本語サイトのトップページからログインします。
左下にある「ダウンロード」をクリックします。
上部にあるダウンロードボタンをクリックしてアプリをパソコンに保存した後、インストールを実行してください。
写真の通りインストール方法やアンインストール方法も日本語でマニュアルがあるので超安心です。
インストールが完了するとディスクトップにOctoparseの起動用ショートカットアイコンが作成されます。
アイコンをクリックすると、ログイン画面が表示されるので登録時に入力したユーザーネームとパスワードでログインします。
Octoparseアプリが起動するとこんな画面が表示されます。
すべて英語なのでちょっと抵抗感があるかもしれませんが、日本語サイトでマニュアルがあるので問題ないと思います。でも早く日本語版のアプリが提供されると嬉しいですね。
Octoparseの使用方法のチュートリアルは、日本語サイトのフッターメニュー若しくはアカウント画面の下方にあります。
以前は英語版しかありませんでしたので、使い方をマスターするのにすごい苦労しましたが日本語マニュアルがあるのですんなり使用できると思います。ちなみに、動画による解説は今のところ英語しかありません。しかし、日本語マニュアルを読んだ後に動画を見ると、映像を見ているだけで理解度が高まります。
3Octoparseで抽出したデータとThemifyでの活用方法
残念ながらThemifyにはワードプレスのインポート機能以外に、CSVやHTMLを一括インポートする機能はありません。サイト作成において、訪問者に興味をもってもらう記事、共感を得る記事、知ってもらう記事を書く上で一括インポートすることが必要性がないからだと思います。
じゃあ、何のためにOctoparseを紹介してるの? と問われそうですが、アフィリエイトで紹介する商品をWooCommerceの商品ページを使って作成する場合に活用できます。
アフィリエイトサイトを作成する場合、「如何に効率よく商品紹介ページを作り、訪問者に分かりやすく紹介することができるか」が重要視されます。Octoparseを活用すれば、商品の紹介元のサイトから必要な情報を書き出し、WooCommerceの商品インポート機能を使って商品ページを効率よく作成することができます。
ThemifyにはWooCommerceの商品を様々な条件選択項目をドラッグ&ドロップで作成できる「Themify Product Filter」プラグインがあるので、条件分岐式などのコードが書けなくても商品検索フィルターを無料で作成できます。
Octoparseでの商品抽出条件の作成やWooCommerceにインポートするExcelを用いたCSVファイルの作成など、最初は手間がかかりますが一度作成してしまえば、情報の更新や商品の新規追加に時間を取られることがなくなりサイト管理が楽になります。
Octoparseで抽出したCSVファイルをWooCommerceにインポートする方法は
を参考にしてください。
4 Webスクレイピングする際の注意事項
先程も紹介した通り、Octoparseの日本語ページができたので使い方に関して困ることはないと思います。Octoparseの無料版は登録できるクローラー数が10個ですが、十分活用できると思います。
注意することは、無料版の場合、ローカルIPアドレス(自分のパソコン)を使ってスクレイピングを行うので、スクレイピング先のサーバーに負荷をかけるような使い方を行うとIPアドレスで接続を拒否される恐れがあります。接続回数やタイムアウト時間を調整して、相手方サーバーに負担をかけないように配慮する必要があります。
また、ソフトを用いたスクレイピングを禁止している場合もあるので、相手先サイトの注意事項を確認してから使用するようにしてください。