BeautifulSoupでHTMLからテキストを抽出する方法

Pythonのスクレイピング用ライブラリである、BeautifulSoupを使ってHTMLからデータを取得する方法を以下にまとめておいた。
この記事では、任意のタグからテキストデータを抽出してみる。

サンプルのHTMLはこちら。
このHTMLからテキストを抽出します。
HTMLのデータを変数「html」に入れておきます。

任意のタグから情報を取得

まず最初にBeautifulSoupをインポートします。
そしてhtmlタグを伝って、任意の要素を取得します。
この例では、h1タグの情報を取得してみることにした。

IDで要素を検索する。

IDから要素を探す方法。
findメソッドでIDを指定します。

同じ条件の複数の要素を抽出する方法。

find_allメソッドで同じ条件の全ての要素を検索できます。
ここでは2つの<p>タグを抽出してみることにしました。

以上、BeautifulSoupの基本的な使い方でした。
続きはまた今度書きます。