【Python】Webページ内のリンクからURLを取得する方法

BeautifulSoupを使って特定のWebページ内にあるハイパーリンクからURLをスクレイピングする方法です。

まず、BeautifulSoupが必要になるので、無ければインストールしておきましょう。

URLを取得するための関数を書くとこんな感じでしょうか。

urllibで対象ページを取得し、そこからBeautifulSoupでHTMLを解析します。
そして、find_allメソッドを使って<a>タグを取得し、その後にfor構文にてhref属性のみを取り出して空のリストに追加するという感じです。

実行結果

試しに、YahooのトップページにあるリンクからURLを引っ張ってきます。

引数”target”に対象となるWebページのURLを渡すと、そのページにある全てのリンクからURLを取得してきます。
実行結果はリスト型のデータで返ってくるようになってます。