古いサイトや、あえてRSSを配信していないサイトのFeed(フィード)、RSSを取得したいことはないでしょうか?
フィードとは、ウェブサイト、特にブログやニュースサイトなどのコンテンツの概要もしくはコンテンツ全体を配信用に加工した文書のこと。
ウィキペディア
またRSSとは、ニュースやブログなど各種のウェブサイトの更新情報を配信するための文書フォーマットの総称である。
情報の取得方法はあるのですが、Feed43という自分で詳細にRSS情報をカスタマイズして取得するサービスがありましたので、その使い方の備忘録を残しておきます。
RSSを配信しているサイトから、さらに情報を絞ってRSS化することもできます。
RSSのないサイトの情報をRSS化して取得する方法
Feed43にアクセス
まずはFeed43にアクセスしましょう。
このサイトはSSL化されてないhttpのままのサイトなので、
詳細設定>feed43.comにアクセスする(安全ではありません)をクリックします。
その後サイトが表示されますので、Create your first feedボタンを押しましょう。
ソースコードの取得
今回はカナダの古い掲示板(BBS)を使った求人サイトのRSSを取得してみます。
Step 1. Specify source page address (URL)
Addressという場所にURLを入力してReloadボタンを押しましょう。
するとソースコードが表示されます。
コードから取得したい場所に印をつける
Step 2. Define extraction rules
表示されたソースコードを見て情報を整形しましょう。
繰り返している情報場所をコピペします。
<div class="divTableCell col1 dis-phone-none"><nobr>No.100342</nobr></div>
<div class="divTableCell col2"><img src="http://bbs.jpcanada.com/icon/bbs998.gif" width="32" height="32" /></div>
<div class="divTableCell col3 dis-phone-none">
0
</div>
<div class="divTableCell col4">
<a href="http://bbs.jpcanada.com/topics.php?bbs=4&msgid=100342&order=0&cat=&&dummy=0">オフィスワーク求人 PGWP保持者・永住権保持者歓迎</a><span class="dis-pc-none">
まず使うオプションを定義します。下記の記号をGlobal Search Pattern (optional)にコピペします。
{%}{*}
{%}
は変する情報の部分
{*}
はソースコードの改行部分に入れます。
このオプションを使って先ほどのコピペを整形すると、下記のような編集になります。
<div class="divTableCell col1 dis-phone-none"><nobr>{%}</nobr></div>{*}
<div class="divTableCell col2"><img src="{%}" width="32" height="32" /></div>{*}
<div class="divTableCell col3 dis-phone-none">{*}
{%}{*}
</div>{*}
<div class="divTableCell col4">{*}
<a href="{%}">{%}</a><span class="dis-pc-none">
これをItem (repeatable) Search PatternにコピペしてExtractボタンを押しましょう。
OKという緑の文字が出れば、成功です。
取得したい情報の候補がピックアップされました。
RSSのフォーマットを記入する
情報の候補がでたら、最後にRSSのフォーマットを作成しましょう。
Step 3. Define output format
まずはサイト全体の情報を入力します。
続いて取得したいカードの情報を入力します。
Item Title Templateにはタイトルに当たる情報を
Item Link Templateにはリンク先
Item Content Templateには詳細情報を入力します。
先ほどの情報から
{%5}が案県名、{%4}リンク情報なのでそちらを入力します。
もし画像も取得したかったら、<img src="{%2}">
というように記載します。
※今回は不要なので詳細情報は無しにしました。
最後にPreviewボタンを押すと、RSS情報のビジュアルが表示されます。
RSSのURLを取得する
Feed URLが実際のRSSで使うURL
Edit URLは編集したい時にアクセスするURLになります。
控えておきましょう。
最後に取得したURLをRSSリーダーに登録しましょう。
以上でRSSが配信されてないサイトでRSSが取得できました。
まとめ
海外にいると日本語の求人や住宅情報を得る時に、20年以上前のサイトからということがよくあります。
RSSすらなく、BBSで情報が展開されることもあるので、
今回のFeed43というRSS化できるサービスを利用してみました。
ちょっとテクニカルですが、うまく使うと好きな情報だけを取り出せるので便利なサービスです。