メニュー

Feed43│RSSのないサイトの情報をRSS化して取得する方法

古いサイトや、あえてRSSを配信していないサイトのFeed(フィード)、RSSを取得したいことはないでしょうか?

フィードとは、ウェブサイト、特にブログやニュースサイトなどのコンテンツの概要もしくはコンテンツ全体を配信用に加工した文書のこと。
またRSSとは、ニュースやブログなど各種のウェブサイトの更新情報を配信するための文書フォーマットの総称である。

ウィキペディア

情報の取得方法はあるのですが、Feed43という自分で詳細にRSS情報をカスタマイズして取得するサービスがありましたので、その使い方の備忘録を残しておきます。

すいみん

RSSを配信しているサイトから、さらに情報を絞ってRSS化することもできます。

目次

海外でフリーランスをしているテクニカルアーティスト
ゲーム開発・映像制作・WEB制作等を請け負っています。
当ブログは作業効率化のための技術ブログです。

RSSのないサイトの情報をRSS化して取得する方法

STEP

Feed43にアクセス

まずはFeed43にアクセスしましょう。

このサイトはSSL化されてないhttpのままのサイトなので、

詳細設定>feed43.comにアクセスする(安全ではありません)をクリックします。

その後サイトが表示されますので、Create your first feedボタンを押しましょう。

STEP

ソースコードの取得

今回はカナダの古い掲示板(BBS)を使った求人サイトのRSSを取得してみます。

Step 1. Specify source page address (URL)

Addressという場所にURLを入力してReloadボタンを押しましょう。

するとソースコードが表示されます。

STEP

コードから取得したい場所に印をつける

Step 2. Define extraction rules

表示されたソースコードを見て情報を整形しましょう。

繰り返している情報場所をコピペします。

<div class="divTableCell col1 dis-phone-none"><nobr>No.100342</nobr></div>
<div class="divTableCell col2"><img src="http://bbs.jpcanada.com/icon/bbs998.gif" width="32" height="32" /></div>
<div class="divTableCell col3 dis-phone-none">
0
</div>
<div class="divTableCell col4">
<a href="http://bbs.jpcanada.com/topics.php?bbs=4&msgid=100342&order=0&cat=&&dummy=0">オフィスワーク求人 PGWP保持者・永住権保持者歓迎</a><span class="dis-pc-none">

まず使うオプションを定義します。下記の記号をGlobal Search Pattern (optional)にコピペします。

{%}{*}

{%}は変する情報の部分

{*}はソースコードの改行部分に入れます。

このオプションを使って先ほどのコピペを整形すると、下記のような編集になります。

<div class="divTableCell col1 dis-phone-none"><nobr>{%}</nobr></div>{*}
<div class="divTableCell col2"><img src="{%}" width="32" height="32" /></div>{*}
<div class="divTableCell col3 dis-phone-none">{*}
{%}{*}
</div>{*}
<div class="divTableCell col4">{*}
<a href="{%}">{%}</a><span class="dis-pc-none">

これをItem (repeatable) Search PatternにコピペしてExtractボタンを押しましょう。

OKという緑の文字が出れば、成功です。

取得したい情報の候補がピックアップされました。

STEP

RSSのフォーマットを記入する

情報の候補がでたら、最後にRSSのフォーマットを作成しましょう。

Step 3. Define output format

まずはサイト全体の情報を入力します。

続いて取得したいカードの情報を入力します。

Item Title Templateにはタイトルに当たる情報を

Item Link Templateにはリンク先

Item Content Templateには詳細情報を入力します。

先ほどの情報から

{%5}が案県名、{%4}リンク情報なのでそちらを入力します。

もし画像も取得したかったら、<img src="{%2}">というように記載します。

※今回は不要なので詳細情報は無しにしました。

最後にPreviewボタンを押すと、RSS情報のビジュアルが表示されます。

STEP

RSSのURLを取得する

Feed URLが実際のRSSで使うURL

Edit URLは編集したい時にアクセスするURLになります。

控えておきましょう。

最後に取得したURLをRSSリーダーに登録しましょう。

以上でRSSが配信されてないサイトでRSSが取得できました。

まとめ

海外にいると日本語の求人や住宅情報を得る時に、20年以上前のサイトからということがよくあります。

RSSすらなく、BBSで情報が展開されることもあるので、

今回のFeed43というRSS化できるサービスを利用してみました。

ちょっとテクニカルですが、うまく使うと好きな情報だけを取り出せるので便利なサービスです。

全記事一覧

  • URLをコピーしました!
目次