malaさんのYAPC::Asia 2009の資料

http://ma.la/files/yapcasia2009/#0
perlのライブラリはよくわかんないけど、非同期処理は勉強になりました。

ただ並列処理するだけだと遅いよという話。

1プロセスで全て行う(フィードの取得、解析、DB書き込み) 並列実行数だけプロセスを立ち上げる(Parallel::ForkManager) 指定件数のフィードを処理したら終了

Fetch->Parse->Updateという処理があったとしたら単純に並列かするだけだとFetchしている間はParse->Updateは待ちになるから遅い。

まずは処理を分割。

Fetchする処理と、その後の(重い)処理は別プロセスに分けよう

HTTPを非同期化/並列化するライブラリを使うだけでは速度は向上しない

タスクはキューを使いましょう。

HTTPリクエストを非同期化する前にタスクを分割せよ
メッセージキュー(あるいはジョブサーバー)を使うことでタスクを分割できる

クローラの例だとこんな感じに分割

Fetch/Parse/Update の3つのモジュールに分割

Fetch: フィードの取得、更新されているかのチェック

Parse: フィードの解析

Update: DBへの書き込みを行う

この考えはgoogle appengine のTaskQueueで使えそうだ。