So-net無料ブログ作成

常識的に許された一般的なWebクローラのマナーとは何か

高木氏の"自宅の日記"の一部に掲載されておりましたところから一点。

> ようするに、中川氏のアクセス方法*4が常識的に許されている方法だったか否かであり、
> 技術者からすれば一般的なWebクローラのマナーに従っていると思うわけだけども、
> 技術を知らない検察や警察にそれを客観的に示さなければならない。*5

技術者からすれば特におかしなことはない、とですね。そして、客観的に示さなければならない、とも。いずれもどうにも独りよがりな感の拭えない仰りようですが、ここはさておき、


 "技術者からすれば一般的なWebクローラのマナー"


とはいったい何でしょう? さて、一体どこにそんなマナーが示されていたでしょうか!? 高木氏は"自宅の日記"において様々な観点に言及され、且つ詳細に解説されますが、Librahack騒動にあって肝心要の

 "一般的なWebクローラのマナー"

について、高木氏は何らかのコンセンサス(?)はおろか、ざっくりとした目安さえもろくに示しておられないように思います。


或いは!??? 高木氏がこの点を無視しておられるなら 見事なトンデモさんですが、氏に限ってまさかそのようなことはございませんでしょう。



ともあれ、インターネット上のシステムのパフォーマンスは実に様々、世界を股にかける巨大企業やECサイトであれば相応のパフォーマンスを有してもいましょうが、これが一地方都市のせいぜい数十万人の市民の一部を対象にした限定的なサービスである場合には、何を根拠にマナーに適っている/そうでないという判断ができましょうか。ここでは架空の一例を考えてみます。


Librahack氏と同じように悪意のない動機(しかし独りよがりで浅はかな動機)から、Webクローラを作成した人がいるものとします。使用するのはこれからです。アクセス間隔をどのようにするかを考えます。対象は岡崎市ではないどこか地方都市(以下A市)の公共図書館の図書検索/予約システム(以下Bシステム)です。

A市は人口35万人です。地方都市としてはかなり大きいものの、地方自治体の人口としては日本で50番に数えられるほどではありません。

次に、公共図書館における、人口1人あたり年間貸し出し冊数について、以下の事例を参考に仮定条件を設けます。

滋賀県の公立図書館に関する資料
http://www.pref.shiga.jp/gyokaku/mark2006/files/097.pdf

滋賀県の9冊という数字は全国でダントツに多いようです。しかしここでの仮定は20冊としてみます。そして、貸し出しに際してBシステムの使用率は100%(本棚を前に探してそのまま窓口で借りる人は誰一人いない)とし、さらに貸し出し1冊に対してBシステムのアクセスは20回生じるものとします。この仮定においてBシステムの年間アクセス件数は1億4千万となります。

これに対し、年間の休館日を月2日+年末年始で365-(12+7)=334日とし、さらに1日あたりの稼働時間は6時間としますと1秒あたりの平均アクセス件数は20前後になるものと思われます。あくまで単純平均ですけれども。
(なぜ秒単位の平均を試算したかといいますと。岡崎市の一件にあって1秒1アクセスが問題視された一例を参考にしています。)


さて、敢えてこういった捉え方をしてみれば、ですけれども。

ごくごく単純に平均で考えるならば、人口35万人の中のたった1人のクローラが、システムの通常負荷(?)の20分の1程度のインパクト(?)を与えるかもしれない、ということです。

もちろんこれは恐ろしく断片的な、断片もさらにごく一面的な見方です。では、もっと厳密に、私が(あなたが)作成したWebクローラがシステムに与える影響を考えようとしますなら!?


私は(あなたは)何を以って妥当と判断できましょうか??


そして私(あなた)と同じような発想で同じようなWebクローラを作成する人は、A市の人口35万人の中に果たしてどれほどおられましょうか?? いや、インターネット経由なのですからA市の市民35万人だけを考えてはダメでしょうか?


見方を変えましょう。今度は図書館の側です。図書検索システムを更改します。性能要件をRFPに示さねばなりません。人口35万人の市内にあって、1秒1アクセスのWebクローラを使用する利用者はどれほどいるでしょうか。そして今後どれほど増えましょうか、Webクローラで1秒1アクセスが支障無いと考えた利用者が3倍のアクセス頻度に引き上げた場合はどのように対応しましょうか。

予算が無限であるなら悩む必要はありません。予算が税金でなければ、お金を何に使おうがどこから借金をしてこようが一般市民に文句を言われる筋合いではないかもしれません。スケーラビリティがおそろしく柔軟なシステムであれば、状況を見極めつつ逐次増強しても良いでしょう。


別の見方をしてみましょう。

利用者像を想定してみます。とある市民は毎週末に図書館を来訪し土日に4時間ずつ滞在し1時間に1冊を読破します。週末だけで8冊です。平日にも1日に2冊を絶えず読破します。合計18冊です。検索システムも大変に活用します。週18冊に対して平均であれば360アクセスですが、この利用者は平均の3倍、1080回アクセスします。

この利用者についてどのような印象を持ちますか。平均的な市民でしょうか、それともちょっと読書好きなだけでしょうか、あるいは大変な読書家でしょうか? この市民の検索回数を単純に1秒あたりに均すなら、0.000324です。1秒1アクセスのWebクローラの3000分の1以下です。

また別の見方をしてみましょう。

オンラインの株式受発注システムを契約しています。1秒の約定のずれが億単位の損益となる可能性があります。受発注システムのレスポンスは当然のことながら、発注をかけるこの目の前のPCのCPU/メモリリソースまで一瞬のフリーズも許されません。一方で公共の無償の図書貸し出しサービスにあってはどうでしょうか。



ここで、敢えてお断りをしておきます。


・私個人は "高木氏の究明なさった情報が正しければ"
 この一件にあってはMDISにある程度の非があると考えています。

・MDISの非とは本来発揮できる性能を損ねたという点と、
 Librahack氏のトラフィックを安易に攻撃と見做した点です。

・私個人は、警察がLibrahack氏を逮捕した行為について大変軽率であると考えています。


いえ、これは、恐ろしく浅はかに "オレの敵か味方か" のような発想をするDQNに向けての断り書きでしかありませんが。



話を戻しまして。


高木氏の仰るような、検察や警察に対するWebクローラのマナーの説明に、はて!? どれほどの説得力が伴うのでしょうか。検察や警察が相手でなく、一般市民に対する説明にあっての説得力は尚のこと。

説得力が何故必要か!? ここに至って説明の必要などまったくないかもしれませんが、対象が公共システム/サービスだからに他なりません。5倍の格差が許されない1票の重みではありませんが、ざっと3000倍のアクセス頻度(しかも何らコスト差は生じない)の違いとはさて。もっとも、ここでの試算の一例ではアクセス頻度の差の捉え方が3000倍になることもあるというだけで、実際の図書館の利用価値までもこれほど違うとは言いませんでこの点は短絡的に捉えられませんように。


ともあれ、Webクローラの正当性根拠に技術的な論理性(?)や正当性(?)を示したところで、技術的な論理性/正当性=社会における論理性=正当性と同義であるはずもありません。

いえ、私は高木氏の意図をよく存じ上げているわけではありませんが、たとえば冒頭に引用した一節で"技術を知らない検察や警察に・・・"という表現を用いるあたり、ひょっとしたら氏が偏ったお考えも、やや、部分的に、度が過ぎるのでは!?と疑問をいただかないこともありません。次も高木氏の日記から一部引用しますが


> このことは、今回の中川氏の事案で済むことではなく、これが前例となって*6、
> Webクローラの利用が萎縮するという、日本のインターネット技術の将来に関わる
> 問題なのだから、今回の件が常識的に許されているアクセス(刑事上の意味で)
> だったことはハッキリさせておかなければならない。


日本のインターネット技術の将来に関わる問題とは、行き着くところまで行けばその通りだとは思いますが、このすさまじい論理の飛躍っぷりには、少々DQN発想的な違和感をおぼえます。また、刑事上の意味でハッキリさせるも何も、実際に不起訴となってハッキリしています。決して、(どこで?)常識的に許されている(??)Webクローラのマナー(???)だから不起訴ではありませんので、高木氏のここでの仰りようはまるでエスパーですが。


しかし、氏の基本的な姿勢や意見に特に問題があるとは言っていません。前例として周知の認識が無い騒動に対して、見当違いな対応をしたり、後から思えばバカげた行動を取ることは、程度問題ですがまったくしかたがないことです。Librahack氏も岡崎の件にあたったMDISも高木氏も、たいして変わりはありません。いえ、高木氏が独立行政法人の特定分野に偏った人物であることを思えば、今回の騒動にあっての氏の姿勢はむしろ例外的に(?)、常識に近いほうかもしれません。

ただ、如何せんシステム側にいくらか偏ったお話の印象ではあります。


いえ、これがもし!? 昨日まで学生だったような駆け出しのエンジニアが偏見にまみれているならともかくですが。高木氏は駆け出しとは到底いえませんし、まして日々の "ご活躍" の様子や、信者向けの影響力からしますと!? もう少々、ご自身の立ち位置を客観的にお考えになることをお試しになってはいかがでしょうか、と申し上げたくはなります。


また、私は高木氏ご当人をことさら批判しているわけではありませんけれども。


氏の意見をつまみ食いで引用(というか悪用)し、さらにこじつけ屁理屈をを展開している連中は呆れますね。


それから、これはまた話がちょっと飛ぶのですけれども。

> 私たちが三菱電機ISに求めているのは、完全なシステムなどというものではない。
> 欠陥のある不完全なシステムであるなら「欠陥を認めること」で十分であり、実際、
> 欠陥を改修せずに「欠陥があるので、そういうアクセスはしないでください」と
> 告知するのでもかまわない。*9

そして*9の注釈は次のように。

> *9 短期的には。(長期的には、そういう輩が増えると
> 別の問題が生じてくると予想される。)

Webクローラによるアクセスをお断りするとどんな問題が生じるのでしょうね。個人的には、地方の公共図書館システムでならどこも全面禁止とうたって良いようにも思いますが。この点は氏の今後の日記をお待ちしたいと思います。




コメント(0)  トラックバック(0) 

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

トラックバック 0