
あまりにも放置されまくっていて、まともに動いていないblogdb.jpですが、k.blogdb.jpにてMobile Link Discoveryに対応しました。
キーワード検索結果でエントリタイトルをクリックすると、一度Mobile Link Discovery Redirectorに飛ばします。
飛ばした先のURLにてMobile Link Discoveryに対応していなければ、今までの詳細ページを表示するようにしてあります。
本来ならfeed中のMobile Link Discoveryを保持しておくのがベストなんですが、取り急ぎ対応です。
肝心のblogdb.jpですが、一日に100万件以上のWebUpdate pingを受け取るようになっていて
現状の構成では、どうにもならなくなっているのでサーバのリプレースとシステムのリプレースをかけます。
機能的にも、他がやってるようなものは撤廃する感じで逝きます。
なんとなくですが、システムのスクリプト関連は全部svnで公開する方向で行きます。
誰でもブログ検索サイト作れるような方向で。
ちなみにblogdb.jpのデータを一旦クリアして収集をやり直しています。こういうのを焼け石に水って言います。

blogdb.jpも思い付きでやり始めて一年が経過しました。
みなさんいかがお過ごしでしょうか。
Alphaらしい挙動の不安定さにもめげず今日もHDDランプつきっぱなしの毎日です。
過去はlivedoor blogのentryの対応に悩んでみたりもしましたが
ここ最近seesaa.netの無節操なentryに各中の人が苦労している毎日です。
google blog searchどころか本体のsearchにも悪影響が出てきていますね。
blog界の京都議定書とかが必要になるのではないかと憂鬱です。
Blog 2.0にでもなるんでしょうかね。
(ここまで棒読み)
というわけで、seesaa.netでのエントリは一定の特徴に適合したものは検索対象から外すようにしました。
誤爆率は不明ですが、seesaa全部をはぶるよりも大分まともな対応だと思うのでしばらくこのままで。
blogdb.jp Betaにでもなったら、もうちょいましな対応が出来そうです。

usenのなんとかGateの回線の先にblogdb,k.blogdbを設置しているのですが
useに大規模障害が発生しているようなので、アクセス不能状態となっています。
普及するのをまったり寝ようかとおもいm

Google, Yahoo!, Microsoft と Web 2.0 な話題がつづいてましたが、Etech にあわせてか、Amazon (A9) がサーチと RSS のテクノロジー A9 OpenSearch をリリース。
って事なので、blogdb.jpも追随してみました。
検索結果のテンプレートの変更とOpenSearch Descriptionというxmlを書くだけで簡単に対応できちゃいました。
そんな事よりblogdb.jpを安定させなきゃ

何かがおかしいと思ってログみてたら、FC2 BLOGから大量にupdatepingが飛んできてる。
秒間数十リクエストとか、そんな感じ。
更新されていないBlogの分まで飛んできてるのでバグっぽい…
ちょっと前までは、そんな挙動は確認できなかったし。
うちだけかと思ったらping.bloggers.jpのchanges.xmlにも大量のfc2.comなBlogが。。。。
とりあえず脳みそ回ってないので様子見た上で何か考えよ
FC2インフォメーション発見したので、一応トラックバックもしとこっと
12:50追記:現在は問題の箇所が修正されて正常に稼動しています

blogdb.jpとk.blogdb.jpが一日止まってました。
どういうわけか、16日から調子が悪くてサービス停止状態になってました。
家に帰ってきてから、強制電源OFF/ONして復旧させました。
でも、別の理由で最新記事取得部分が不安定
つづく

標準でご利用頂けるping送信先に、以下の4サイトを追加いたしました。・ exciteブログ
・ blogoon
・ blogdb.jp
・ Bulkfeedsping送信先を増やすことで、作成された記事がより多くの方の目に触れる機会を増やすことができます。
という事で、blogdb.jpがSeesaaブログの標準ping送信先になったようです

k.blogdb.jpで、ナビゲーターって単語がやけに上位にいると思ったらアダルトブログのspam pingを大量に受け取っていたようだった。
とりあえずBanList更新したけど、こういうListをみんなで共有して利用できたら便利だなと思う。
ORDBのblog版って感じで。
TrackBack ping spamやらupdateping spamやらを行ってくるBlogのURLを皆で協力して登録していって、登録情報はXML-RPCとかで自由に取得できるの。
スパマーなんで暫くたったらURLころころ変えていたちごっこになるけど、皆でやれば被害が少なくなるかな?と
こればっかは、一人でやっても意味ないから、どうしよ~かね。
sfにプロジェクト立ち上げてみるかな。

EUCでのoe設定時に、HTTP HeadのcharsetをEUCで吐いていたので一部のブラウザで文字化けが発生していたようです。
charsetをEUC-JPと吐き出すようにしてみたので、多分問題なくなるかと思います。
http://boku.lovesick.jp/archives/2004/10/post_237.htmlでのご報告を元にFixしました。bokuさん、ありがとうございます。
あと、志村検索での関連語に記号だけの意味を持たない文字列などが抽出されたので、これを直しました。

最近blogdb.jpで、しょっちゅう「はてなアンテナ ページが更新されました」「未来検索アラートメール」「[MyRSS]メール配信」なエントリが引っかかっていてどうにかしようと思っていました。
何でかって言うと、独自のコンテンツが無く機械的にコピーされた文書が沢山掲載されているので、検索精度が格段に落ちるんですよ。
関連検索なんて、もうずたぼろ。
偶然、おのひろきさんのRSS 検索サービスに,あるキーワードを含まないっていう検索機能が欲しいというエントリを発見。
Bulkfeed や Feedback は and や or で複数キーワードを指定した検索ができるけど,あるキーワードを含まない検索ってのは出来ないみたい.それが出来れば,問題の記事は RSS では「はてなアンテナ ページが更新されました」っていうタイトルだから簡単にブロックできそうなんだけどな.
その通りなので、昨日のうちに上記3サイトのメール通知を基にした自動更新されたBlogをブロックしてみました。
効果は上がってる模様。
次は、SPAMなBlog対策を考えていかないとな。

k.blogdb.jpにおいて、話題性のあるエントリタイトルを一覧表示しました。
話題性のある単語一覧を元にblogdb.jp中のblogを検索して、エントリタイトルを文字列の類似度が高いもの別に仕分けして、よく使われているタイトルを表示するようにしています。
タイトルをクリックすることにより、関連blogの内容の一部が一覧表示されるので、話題性のある事柄の斜め読みが出来ます。
ほんとは自動要約した文章を表示できれば良いんですけどね。
あとは、これらのデータのRSS配信かのう。

http://k.blogdb.jp/
blogdb.jpに登録されているデータを元に、話題性のあるキーワードを携帯で見る事が出来るサイトを公開しました。
おまけとして、携帯からBlog検索とエントリの内容をプレビューできるようにしてあります。
出先で何か大きなニュースが発生した時に概要を掴む事が出来たりと便利そうです。
Blog検索回りは、なにかと自発的に行動する事が多いですが、こういう受身な検索もおもろいかも。

blogdb.jpで、いわゆるSimilarity Searchと呼ばれるタイプの志村検索をリリースしました。
いわゆるBulkfeeds等で実装されているあの機能です。
おんなじ様な物を作るのもアレだったのですが、とりあえず作ってみました。
MTな方はIndividual Entry Archiveテンプレートの任意の場所に以下のコードを組み込んでください。
<script language="JavaScript" src="http://blogdb.jp/simura/simura.js?url=<$MTEntryPermalink encode_url="1"$>"></script>
SJISのサイトで、記事数を5件まで表示し、今日登録されたエントリの中から志村検索をするときは下記のコードを使います。
<script language="JavaScript" src="http://blogdb.jp/simura/simura.js?url=<$MTEntryPermalink encode_url="1"$>&oe=SJIS&n=5&d=1"></script>
関連語は、blogdb.jpに登録されている全文書を対象としてtfidfのような手法でスコアリングをして求めています。
その求められた関連語の上位8件の単語をNamazuでor検索して関連エントリを求めています。
速度とそれなりの精度を出すために適当なアルゴリズムとなっています。
現時点では完璧を求める類の実装にはなっていません。
要するに第一世代の全文検索エンジンの雰囲気が好きな方には最適と言う事です。
一応手抜きなWebインターフェイスも用意してあります。
http://blogdb.jp/simura/
実際の出力サンプルは、下の方を参考にしてみてください。

現在blogdb.jpの関連検索用のDBを再構築しています。
一部の単語の解析がうまくいっていないため、200万件以上のエントリデータを再構築しています。
きっと週末中に終わります。
その再構築が終わったらBulkfeedsさんのSimilarity Searchみたいな機能をつけます。
名前は志村検索と言う事で。
運用しつつ精度改善をする感じで。
9/6 11:00追記:
まだまだDBの再構築に時間がかかっています。
現在半分の再構築が完了した程度です。
9/8 16:00追記:
ようやく70%程処理できたでしょうか・・・
長い
blogdb.jp

なーんかblogdbのクロウラー君の挙動がおかしいと思ったら。
スイッチのポートランプが緑とオレンジに点滅してたし。
マンションのMDFにある対向機器のduplexがfullからhalfになっていたみたい。
セッション張った後のread/write処理中に固まってるみたいでPHP5の実装が変なのかな?と思ってたけど
もっとレイヤーの低い所のトラブルだったと。
HTTP周りもPEARから独自実装の物に変更したり色々やってて苦労は無駄だったらしい。
疑ってごめんね。PHP君。
って事でblogdbの新規エントリ収集システムは超快調に動いとります。
エントリが公開されてから2~3分で検索できるようになってきた。
と思ったらchanges.xmlを解析する奴が変になってた。。。
rss収集部分のトラブルとは別物なのか?

主な目玉として、検索結果のRSSフィードを開始しました。
俗に言うblog検索エンジンぽくなったのかな。
他には、検索範囲を広げたり、関連キーワードの抽出をtfidfmにしてみました。
ついでに alpha release 0.9 です。
ベータまでに積み込みたい事はまだまだまだまだ。
そろそろ.jsファイルの配信とかも導入しとこうかしら。
まーだ人の後ろを追っかけてる感じっぽいです。

今朝方からとあるホストからちょくちょくとpingリクエストを受けていてなんだと思っていたら
日記系.jpのping送信先になっていたっぽいです。
管理者日記やお知らせにそれらしい事が書いてないので事態を飲み込めては居ないですが。
日記系.jpさんもQRコードに対応始めたそうで、徐々にQRコードがモバイル必須になる予感。

blogdbネタです。
別に何かをしたわけではないのですが
重い処理だった関連ワード機能に関するデータ解析処理が先日終わったので
サーバ全体の負荷が下がり、本来想定していた検索スピードになってきました。
クエリー投げてから一瞬で結果が返ってきて予想より速くて驚いてはいるのですが。
これでようやく機能追加やらチューニングが出来るようになる。
検索とは違うけどトラックバックを使った面白そうな仕組みを思いついたので、誰かが先にやってなければ実装するとおもう。
関連ページ:http://blogdb.jp/

blogdb.jpで使用しているマシンは、某社の廃棄ベアボーンを使っていたわけだが
OSインストール中から結構挙動がおかしかった。
昨日ついに限界が来たらしく、mysqldがしょっちゅう落ちる状況になっていた。
しまいにはリブートも出来ない状況だったので、PC検索エンジンサーバに乗せかえる事を決意した。
その代わりPC検索の機能を停止しなければならないが、大して使われていないのとあんまり使い勝手がいい物でもなかったので一時的に休止してもらう事にした。
マシンのスペックも大分あがってるはずなのだが、検索速度は現状上がっていない。むしろ下がっている。
と言うのも裏で、色々な予備データを作成し始めているので、それがネックになっている。
当然、関連検索もどきの機能がついたので、そこも足かせになっている。Namazu本体含め全体的なチューニングが必要かも。
まぁ、しばらくしたら落ち着くとは思うし利用者居ない現状だと影響ないけどね。

blogdb.jpというblog検索サイトを作ってみた。
現状同じようなサイトは大量にあるけど物真似するのはYappoに任せて、こっちは色々変な事してみようと思う。
blogに特化した検索サイトならではの要素も結構思いついてるし、ここ最近暖めてるネタの実験も出来そう。
コンセプトは
なんでblogに特化した検索エンジンなの?~そして未来の検索へ~
ってなかんじで。
コンセプトの寄せ集め見たいなメモの断片なら大量にあるけど、上の一行がそれらを集約してるはず。
現状の実装としては、独自pingサーバに通知のあったblogからrssとatomファイルを持ってきてnamazuでインデックス作ってます。
クロウラーとインデクサは5分おきに交互に起動される感じです。
現状は独自のpingサーバに通知のあったblogのみを検索できるようにしてるけど、徐々に他のpingサイトのデータも使うと思う。