2005年12月07日

k.blogdb.jp で Mobile Link Discovery 対応しました

あまりにも放置されまくっていて、まともに動いていないblogdb.jpですが、k.blogdb.jpにてMobile Link Discoveryに対応しました。

キーワード検索結果でエントリタイトルをクリックすると、一度Mobile Link Discovery Redirectorに飛ばします。
飛ばした先のURLにてMobile Link Discoveryに対応していなければ、今までの詳細ページを表示するようにしてあります。

本来ならfeed中のMobile Link Discoveryを保持しておくのがベストなんですが、取り急ぎ対応です。


肝心のblogdb.jpですが、一日に100万件以上のWebUpdate pingを受け取るようになっていて
現状の構成では、どうにもならなくなっているのでサーバのリプレースとシステムのリプレースをかけます。
機能的にも、他がやってるようなものは撤廃する感じで逝きます。

なんとなくですが、システムのスクリプト関連は全部svnで公開する方向で行きます。
誰でもブログ検索サイト作れるような方向で。


ちなみにblogdb.jpのデータを一旦クリアして収集をやり直しています。こういうのを焼け石に水って言います。

Posted by Yappo at 20:09 | Comments (1) | TrackBack

2005年11月03日

ブランデー


ケーキくうにはね。

用途に見合ったソリューションは食も同じ

Posted by Yappo at 19:18 | Comments (0) | TrackBack

2005年09月21日

seesaaからのエントリの締め付け その1

blogdb.jpも思い付きでやり始めて一年が経過しました。
みなさんいかがお過ごしでしょうか。
Alphaらしい挙動の不安定さにもめげず今日もHDDランプつきっぱなしの毎日です。

過去はlivedoor blogのentryの対応に悩んでみたりもしましたが
ここ最近seesaa.netの無節操なentryに各中の人が苦労している毎日です。
google blog searchどころか本体のsearchにも悪影響が出てきていますね。
blog界の京都議定書とかが必要になるのではないかと憂鬱です。
Blog 2.0にでもなるんでしょうかね。

(ここまで棒読み)

というわけで、seesaa.netでのエントリは一定の特徴に適合したものは検索対象から外すようにしました。
誤爆率は不明ですが、seesaa全部をはぶるよりも大分まともな対応だと思うのでしばらくこのままで。
blogdb.jp Betaにでもなったら、もうちょいましな対応が出来そうです。

Posted by Yappo at 11:19 | Comments (0) | TrackBack

2005年05月30日

blogdb.jp停止中

usenのなんとかGateの回線の先にblogdb,k.blogdbを設置しているのですが
useに大規模障害が発生しているようなので、アクセス不能状態となっています。

普及するのをまったり寝ようかとおもいm

Posted by Yappo at 02:07 | Comments (0) | TrackBack

2005年03月16日

A9 OpenSearchに対応しました

OpenSearch by A9より


Google, Yahoo!, Microsoft と Web 2.0 な話題がつづいてましたが、Etech にあわせてか、Amazon (A9) がサーチと RSS のテクノロジー A9 OpenSearch をリリース。

って事なので、blogdb.jpも追随してみました。
検索結果のテンプレートの変更とOpenSearch Descriptionというxmlを書くだけで簡単に対応できちゃいました。


そんな事よりblogdb.jpを安定させなきゃ

Posted by Yappo at 14:29 | Comments (0) | TrackBack

2005年02月17日

FC2 BLOGのping機能が暴走中

何かがおかしいと思ってログみてたら、FC2 BLOGから大量にupdatepingが飛んできてる。
秒間数十リクエストとか、そんな感じ。
更新されていないBlogの分まで飛んできてるのでバグっぽい…
ちょっと前までは、そんな挙動は確認できなかったし。

うちだけかと思ったらping.bloggers.jpのchanges.xmlにも大量のfc2.comなBlogが。。。。

とりあえず脳みそ回ってないので様子見た上で何か考えよ

FC2インフォメーション発見したので、一応トラックバックもしとこっと

12:50追記:現在は問題の箇所が修正されて正常に稼動しています

Posted by Yappo at 05:09 | Comments (2) | TrackBack

blogdb.jp障害復旧のお知らせ

blogdb.jpとk.blogdb.jpが一日止まってました。

どういうわけか、16日から調子が悪くてサービス停止状態になってました。
家に帰ってきてから、強制電源OFF/ONして復旧させました。

でも、別の理由で最新記事取得部分が不安定


つづく

Posted by Yappo at 04:44 | Comments (0) | TrackBack

2005年02月11日

Seesaaブログの標準ping送信先になったらしい

Seesaaブログ、機能追加のお知らせ


標準でご利用頂けるping送信先に、以下の4サイトを追加いたしました。

・ exciteブログ
・ blogoon
・ blogdb.jp
・ Bulkfeeds

ping送信先を増やすことで、作成された記事がより多くの方の目に触れる機会を増やすことができます。

という事で、blogdb.jpがSeesaaブログの標準ping送信先になったようです

Posted by Yappo at 00:32 | Comments (1) | TrackBack

2004年12月10日

updateping spam とBlog版ORDB

k.blogdb.jpで、ナビゲーターって単語がやけに上位にいると思ったらアダルトブログのspam pingを大量に受け取っていたようだった。
とりあえずBanList更新したけど、こういうListをみんなで共有して利用できたら便利だなと思う。

ORDBのblog版って感じで。

TrackBack ping spamやらupdateping spamやらを行ってくるBlogのURLを皆で協力して登録していって、登録情報はXML-RPCとかで自由に取得できるの。
スパマーなんで暫くたったらURLころころ変えていたちごっこになるけど、皆でやれば被害が少なくなるかな?と

こればっかは、一人でやっても意味ないから、どうしよ~かね。
sfにプロジェクト立ち上げてみるかな。

Posted by Yappo at 15:17 | Comments (6) | TrackBack

2004年11月11日

志村検索の仕様変更を行いました

EUCでのoe設定時に、HTTP HeadのcharsetをEUCで吐いていたので一部のブラウザで文字化けが発生していたようです。
charsetをEUC-JPと吐き出すようにしてみたので、多分問題なくなるかと思います。
http://boku.lovesick.jp/archives/2004/10/post_237.htmlでのご報告を元にFixしました。bokuさん、ありがとうございます。

あと、志村検索での関連語に記号だけの意味を持たない文字列などが抽出されたので、これを直しました。

Posted by Yappo at 00:58 | Comments (0) | TrackBack

2004年11月08日

はてな、未来検索、MyRSSな自動更新Blogを収集停止しました

最近blogdb.jpで、しょっちゅう「はてなアンテナ ページが更新されました」「未来検索アラートメール」「[MyRSS]メール配信」なエントリが引っかかっていてどうにかしようと思っていました。
何でかって言うと、独自のコンテンツが無く機械的にコピーされた文書が沢山掲載されているので、検索精度が格段に落ちるんですよ。
関連検索なんて、もうずたぼろ。

偶然、おのひろきさんのRSS 検索サービスに,あるキーワードを含まないっていう検索機能が欲しいというエントリを発見。

Bulkfeed や Feedback は and や or で複数キーワードを指定した検索ができるけど,あるキーワードを含まない検索ってのは出来ないみたい.それが出来れば,問題の記事は RSS では「はてなアンテナ ページが更新されました」っていうタイトルだから簡単にブロックできそうなんだけどな.

その通りなので、昨日のうちに上記3サイトのメール通知を基にした自動更新されたBlogをブロックしてみました。
効果は上がってる模様。


次は、SPAMなBlog対策を考えていかないとな。


http://blogdb.jp/

Posted by Yappo at 16:55 | Comments (0) | TrackBack

2004年11月04日

ニュースサマリ配信機能公開

k.blogdb.jpにおいて、話題性のあるエントリタイトルを一覧表示しました。
話題性のある単語一覧を元にblogdb.jp中のblogを検索して、エントリタイトルを文字列の類似度が高いもの別に仕分けして、よく使われているタイトルを表示するようにしています。

タイトルをクリックすることにより、関連blogの内容の一部が一覧表示されるので、話題性のある事柄の斜め読みが出来ます。

ほんとは自動要約した文章を表示できれば良いんですけどね。
あとは、これらのデータのRSS配信かのう。

http://k.blogdb.jp/

Posted by Yappo at 20:18 | Comments (0) | TrackBack

2004年11月02日

携帯用の最新キーワード提供サイト公開

http://k.blogdb.jp/
blogdb.jpに登録されているデータを元に、話題性のあるキーワードを携帯で見る事が出来るサイトを公開しました。
おまけとして、携帯からBlog検索とエントリの内容をプレビューできるようにしてあります。

出先で何か大きなニュースが発生した時に概要を掴む事が出来たりと便利そうです。
Blog検索回りは、なにかと自発的に行動する事が多いですが、こういう受身な検索もおもろいかも。

Posted by Yappo at 19:36 | Comments (0) | TrackBack

2004年09月13日

志村検索リリースしました

blogdb.jpで、いわゆるSimilarity Searchと呼ばれるタイプの志村検索をリリースしました。
いわゆるBulkfeeds等で実装されているあの機能です。
おんなじ様な物を作るのもアレだったのですが、とりあえず作ってみました。

MTな方はIndividual Entry Archiveテンプレートの任意の場所に以下のコードを組み込んでください。


<script language="JavaScript" src="http://blogdb.jp/simura/simura.js?url=<$MTEntryPermalink encode_url="1"$>"></script>

パラメータの仕様


  • url - Permalinkを入れてください
  • oe - 出力エンコードの指定をします。SJIS JIS EUC UTF-8を指定します。デフォルトはUTF-8です。
  • n - 関連記事の表示件数を指定します。1~10までの数値を指定できます。デフォルトは10です。
  • d - 検索範囲を指定します。検索時から何日前までのインデクスを検索範囲にするかを指定できます。1~5までの数値を指定できます。デフォルトは3です。

    SJISのサイトで、記事数を5件まで表示し、今日登録されたエントリの中から志村検索をするときは下記のコードを使います。


    <script language="JavaScript" src="http://blogdb.jp/simura/simura.js?url=<$MTEntryPermalink encode_url="1"$>&oe=SJIS&n=5&d=1"></script>


    スタイルシートの仕様


  • blogdbSimura - 志村検索で出力されているテキスト全てに適用
  • blogdbSimuraPowered - 志村検索 by blogdb.jp の部分に適用
  • blogdbSimuraWords - 関連語に適用
  • blogdbSimuraBody - 関連記事一覧に適用
    全てdivのclass指定をしてあります。


    やっている事


    blogdb.jpに登録されているエントリの内容をchasenで分かち書きをしてインデックスを作っています。
    大体エントリを公開してから4分くらいで志村検索の対象エントリになると思います。

    関連語は、blogdb.jpに登録されている全文書を対象としてtfidfのような手法でスコアリングをして求めています。
    その求められた関連語の上位8件の単語をNamazuでor検索して関連エントリを求めています。
    速度とそれなりの精度を出すために適当なアルゴリズムとなっています。
    現時点では完璧を求める類の実装にはなっていません。
    要するに第一世代の全文検索エンジンの雰囲気が好きな方には最適と言う事です。

    一応手抜きなWebインターフェイスも用意してあります。
    http://blogdb.jp/simura/


    実際の出力サンプルは、下の方を参考にしてみてください。

    Posted by Yappo at 11:07 | Comments (4) | TrackBack
  • 2004年09月03日

    関連検索メンテナンスと志村検索導入予定のお知らせ

    現在blogdb.jpの関連検索用のDBを再構築しています。
    一部の単語の解析がうまくいっていないため、200万件以上のエントリデータを再構築しています。
    きっと週末中に終わります。

    その再構築が終わったらBulkfeedsさんのSimilarity Searchみたいな機能をつけます。
    名前は志村検索と言う事で。
    運用しつつ精度改善をする感じで。

    9/6 11:00追記:
    まだまだDBの再構築に時間がかかっています。
    現在半分の再構築が完了した程度です。

    9/8 16:00追記:
    ようやく70%程処理できたでしょうか・・・
    長い
    blogdb.jp

    Posted by Yappo at 13:09 | Comments (13) | TrackBack

    2004年08月31日

    duplexの罠

    なーんかblogdbのクロウラー君の挙動がおかしいと思ったら。
    スイッチのポートランプが緑とオレンジに点滅してたし。
    マンションのMDFにある対向機器のduplexがfullからhalfになっていたみたい。

    セッション張った後のread/write処理中に固まってるみたいでPHP5の実装が変なのかな?と思ってたけど
    もっとレイヤーの低い所のトラブルだったと。
    HTTP周りもPEARから独自実装の物に変更したり色々やってて苦労は無駄だったらしい。
    疑ってごめんね。PHP君。


    って事でblogdbの新規エントリ収集システムは超快調に動いとります。
    エントリが公開されてから2~3分で検索できるようになってきた。

    と思ったらchanges.xmlを解析する奴が変になってた。。。
    rss収集部分のトラブルとは別物なのか?

    Posted by Yappo at 14:35 | Comments (3) | TrackBack

    2004年08月25日

    検索結果のRSSフィードを開始

    主な目玉として、検索結果のRSSフィードを開始しました。
    俗に言うblog検索エンジンぽくなったのかな。

    他には、検索範囲を広げたり、関連キーワードの抽出をtfidfmにしてみました。
    ついでに alpha release 0.9 です。

    ベータまでに積み込みたい事はまだまだまだまだ。
    そろそろ.jsファイルの配信とかも導入しとこうかしら。
    まーだ人の後ろを追っかけてる感じっぽいです。

    Posted by Yappo at 04:27 | Comments (23) | TrackBack

    2004年08月17日

    Adsence入れてみた

    流行りものに手を出してみようと言う事でGoogleのAdsenceを入れてみた。
    HTML貼り付けるだけだから導入してみた。

    次はAmazonかぁ、めんどっちそうだなぁ。

    Posted by Yappo at 01:29 | Comments (0) | TrackBack

    2004年08月16日

    日記系.jpのping送信先になったらしい

    今朝方からとあるホストからちょくちょくとpingリクエストを受けていてなんだと思っていたら
    日記系.jpのping送信先になっていたっぽいです。
    管理者日記やお知らせにそれらしい事が書いてないので事態を飲み込めては居ないですが。

    日記系.jpさんもQRコードに対応始めたそうで、徐々にQRコードがモバイル必須になる予感。

    関連:
    日記系.jp
    かんり・にんざぶろう @管理人さんの日記

    Posted by Yappo at 20:30 | Comments (0) | TrackBack

    2004年08月15日

    検索速度向上

    blogdbネタです。
    別に何かをしたわけではないのですが
    重い処理だった関連ワード機能に関するデータ解析処理が先日終わったので
    サーバ全体の負荷が下がり、本来想定していた検索スピードになってきました。
    クエリー投げてから一瞬で結果が返ってきて予想より速くて驚いてはいるのですが。
    これでようやく機能追加やらチューニングが出来るようになる。

    検索とは違うけどトラックバックを使った面白そうな仕組みを思いついたので、誰かが先にやってなければ実装するとおもう。


    関連ページ:http://blogdb.jp/

    Posted by Yappo at 17:52 | Comments (6) | TrackBack

    2004年08月07日

    マシン入れ替えとPC検索休止

    blogdb.jpで使用しているマシンは、某社の廃棄ベアボーンを使っていたわけだが
    OSインストール中から結構挙動がおかしかった。
    昨日ついに限界が来たらしく、mysqldがしょっちゅう落ちる状況になっていた。
    しまいにはリブートも出来ない状況だったので、PC検索エンジンサーバに乗せかえる事を決意した。
    その代わりPC検索の機能を停止しなければならないが、大して使われていないのとあんまり使い勝手がいい物でもなかったので一時的に休止してもらう事にした。

    マシンのスペックも大分あがってるはずなのだが、検索速度は現状上がっていない。むしろ下がっている。
    と言うのも裏で、色々な予備データを作成し始めているので、それがネックになっている。
    当然、関連検索もどきの機能がついたので、そこも足かせになっている。Namazu本体含め全体的なチューニングが必要かも。

    まぁ、しばらくしたら落ち着くとは思うし利用者居ない現状だと影響ないけどね。

    Posted by Yappo at 12:55 | Comments (4) | TrackBack

    2004年08月03日

    blog検索サイト&ping通知サーバ作ってみました

    blogdb.jpというblog検索サイトを作ってみた。

    http://blogdb.jp/

    現状同じようなサイトは大量にあるけど物真似するのはYappoに任せて、こっちは色々変な事してみようと思う。
    blogに特化した検索サイトならではの要素も結構思いついてるし、ここ最近暖めてるネタの実験も出来そう。

    コンセプトは
    なんでblogに特化した検索エンジンなの?~そして未来の検索へ~
    ってなかんじで。
    コンセプトの寄せ集め見たいなメモの断片なら大量にあるけど、上の一行がそれらを集約してるはず。


    現状の実装としては、独自pingサーバに通知のあったblogからrssとatomファイルを持ってきてnamazuでインデックス作ってます。
    クロウラーとインデクサは5分おきに交互に起動される感じです。
    現状は独自のpingサーバに通知のあったblogのみを検索できるようにしてるけど、徐々に他のpingサイトのデータも使うと思う。

    Posted by Yappo at 15:11 | Comments (7) | TrackBack