2006年01月30日

■ファイルシークとは

ファイルシークはWeb検索、待受画像検索、着メロ・着声・着うた検索、各種辞書等の強力な検索機能が統合された業界最大級のデータ量を誇る携帯端末用サーチエンジンです。特に待受画像検索エンジン(通称:画像ファイルシーク)は総数で数百万枚もの待受画像をキーワード検索でき、2001年のサイト開設当初から大人気のコンテンツです。
ファイルシークのアクセス数は月間約6,000万PVを誇ります。
という、一日に約200万PVも稼ぐ検索サイトだそうです。

提供サイトもなかなかユニークなので色々と調べてみました。
あくまでも予想ですから、実際と異なる可能性が大です。

サービス別特徴

  • 携帯サイト検索

  • 提供ホスト:web.fileseek.net
    オリジナルデータから検索しています。
    待受/着メロのデータと共用しているようで、各検索結果固有のデータも表示されます。

  • 待受画像検索

  • 提供ホスト:img.fileseek.net, img2.fileseek.net
    オリジナルデータから検索しています。
    携帯サイト検索から、画像属性が含まれるデータのみから検索

  • 着メロ/着声検索

  • 提供ホスト:mld.fileseek.net
    オリジナルデータから検索しています。
    携帯サイト検索から、音声属性が含まれるデータのみから検索

  • PCサイト検索(画無)/PCサイト検索(画小)/PCサイト検索(画大)

  • 提供ホスト:web.fileseek.net
    なぜかGoogleのWeb検索とまったく同じ結果が返ってきます。
    その割にはgoogleのコピーライトがないので、恐らく大掛かりなライセンス契約を結んでいると思われます。
    31日14:56追記:http://fileseek.net/meta.html#helpに詳しい説明がありました。
    ■概要
    携帯ユーザーを対象としたメタ検索エンジンです。具体的にはPC用の大手検索エンジンであるGoogle,Yahoo,Inktomi,Infoseekからデータを取得し重複するページを一つにまとめ、順番に検索結果を表示します。また、検索結果として表示される各ページへのリンクをクリックすると、PC用サイトを携帯でも閲覧できるようにPCサイト閲覧Proxyを経由してページが表示されることになります。
    出てくる結果がGoogleと同じものばかりだったのと、検索結果に何も表記が無かったので勘違いしました。
    要するにメタ検索サイトですな。
    YJDNとかGoogle APIは使ってなさそうです。

  • ドメイン検索

  • 提供ホスト:web.fileseek.net
    多分whoisコマンドを叩いているだけです。

  • アイドル辞書

  • 提供ホスト:fileseek.net
    詳細不明、オリジナルデータかもしれません。
    31日 1:22追記:情報提供がありました。
    [アイドル辞書]
    ttp://i-dic.dorachan.com/
    ttp://www.vector.co.jp/soft/dl/data/writing/se001795.html

    「仲根かすみ」で検索した結果
    ttp://i-dic.dorachan.com/data?13112
    ttp://fileseek.net/cgi-bin/dic/search_idic_word.cgi?word=%c3%e7%ba%ac%a4%ab%a4%b9%a4%df%a1%da%a4%ca%a4%ab%a4%cd%a4%ab%a4%b9%a4%df%a1%dbnknksm00

    > ■本名
    > 植可澄美{ue_ksm00}

    本名の横のIDがまるっきり一緒


  • 英和和英辞書

  • 提供ホスト:fileseek.net
    詳細不明、オリジナルデータだとしたら凄いです。
    31日 12:40追記:情報提供がありました。
    辞書系は edict っぽげ。
    http://openlab.jp/edict/
    電子辞書オープンラボの配布物にあるEDICTのようです。
    大部分のデータが一致していますが、一部違うので加工されているのでしょう。

  • 百科事典検索

  • 提供ホスト:fileseek.net
    私立PDD図書館のデータと完全に一致するデータが入っていました。

  • 漢字辞書検索

  • 提供ホスト:fileseek.net
    詳細不明、オリジナルデータだとしたら凄いです。しかもピンイン対応だし。

  • 郵便番号検索

  • 提供ホスト:fileseek.net
    なぜか、丁目表示が削除されてます。
    0000系番号への対処でしょうか。

  • PCサイト閲覧Proxy

  • 提供ホスト:p01fileseek.netからp11fileseek.net
    特記する事はないです。

  • 速報ニュースヘッドライン

  • Powerd by asahi.com & gooという事みたいなので、記事提供契約を結んでいるのかと思いきや、上記Proxyで閲覧する仕掛けになってます。
    ただ、ニュースヘッドラインはfileseek.net側で出力しています。

  • 動画音声加工ツール

  • 提供ホスト:tools.pageseek.net
    モバイルユーザ待望のPC動画ファイルから3gpファイルに変換するコンバータです。
    内部はffmpegを利用している気もしますが微妙に違うっぽいです。
    ライセンス周りはクリアしているかどうか分かりませんが、問題ないならiYappoでも同じサービスやってみようかしら。
    ちなみにtools.pageseek.netの実態はasahi-net.or.jpです。
    負荷対策に台数が必要だけれどもデータセンタに置くコストが無いので事務所に設置しているのでしょう。
    ちなみに、fileseek.netの前身としてpageseek.netという名前でやってました。

    サーバ構成などについて


    現時点で確認できているfileseek.netのホスト名は
    filesee.net
    web.filesee.net
    mld.filesee.net
    img.filesee.net
    img2.filesee.net
    p[01]?.filesee.net(11ホスト)
    の計16ホストです。
    さらにip addressはばらばらです。
    さまざまなネットワークブロックにip addressが分散しています。

    whoisしてみるとNTTPCのホスティングと出ているため、WebARENa Soloの契約をしている可能性が高いです。
    負荷対策などのために、段階的にサーバ増強をした結果、ブロックがばらばらになったのでしょう。

    2年契約をしていたとして、月にかかるコストは128万円ほどになります。
    データセンタのラックを余裕で借りれます。バックボーンも同等以上かもしれません。
    まぁ、そんな単純な話ではなく、オプションサービスだったりを考えると現状でも安上がりなのかも知れませんが。
    というか、定価ベースで予想しただけだから、もっと有利な条件で契約してるかもですね。
    あと上には出てきてないですが、DB専用マシンとかも何台かあるでしょうし。

    でも、普通に考えたらちゃんとしたネットワーク作って、その下にサービスマシンを置きたいですよね。
    いやいや、この考え方はきっとだめなんでしょう。

    他には、事務所内の動画変換用に相当数のマシンを使用していることでしょう。

    運営会社について


    どこにも情報がありません。
    プレスリリースとかどっかで出してるのでしょうか?
    Googleの件なんかを見る限り、かなり力の会社であると見受けられます。
    31日14:56追記:メタ検索だったと気づいたので、力の程は分かりませんが、世界屈指の技術力はあるようです。

    技術力


    google, Yahoo, NTTレゾナント, ウェブドゥなんぞが逆立ちしても太刀打ちできない技術力です。あ、ライブドアも。
    ▼アンケート
    ファイルシークの検索エンジンは検索速度を下げることなく登録ページ数を無限に増やすことが可能ですので、Web上に携帯サイトが増えれば増えるほど登録ページ数も増やせます。現時点でのWeb上の携帯サイトの数を概算した結果、ファイルシークの携帯サイト検索エンジンの登録ページ数を数千万ページ程度に増やすことを計画しています。

    スケーラビリティがすばらしいシステムをお持ちのようです。
    このあたりの技術が、オープンソースな全文検索システムに還元されると歴史的な技術革新が起こるのは決定的で明らか。
    動画ファイル変換ソフトも自社開発しているので、凄腕エンジニアを多数抱えているはずです。

    日に200万ものトラフィックを、ネットワークが離れているサーバ構成で捌くのもすばらしいです。
    ある種の広域グリッド環境で運用しているとも言えるでしょう。

    残念なことに、本当に運営元が分からないので、どんなエンジニアがいるのかが皆目検討出来ません。

    ただ、

    国内最大・最強の
    携帯用サーチエンジン
    の冠は伊達じゃぁありません。

    技術要素(追記)


    http://www.pageseek.net/intro.html
    ■PageSeekの特徴

    PageSeekは主に下記の特徴を持ちます。


    入力された検索キーワードが実際にWebページ中でどのように使用されているのかが一目でわかるように、検索結果画面で各Webページに含まれるキーワードの前後のテキストを抜粋して表示します。


    携帯端末用サイトに含まれるテキストの多くがコンテンツと直接関係のない広告やランキングサイトへのリンクであるという実状を踏まえ、広告やランキングサイトのリンク文字列を検索対象から外し、できる限りコンテンツと関連するテキストのみを検索できる工夫がなされています。


    同一ドメイン内の類似する内容のページが大量に表示されることを防ぐために、テキストパターンが類似するページの表示を一定数以下に抑える工夫がなされています。


    これらの工夫により、お探しの情報を効率的に検索することができます。

    まとめ


    人様のサービスを研究することで、新しい発見や驚きに沢山出会えます。
    また、出来る限りそれらをインスパイヤしていって自分の糧にもできますね。
    今回は、あまりの技術力に圧倒されてしまい自信を失いかけるほどだったので、やりすぎると諸刃の剣かもしれません。

    次は佐藤さんか今泉さんあたりを研究して圧倒されてみますです。

    31日 12:52追記:MM/Memoに

    知られざるマッシュアップ企業
    とメモされてました。
    確かに、今ちやほやされてるWebにバージョン番号をつけたような所で定義された手法でのMashupとは言えないですが、確かにこのサイトもMashupなサイトと言えるでしょう。
    ただ、各サービス間で連携が取れてないのが残念ですね。

    Posted by Yappo at 2006年01月30日 23:33 | TrackBack | Web上のサービス
    Comments

    はじめまして
    毎回読ませて頂いてます

    ファイルシークさん
    2001年~運営開始で
    運営元は個人レベルの様です
    (現在も個人運営かは判りませんが)

    by takezo@掲示板サイト運営

    Posted by: takezo at 2006年01月31日 00:58

    takezoさん
    情報ありがとうございます。

    自分も個人運営って言う噂は耳に入れてたのですが
    どう見ても趣味の範囲を超えています。
    最低でも月200万の売り上げでも無いと個人事業でもきつそうです・・・

    そもそも個人じゃGoogleとライセンス結べない気もするので、自分の予想では法人と見ています。

    Posted by: Yappo at 2006年01月31日 01:29

    ご無沙汰してます~
    モバイルでこの規模あれば月1000万単位で稼いでると思いますよ。
    ちなみに、携帯検索エンジン最強は「クルーズ!」というとこです。

    Posted by: shintaro at 2006年02月01日 21:36
    Post a comment









    Remember personal info?






    コメントを投稿する前に↓の場所にnospamと入力してください。