Services
Software Engineering

ソフトウエア開発

クローラーエンジン開発 ~研究と技術の流用~

ネットビジネスが激化する中、某ユーザー様 からライバル他社に対して価格競争力でも優位性を確保すべくライバル他社の価格を自動、かつリアルタイムで監視し、自社の販売価格を見直すための自動巡回システム開発を依頼されました。
これは、大手検索サイトであるGoogleが採用している仕組みと基本概念で通じるもので、決して簡単な開発要件ではありません。

この難関に立ち向かうべく、まず我々は、クロール対象のサイト構造を徹底的に分析し、

情報の構造化、パターン化を行いました。

(この作業にプロジェクト工程の半分を費やしました)
収集したデータを基に、あらゆるデータパターンに対応したクローラーエンジンを開発し、さらに、日々更新されるウェブサイトに柔軟に対応すべくプロファイリング定義を簡単に行えるよう、同クローラーエンジンを対応させました。
また、大量の情報を素早く収集するために仮想化基盤を前提とし、並列クロール・収集を可能としたアーキテクチャを採用することで、何十万レコードに相当する情報をインターネット上からわずか数分で収集するシステム開発に成功しました。

そもそもの情報収集アーキテクチャも相当大変な苦労がありましたが、近年進化するWEBサイト構造も我々には壁として立ちはだかり、単に静的なHTMLで構成されたサイトは現存する方が珍しい中
(特に商用サイトは動的コンテンツを多く含む)
WEBサイトのページをたどるためにJavaScriptの解析ロジックなど盛り込んだ技術要素は多岐にわたります。

この案件において副産物的に、インサイトにはハッカー心理とその技法が蓄積されました。
インサイトはこの技術を生かし、最近多様化するサイバーテロに対して堅牢なWEBサイトの構築を行うことにより、お付き合いいただいているユーザー様・お客様から、それらの脅威から守っています。


このページのトップへ