クローリング

クローリング（Crawling）は、検索エンジンがインターネット上のウェブページを自動的に巡回し、情報を収集するプロセスです。検索エンジンは特別なプログラムであるクローラー（Crawler）またはスパイダー（Spider）を使用して、ウェブページを一つずつたどり、情報を収集します。

クローラーは以下の手順で動作します。

シードURLの設定: クローラーは最初にいくつかのシードURL（起点となるURL）を設定します。これは検索エンジンがクローリングを開始する場所を指定するものです。
リンクのたどり: シードURLからクローラーはリンクをたどりながらウェブページを巡回します。クローラーはウェブページのコンテンツやリンクを解析し、新たなURLを見つけるとそれを次に巡回する対象とします。
ページのダウンロード: クローラーは巡回先のウェブページをダウンロードします。HTMLコードや画像、CSSなどのリソースも取得します。
ページの解析: クローラーはダウンロードしたウェブページを解析し、そのコンテンツやリンクを抽出します。特に、新たなURLを取得し、次のクローリング対象とします。
インデックスへの追加: クローラーは収集した情報を検索エンジンのインデックスに追加します。インデックスには、キーワードやフレーズに関連するウェブページの情報が格納されます。

このようにクローラーがウェブページを巡回し情報を収集することで、検索エンジンは数十億ものウェブページから検索結果を提供することができます。クローリングは検索エンジンの重要な一部であり、新しいウェブページや変更されたウェブページを検出し、最新の情報を提供するために定期的に行われます。

Glossary