旬のトピック、最新ニュースのマピオンニュース。地図の確認も。

簡単導入! OSS全文検索サーバFess入門 第50回 JavaScriptで生成されるページのクロール

2022年12月28日09時00分 / 提供:マイナビニュース

モダンなサイトでは、JavaScriptで動的に生成されるコンテンツも増えています。動的に生成されるHTMLページでは、通常のクロールで取得しても、まだコンテンツが生成されていないため、そのようなサイトは検索対象にすることができません。動的に生成されるページを検索対象にするためには、アクセスするページにブラウザと同様な処理をして、コンテンツが生成された後の状態を検索対象として、インデクシングする必要があります。

Fessでは、この課題を解決するために、Playwrightを利用したクロール方法をFess 14.5から提供しています。今回は、この機能を利用したクロール方法を紹介します。
○Playwrightとは

Playwrightは、ChromiumやFirefoxなどのブラウザをAPIで操作して、Webアプリケーションのテスト自動化を実現するライブラリです。 Playwrightでは、ヘッドレスでブラウザを起動して、さまざまな操作することができます。

Fessは、この機能をクロールで利用することで、動的に生成されるページでも、ブラウザがレンダリングした状態の内容を検索対象とすることができます。

.

続きを読む ]

このエントリーをはてなブックマークに追加

ネタ・コラムカテゴリのその他の記事

地図を探す

今すぐ地図を見る

地図サービス

コンテンツ

電話帳

マピオンニュース ページ上部へ戻る