マーケティング部門は必ず知りたい!クローラーとは?確認するべきポイントは?

現在、ネットを活用した集客は、どの企業でも必要な時代になっています。 大きな企業でも、マーケティング部門はいかにネット上の多くの人に自社を認知してもらえるのかが重要になってきます。 しかし、マーケティング担当者は、覚えることが非常に多いです。 例えばホームページ1つとっても、 ・どうやって上位表示させるか ・新着情報の管理 ・広告管理 など、多岐にわたります。 それぞれについて、自分で出来る必要性はありませんが、外注するとしても知識は必要です。 今回は、そんな企業のマーケティング部門担当者が知っておきたい 「クローラー」 という仕組みについてお話ししていきたいと思います。

クローラーとは

クローラーとは

クローラーとは では、そもそもクローラーとはどのようなものなのでしょうか。

クローラーはサイト上位表示のためにも必須の仕組み

クローラーとは、Googleやyahooなどの検索エンジンがサイトの評価をして、上位表示の優先順位を付けるための仕組みになります。 ネット上を徘徊し、サイトが更新されていたらその情報をデータベースに蓄積し、新しいページが増えていれば、そのデータも蓄積させます。 つまり クローラーにサイトを見つけてもらう = WEBで検索できるようになる という事です。 このクローラーに見つけてもらう事が、マーケティング部門として最も最初に行うべきサイトの運用対策ということになります。

クローリングの対象ファイル

では、どのようなファイルがクローリングの対象になるのでしょうか。 将来的に変わる可能性はありますが、現在対象となるのは次のようなファイルになります。 ・テキストファイル ・CSSファイル ・JavaScriptファイル ・画像 ・Flash ・PDF ・動画 そのため、上記のようなファイルはクローラーに見つかると、ネット上から検索できてしまうということになります。 後述しますが、クローラーには見つかりたくないファイルというのも存在しますので、上記ファイルでネット上に上がってほしくないものは事前に対策をしておく必要があります。

クローリングさせるためにはどうすれば良い?

では、クローラーにクローリング(見つけてもらう)にはどのようにすれば良いのでしょうか。 いくつかの方法があります。 最も簡単な方法としては、グーグルのサーチコンソールを利用することです。 サーチコンソールはグーグル自身が提供しているツールで、機能として新しいページを登録する画面があります。 クローラー自身に回って欲しいページを申請する事ができ、手順としても非常に簡単です。 ただし、サイトはどんどんと増え続けており、そのコンテンツ数も非常に多いです。 そのため、申請をしても一定期間かかります。 その間に少しでもクローリングしてもらうスピードを上げる方法として、XMLサイトマップを送信する方法があります。 XMLファイルという形式で作られるファイルで、クローラーもこの情報を元にサイトを判定します。 「sitemap.xml Editor」という無料ツールを使えば誰でも簡単に作ることが出来ます。 この中に、更新日を入れる設定が出来ますが、更新日をXMLファイル内に入れることで、クローラーは優先的にクロールしてくれることになります。 作成したXMLファイルをWEBサーバー上に保管し、サーチコンソールからそのURLをアップすることで、より早くクローリングしてくれる可能性があります。 その他にも ・サイトの更新頻度を高める ・サイト内をトップページから2もしくは3クリック以内で網羅出来るようにする(コンテンツ数によっては難しいケースもありますが、可能な限り少ないリンク数で) ・すべてのページがきちんとリンクを貼られている ・SNSやブログなど自社のサイト以外の部分でリンクを貼る といった対応で、クロールの速度が上がると言われています。 ただし、クロールされているのかを重視するあまり、 「更新頻度が高いけど、内容は薄い」 などのようになってしまうと、マーケティングとしてはマイナス評価です。 そのため、クローラーにクローリングしてもらう事は重要ですが、あまりとらわれない様にする必要があるでしょう。 最低限の対応はしつつも、あくまで限られた作業時間をサイトの品質向上に使うことが重要になるのです。

逆にクローラーに見つかりたくないケースが有る!

少しお話しましたが、クローラーには見つかりたくないページというものが存在します。

質の悪い記事

質の悪い記事は、サイト全体の評価を下げる可能性があります。 特にペナルティを受ける可能性があるものとして、コピーコンテンツなどが挙げられますが、サイトの立ち上げ時期ほど 「なんとかコンテンツ数を増やさなければ」 と思って質の悪い記事を上げてしまったり、担当者の文章能力が低い場合などは、クローラーに評価されない方が良いケースもあります。

テストページ

サイトの立ち上げ時期や、サイトに新しい仕組みを導入する場合など、テストページを設ける事が多々あります。 このご時世ですから、サイトに新しくネットショップ機能をつけたい・・・という企業様も多いのではないでしょうか。 そういった時に、今あるサイトにネットショップ機能を追加した状態で、最終テストをするのではないでしょうか。 そのタイミングで、テスト的に挙げていたものがネットで検索できる様になってしまったら・・・ テストデータの内容次第では非常に大きなトラブルに発展する可能性もあります。 また、一度クローリングされてしまったら、削除依頼を出したとしても、タイムラグが出てきます。 そのため、サイト自体がある程度大きくなってくると、本番環境での最終テスト時にも注意が必要になります。

個人情報など検索ヒットして欲しくない情報

サイト上に個人情報がある場合など、そういったページをクローリングさせる必要性がありません。 個人情報をそのまま表示しているサイトは少ないとは思いますが、会員ページのマイページをクローリングさせる・・・などの意味もありませんよね。 こういった場合、不要なページまでクローリングされてしまうと、サイト評価が下がる原因ともなりますので、注意が必要でしょう。

ユーザーにとって無価値な情報

一般ユーザーにとって無価値な情報も、クローリングさせるべきではないと考えられます。 例えば、自社の人間や少数の取引先のためだけの情報。 ネット上にアップして閲覧する必要はあるものの、一般ユーザーが興味のないコンテンツを置いておくと、サイト評価が下がる原因となります。 というのも、グーグルは様々な基準でサイト評価をしています。 その中には、 「サイトに来た人がどのくらいじっくりとサイトを見てから退出したか」 という項目もあると言われています。 サイトの評価基準は非公開ですので、あくまでも想像になりますが、サイトの利用者の立場としても 「サイトに入ったのにすぐに出てしまうケース」 と言えば ・自分に関係のない情報 ・非常に読みにくいサイト ・ページ表示速度が遅いサイト など、が考えられます。 こういったサイトが常に上位表示されることはありません。 そのため、ユーザーに関係のないコンテンツが多量にアップされているサイトは、 「ユーザーに求められていないサイト」 と判定される可能性も否定できないのです。 そのため、サイト評価を下げる可能性があるコンテンツはクローリングさせないのが基本なのです。

会員限定の情報など

個人情報と同様に、会員限定の情報などはクローリングさせない方が良いと考えられます。 例えば、会員限定イベントの詳細を表示するページを作り、javascriptなどで 「サイト表示後に対象外の人はログイン画面に飛ばす」 といった仕様にしてしまった場合。 一度会員限定情報を開いてしまっているため、クローラーとしては認識することが可能でしょう。 そのため、検索対象ページとして認識され、検索上位に上がってきてしまったとします。 すると、ユーザーはその情報を見たくてサイトを表示したのに、入ってみるとログインページに飛ばされる。 これは 「ユーザーが意図した動きではない」 言い換えるなら 「ユーザーが利用しにくいサイト」 として認識される可能性があります。 こういったトラブルを避けるためにも、きちんとサイト設計を行い、クローリングさせるべきページか否かを分ける必要があるのです。

クローラーのブロック方法

クローラーのブロック方法

クローラーのブロック方法 では、クローラーをブロックするためにはどうすれば良いのでしょうか。 大きく分けると方法は3つあります。

robot.txtを使う

robot.txtは、この名前で作ったファイルをサーバーに置くことで、クローラーに対しての命令をすることが出来ます。 そのテキストファイルに下記のような記述をします。

User-Agent: *Disallow: /test/

User-Agent とは、クローラーの種類を指定するためのものです。 すべてのクローラーを対象として行うためには、*を入れる事で、クローラーの種類を問わず命令が可能です。 そして、Disallowで検索されたくないディレクトリを指定します。 ディレクトリを指定した場合は、そのディレクトリ以下のファイルは全て対象になりますし、特定のファイルだけを指定したい場合には 「/test/index.html」 の様に直接ファイル名を指定することが可能です。 このファイルを置く場所は、URLのトップのディレクトリに置きます。

noindexタグを入れる

noindexは、HTMLファイル内のタグでクローラーをブロックする際に利用します。

< meta name=”robots” content=”noindex”>

上記のメタタグを、HTMLのheadタグ内に入れることで、ロボットがファイルを読み込もうとしたタイミングでブロックする事が可能です。

htaccessファイルを使う

robot.txtがロボット専用のファイルだったのに対して、ユーザーを含めた全アクセス者に対して有効なファイルがhtaccessになります。 このファイルは、 「.htaccess」 というように、ファイル名の頭がドットになります。 htaccessファイルは、配置した場所とその下にあるディレクトリ全てに適用され、下の階層にもhtaccessがある場合には、下の階層のファイルが優先されます。 このhtaccessファイルに、BASIC認証と呼ばれる簡単なパスワード認証機能を設定することができ、パスワード保護されているページに関しては、ロボットもアクセスできません。 ただし、この方法の場合は単にロボットをブロックするだけではなく、ユーザーもパスワード制限されてしまうということもありますので、必要に応じてブロック方法を変える必要があるでしょう。

システムでの運用でサイト運営も楽に!システム開発ならAMELA

システムでの運用でサイト運営も楽に!システム開発ならAMELA

システムでの運用でサイト運営も楽に!システム開発ならAMELA 今回は、サイト運営者・マーケティング担当者に必要なクローラーについて説明してきました。 具体的なrobot.txtファイルの作成やhtaccessの配置などを詳しく知る必要は無いものの、 ・クローラーという概念 ・ブロックするべきページが存在する ・簡単に設定も可能 という点をマーケティング担当者が知っておくことは、外注先に依頼する際にもスムーズに業務が行なえます。 また、外注先のミスを未然に防ぐことが出来たり、高度な要求が出来る様になるなど、他にもシステムについて知ることで得られるメリットは多いです。 AMELAでは、様々なシステムの開発を行っています。 単にホームページを作成するのではなく ・マーケティングオートメーションにつなげる ・ビッグデータを活用する ・AIによってユーザーの動向を分析する ・各種システムとの連携 など、業務の効率化から売上UPに繋がる方法は多々あります。 是非マーケティング部門の方には、弊社にご相談いただき、 「5年後10年後にも継続して売上が上がる仕組みづくり」 をしてほしいと感じています。 お気軽にご相談下さい。