相関性評価をやってみよう [事前準備編]

前回は相関性評価の概念についてお話しました。今回は「相関性評価の事前準備編」です。

相関性評価の事前準備

1. 評価キーワード数を決める
評価対象ECサイトの検索ボリュームに応じて評価キーワードの数を決めましょう。
すべてのキーワードを評価できればいいのですが、数十万、数百万とあるキーワードを評価することは現実的に不可能です^^; 統計的に信頼できる数のサンプリングを行えば、検索性能の傾向や共通するバッドケースは見えてきます。

通常は、二種類のキーワードセットを用意します。
・トップキーワードセット – 検索回数順にキーワードをランキングしたときの1位〜X位までのキーワード群。
・ランダムキーワードセット – 全キーワードログから無作為抽出したキーワード群。

2. 評価する検索エンジンを決める
相関性評価は、ひとつの検索エンジンだけ評価しても得るものはありますが、ほかの検索エンジンと比較することでより発見を得ることができる手法です。改修前後を比較しても良いですし、自社と競合のエンジンを比較するのも良いです。ライバルから学べることも多いのです※1。

3. 1キーワードあたりの評価商品数を決める
通常は検索結果1ページ目に表示する商品数を評価数とします。検索結果1ページあたり10商品が最大表示数であれば10商品を評価数としますし、20商品であれば20商品を評価数とします。ただ、評価本数を増やすと評価作業の負担も、かかる時間も増えますので、最低10商品を目安とすると良いかと思います(検索性能の傾向は10商品の評価でも十分見えてきます)。

もちろん、検索結果のログを取得していれば、ユーザー行動のインプレッション・クリックログから、1キーワードあたりの評価する商品数は決定しやすいでしょう※2。

4. 総評価商品数
上記1〜3が決定すると、総評価本数が分かります※3。

総評価本数 = 評価キーワード数 × 検索エンジン × 1キーワードあたりの評価商品数

5. 評価データを集める
1のキーワードセットの準備ができたら、評価する検索エンジンにそのキーワードを投げて検索結果をスクレープします。スクレープしたHTMLはそのままでは使えませんので、以下の情報をマイニングし、データを整理します。
・商品名
・商品画像
・価格
・ブランド・メーカー名(または著者名/アーティスト名など)
・発売日
・(取得できるならば)JANコードやISBNなどの共通ID
・(評価対象が自社データであれば)SKUなどの商品ID

なお、評価には上記データで十分ですが、評価結果を集計するときには各商品ごとの掲載順位と検索エンジンのデータも必要になりますので保持しておくことをお忘れなく。

6. 評価データを作成する
評価データを集め、整理ができたら、評価者向けにさらに加工を施します。

「上位表示されている商品ほど良い商品かもしれない」「このサイトの検索性能のほうが高いだろう」といった、評価者の心理バイアスを無くすために、以下を行います。
・商品の表示順位を分からなくする(ランダムに並べ替える)
・どの検索エンジン(ECサイト)の検索結果なのかを分からなくする

また、評価者の評価ミス・ズレを無くしたり、評価作業本数の軽減のために、以下を行います。
・商品IDなどで同一の商品であると判定できる場合は、重複除去を行う(注意:1キーワード内の同一商品のみ)

7. 評価環境について
評価ツールがあると評価者の作業負担を減らしたり、集計が楽になったりといったメリットがありますが、開発するのは大変かと思います。

その場合は、エクセルなどの表計算アプリで代替できますのでご安心を。評価者は、各商品ごとに1~5の点数をつけ、低評価の商品の評価理由を書く欄があればOKです。下図が評価シートのサンプルです。

以上で、評価データセットの完成です:) 次回は評価方法をご紹介します。

(つづく)

注釈
※1:評価する検索エンジンの選択で気をつけたいのが、「りんごとみかんを比較」しないことです。
楽天のようなモール型で「検索結果に同一商品が重複表示される」サイトと、独立系ECサイトやAmazonのような「同一商品を重複表示しない」サイトは、そもそもビジネスモデルも商品検索の思想も異なり、検索性能を単純に比較できません※4。
ここでご紹介している相関性評価は検索結果の商品ごとにスコアをつけていく方法なので、複数の同一商品が並びがちな「楽天」は極端にスコアが偏る可能性を持っているためです。同じく同一商品の複数表示を許容する検索である「Yahoo!ショッピング」であれば「楽天」と比較することは可能でしょう。
「りんごとりんご」の比較になるライバル検索エンジンを選択しましょう。

※2:検索結果のインプレッション・クリック傾向はキーワードによっても異なります。特定商品を探すキーワードであれば1ページ目だけ、カテゴリ名のような比較的あいまいな検索意図のキーワードの場合は2ページ名以降も見るといった行動傾向があります。また、取り扱い商材によっても変わります。ファッション系ECサイトは2ページ目以降もよく見られる傾向があります。

※3:評価本数があまり多くなりすぎていませんか? 初めて評価する場合は、まずは上位100キーワードの評価からやってみましょう^^ 一度評価をすれば1キーワードあたりの評価時間の目安がわかりますので、評価者や評価時間の調整がしやすくなります。

※4:楽天とAmazonのような「りんごとみかん」の検索性能比較について考え続けていますが、まだこれといった方法を見つけていません。
楽天には「楽天プロダクト」という同一商品1データタイプの検索もありますが、全商品がインデクスされているか不明なのと、デフォルトではないので楽天プロダクトの性能がイコール楽天クオリティとも言えないと思っています。どなたか「りんごとみかん」の比較方法を思いついた方は教えてください。