こんにちは、ユニナレの前川です。

評価を終えたら、次は最終スコアの算出と分析です。

1. 集計
まず、評価時には隠していた「検索結果の掲載順位」「属する検索エンジン」を商品データに持たせ直します。そして、評価時につけた点数をそのまま使うのではなく、相関性評価の概念で紹介した方法、つまり掲載順位に応じてスコアを割り引いたうえで最終スコアを算出します(上図のユニナレ君が思い浮かべているのがその方程式)※。

2. 分析
この最終スコアが相関性クオリティをあらわす数値です。

1クエリーごとの性能が分かりますし、全クエリーのスコア平均をとれば、それは検索エンジンのクオリティということになります。クエリー分類を行なっていれば、クエリータイプごとのスコアも算出できますので、重要なクエリータイプの性能というのも分かります。

複数のエンジンを評価した場合は、性能差の大きいクエリーを一覧で見ることができます。改修前後のエンジンであれば、改良なのか改悪なのかも判断できます。

そして、競合との性能差が大きいクエリーや、1点・2点という低スコアのついた商品を中心に検索エンジンの課題(バッドケースと呼んでいます)を洗い出していきます。

バッドケースといっても色々あります。マッチングの問題かもしれないし、ランキングの問題かもしれない。マッチングの問題でもクエリー処理の問題かもしれないし、商品データ側に手をいれる必要があるかもしれない、などなど。複数のクエリーのバッドケースを見ていくと、パターンが見えることもあります。
これらの課題やパターンを見つけ分析し、検索エンジンの改良計画を立て実行していきます。

3. 運用
ある意味、相関性評価はバッドケースドリブンでエンジンを改良していく開発手法といえます。

「評価→開発→評価」のサイクルを回せば回すほど、検索エンジンはどんどん良くなっていきます。評価には時間もリソースもかかりますが、少なくとも2〜3カ月に1回は行うなど定常的な運用ができないかご検討ください。1度やってみれば分かりますが、得るものはとても多いと思います※2。

今回で「相関性評価」シリーズはいったん終了です。いかがだったでしょうか。

1. 相関性評価とは
2. 相関性評価をやってみよう [事前準備編]
3. 相関性評価をやってみよう [評価者心得編]
4. 相関性評価をやってみよう [実践編]
5. 相関性評価をやってみよう [集計・分析編]

次回から、また別のクオリティ測定方法を紹介していきます。

(つづく)

※:検索結果の順位によってスコアの重みを変えて検索性能を測定する方法は、Discounted Cumulative Gainと言い、頭文字をとってDCGと呼ばれています。もともとはウェブ検索向けに考案された手法です。商品検索だけでなく、その他検索サービスにも応用できますので、ECサイト以外の方にもおすすめです。

ユニバーサルナレッジは「評価」と「開発」一体型検索ASPを提供しています。Facebookページを「いいね」してくださった方に最新情報をお届けしています。
http://www.facebook.com/universal.knowledge.inc

こんにちは、ユニナレの前川です。

今回は相関性評価の実践編です。

検索結果の商品に対してスコアをつけることから始めます。点数の基準は以下のとおりです。

・5 = Perfect … クエリーと完全に相関している
・4 = Excellent … クエリーとほぼ完全に相関している
・3 = Good/Fair … クエリーに対して相関が認められる
・2 = Low … クエリーに対して相関があまり見られない
・1 = Bad … クエリーに対して相関がまったく見られない

実際の評価結果をお見せしますので、点数の理由を考えてみてください。

例題1:クエリー「3DS」

※家電量販サイトの検索結果を想定しています。説明の簡単のため、「発売日」「詳細URL」を省略しています。
※この評価は本エントリー執筆時点のものです。

例題1の解説
2番目の「3DS本体」にパーフェクトである5点をつけました。このサイトの取扱商品のなかで、「3DS」というクエリーにもっとも相関する商品は「ニンテンドー3DS」本体に違いないからです。

1番目と5番目の「ケース」と「ソフト」には3点。パーフェクトやエクセレントではないけれど、強く関連する商品だからです。

ただし、常に「3DS本体」が5点となるわけではないことにご注意を。もしもクエリーが「3DS ケース」の場合は、1番目の商品に4点をつけて、2番目の「3DS本体」には2点または1点をつけるでしょう。クエリーによって商品の評価は変わることを念頭に評価してください。

3番目の「3DS LL用保護フィルム」には2点をつけました。まもなく「ニンテンドー3DS LL」が発売になるわけですが、お客様がそちらを探しているのであれば、クエリーは「3DS LL」になると想定できるからです。というわけで、「3DS LL用保護フィルム」は、関連する商品ではあるが減点し2点としています。

そして4番目の「保護フィルム」には1点をつけています。説明は不要かもしれませんが、「ニンテンドー3DS」とは無関係の「GALAXY S保護フィルム」だからですね。たしかに、この商品名には「3」「D」「S」という文字が入っています。クエリーを分解した文字と一致はしているので検索エンジンでマッチしたと考えられますが、検索意図とは無関係の商品ということで1点になります。

– –

例題2:クエリー「ワンピース」

※ファッションサイトの検索結果を想定しています。このファッションサイトのメインカスタマーは独身女性とします。説明の簡単のため、「ブランド」「発売日」「詳細URL」を省略しています。
※この評価は本エントリー執筆時点のものです。

例題2の解説
「ワンピース」というクエリーは「3DS」とは違い、特定商品を指すものではないカテゴリ名クエリーです。そのため5点になるパーフェクト商品は存在しません。最高得点は4点となり、2番目と5番目に4点をつけました。

いまは7月ですので季節は夏。ワンピースではありますが3番目は冬物商品のため、減点し3点としました。

また、1番目の商品はキッズ用商品なので減点し3点としました。サイト利用者のなかにはお子さんのいる方も多数いらっしゃるかもしれません。しかし、クエリー「ワンピース」の検索結果が子供向け商品で占められていたらどうでしょうか。メインカスタマーが独身女性だとしたら、おそらくそういう検索結果は信用されなくなるでしょう。

4番目の商品は、ジャンプコミックスのワンピースですね※。さらに男の子向けTシャツであることから2点としました。

– –

いかがでしょうか、評価の基準や方法がなんとなく分かってきたでしょうか。

商品内容はもとより、性別・年齢・季節・時節・場所・家庭状況・スキルなど、さまざまな条件から評価しましょう。何度も繰り返しますが、理想の検索結果は何かをイメージすること、それが大切です。

– –

さて、評価データの準備はできましたか。評価の視座となるメインカスタマー設定もできましたか。

それでは、相関性評価をやってみましょう!

(つづく)

注釈
※:多義語である「ワンピース」はウェブ検索でもメジャーなクエリーですが、ウェブ検索結果の上位に表示されるのはジャンプコミックスの「ワンピース」に関係するサイトが多いですね。しかも、公式サイト、漫画、TVアニメ、映画、ビデオゲーム、携帯ゲーム、カードゲーム、フィギュア、ファッションなど様々な分野の情報があり、ユーザーの検索意図のつかみにくい(ランキングを決定しにくい)クエリーのひとつです。

ユニバーサルナレッジのFacebookページを「いいね」してくださった方に最新情報をお届けしています。
http://www.facebook.com/universal.knowledge.inc

こんにちは。ユニナレの前川です。

事前準備編の次は、評価者心得なるものをお伝えしたいと思います^^

1. 理想の検索結果をイメージする

評価者には「理想の検索結果をイメージする力」が必要です。当たり前ですが、理想検索結果を思い描けなければ評価・スコアリングなどできませんよね。

そして、評価結果に応じて検索エンジンをチューニングしていくわけですから、「検索結果が適切かどうかを判断する」行為は、「適切な検索結果を指し示す」行為ともいえます。いわば評価自体が検索結果の輪郭を描くことといえるでしょう。

ただ、万人向けの理想を描くことはなかなか難しいものです。特定商品を探すクエリーのような正解型の検索であれば簡単ですが、カテゴリ名クエリーやブランド名クエリーなどの探している商品があいまいな場合は、正解の検索結果というのはないといえます。

こういう場合の「理想の検索結果」とはなんでしょうか。悩んじゃいますよね。

そこで、「メインカスタマー」の設定を行います。「だれ」として評価するかを決めることで「理想の検索結果」をイメージしやすくなります。

とある総合ファッションサイトを評価することになったとします。クエリー「シャツ」の検索結果に「メンズシャツ」が多数表示されました。
メインカスタマーが男性であれば高評価の検索結果かもしれませんが、メインカスタマーが女性の場合は評価は逆になりますよね。

もちろん性別のほかにも年齢、家庭・子供有無、スキル度合い、利き腕、用途など、想定カスタマーの設定次第で理想の検索結果は異なります。

メインカスタマーになりきって理想の検索結果をイメージすること、それが大切です:)

2. 商品知識はあればあるほど良い

商品知識があったほうが理想の検索結果はイメージしやすく、評価しやすいものですが、数千・数万とあるすべての商品を使用したことのある人はいません(すべての洋服を着たことのある、すべての音楽を聴いたことのある、すべての映画を観たことのある、すべての本を読んだことのある人..etcも存在しませんよね)。

ですので、全商品に詳しくあれとは申しません。

ただ、サイトの取り扱い商品を把握しておくことはもちろんのこと、その商品カテゴリーの世で販売されている商品ラインナップを把握しておくことは肝心です。

なぜなら検索結果に表示されている商品を評価する行為よりも、検索結果に表示されていない商品を思いつくことのほうが難しいからです。存在を知らなければ理想の商品をピックアップできないわけですから。

次回は評価実践編です。

(つづく)

ユニバーサルナレッジのFacebookページを「いいね」してくださった方に最新情報をお届けしています。
http://www.facebook.com/universal.knowledge.inc

こんにちは、ユニナレの前川です。

前回は相関性評価の概念についてお話しました。今回は「相関性評価の事前準備編」です。

相関性評価の事前準備

1. 評価クエリー数を決める
評価対象ECサイトの検索ボリュームに応じて評価クエリーの数を決めましょう。
すべてのクエリーを評価できればいいのですが、数十万、数百万とあるクエリーを評価することは現実的に不可能です^^; 統計的に信頼できる数のサンプリングを行えば、検索性能の傾向や共通するバッドケースは見えてきます。

通常は、二種類のクエリーセットを用意します。
・トップクエリーセット – 検索回数順にクエリーをランキングしたときの1位〜X位までのクエリー群。
・ランダムクエリーセット – 全クエリーログから無作為抽出したクエリー群。

2. 評価する検索エンジンを決める
相関性評価は、ひとつの検索エンジンだけ評価しても得るものはありますが、ほかの検索エンジンと比較することでより発見を得ることができる手法です。改修前後を比較しても良いですし、自社と競合のエンジンを比較するのも良いです。ライバルから学べることも多いのです※1。

3. 1クエリーあたりの評価商品数を決める
通常は検索結果1ページ目に表示する商品数を評価数とします。検索結果1ページあたり10商品が最大表示数であれば10商品を評価数としますし、20商品であれば20商品を評価数とします。ただ、評価本数を増やすと評価作業の負担も、かかる時間も増えますので、最低10商品を目安とすると良いかと思います(検索性能の傾向は10商品の評価でも十分見えてきます)。

もちろん、検索結果のログを取得していれば、ユーザー行動のインプレッション・クリックログから、1クエリーあたりの評価する商品数は決定しやすいでしょう※2。

4. 総評価商品数
上記1〜3が決定すると、総評価本数が分かります※3。

総評価本数 = 評価クエリー数 × 検索エンジン × 1クエリーあたりの評価商品数

5. 評価データを集める
1のクエリーセットの準備ができたら、評価する検索エンジンにそのクエリーを投げて検索結果をスクレープします。スクレープしたHTMLはそのままでは使えませんので、以下の情報をマイニングし、データを整理します。
・商品名
・商品画像
・価格
・ブランド・メーカー名(または著者名/アーティスト名など)
・発売日
・(取得できるならば)JANコードやISBNなどの共通ID
・(評価対象が自社データであれば)SKUなどの商品ID

なお、評価には上記データで十分ですが、評価結果を集計するときには各商品ごとの掲載順位と検索エンジンのデータも必要になりますので保持しておくことをお忘れなく。

6. 評価データを作成する
評価データを集め、整理ができたら、評価者向けにさらに加工を施します。

「上位表示されている商品ほど良い商品かもしれない」「このサイトの検索性能のほうが高いだろう」といった、評価者の心理バイアスを無くすために、以下を行います。
・商品の表示順位を分からなくする(ランダムに並べ替える)
・どの検索エンジン(ECサイト)の検索結果なのかを分からなくする

また、評価者の評価ミス・ズレを無くしたり、評価作業本数の軽減のために、以下を行います。
・商品IDなどで同一の商品であると判定できる場合は、重複除去を行う(注意:1クエリー内の同一商品のみ)

7. 評価環境について
評価ツールがあると評価者の作業負担を減らしたり、集計が楽になったりといったメリットがありますが、開発するのは大変かと思います。

その場合は、エクセルなどの表計算アプリで代替できますのでご安心を。評価者は、各商品ごとに1~5の点数をつけ、低評価の商品の評価理由を書く欄があればOKです。下図が評価シートのサンプルです。

以上で、評価データセットの完成です:) 次回は評価方法をご紹介します。

(つづく)

注釈
※1:評価する検索エンジンの選択で気をつけたいのが、「りんごとみかんを比較」しないことです。
楽天のようなモール型で「検索結果に同一商品が重複表示される」サイトと、独立系ECサイトやAmazonのような「同一商品を重複表示しない」サイトは、そもそもビジネスモデルも商品検索の思想も異なり、検索性能を単純に比較できません※4。
ここでご紹介している相関性評価は検索結果の商品ごとにスコアをつけていく方法なので、複数の同一商品が並びがちな「楽天」は極端にスコアが偏る可能性を持っているためです。同じく同一商品の複数表示を許容する検索である「Yahoo!ショッピング」であれば「楽天」と比較することは可能でしょう。
「りんごとりんご」の比較になるライバル検索エンジンを選択しましょう。

※2:検索結果のインプレッション・クリック傾向はクエリーによっても異なります。特定商品を探すクエリーであれば1ページ目だけ、カテゴリ名のような比較的あいまいな検索意図のクエリーの場合は2ページ名以降も見るといった行動傾向があります。また、取り扱い商材によっても変わります。ファッション系ECサイトは2ページ目以降もよく見られる傾向があります。

※3:評価本数があまり多くなりすぎていませんか? 初めて評価する場合は、まずは上位100クエリーの評価からやってみましょう^^ 一度評価をすれば1クエリーあたりの評価時間の目安がわかりますので、評価者や評価時間の調整がしやすくなります。

※4:楽天とAmazonのような「りんごとみかん」の検索性能比較について考え続けていますが、まだこれといった方法を見つけていません。
楽天には「楽天プロダクト」という同一商品1データタイプの検索もありますが、全商品がインデクスされているか不明なのと、デフォルトではないので楽天プロダクトの性能がイコール楽天クオリティとも言えないと思っています。どなたか「りんごとみかん」の比較方法を思いついた方は教えてください。

ユニバーサルナレッジは「評価」と「開発」一体型検索サービスを提供しています。「いいね」してくださった方に最新情報をお届けしています。
http://www.facebook.com/universal.knowledge.inc

1

ユニバーサルナレッジは、EC サイト向けに購買行動に連動した ASP 型サイト内商品検索エンジン、キーワードサジェストエンジン(クエリーサジェストエンジン)を提供しています。