生成AI実践・Gleanブログ

  • Gleanとは
  • 生成AI・RAG
2024.05.30

優れた検索拡張生成(RAG)を際立たせるものーそしてAIにとってベクトル検索だけでは不十分な理由

本記事は、Glean社が運営するブログ記事をアシストが翻訳して転載しています。

05_優れた検索拡張生成(RAG)を際立たせるもの、そしてAIにとってベクトル検索では不十分な理由

生成AIと大規模言語モデル(LLM)が世界中で注目を集めるようになって以来、多くの企業が業務にこれらの革新的なツールを活用する方法を模索してきました。しかし、プライバシーの侵害、関連性の欠如、パーソナライズの必要性など、様々な課題に直面しました。

そこで、注目されているのが検索拡張生成(RAG)です。RAGは外部の検索システムを介してナレッジの取得と生成プロセスを分離します。これにより、LLMが出力する応答は、組織内の実際のデータに基づき、トレースと参照が可能になります。

ベクトル検索だけでは不十分

企業がLLMの活用には別で検索ソリューションが必要だと理解した今、多くの人が疑問に思うのが「単純にコンテンツをベクトルデータベースに入れ、簡単なRAGプロンプトを実装すればよいのではないか?」ということです。しかし、残念ながら真の意味でエンタープライズ企業ですぐに使えて体験価値を提供するとなると、その答えは単純ではありません。

ベクトル検索と、データベースによるインデックス化と検索の仕組みを簡単に見てみましょう。組み込みモデルは特定のテキストを固定ベクトルの数値にマッピングします。システムはクエリのテキストに基づき、事前にインデックス化された文書テキストとのベクトル空間上での「近さ」を計算し、検索結果として表示します。

特定のテキストを数値ベクトルにマッピングする組み込みモデル

この過程はあくまで情報検索のプロセスに過ぎません。LLMは、検索/検索エンジンの呼び出し、限られたコンテキストの読み取り、ベクトルデータベースから適切な情報を得て、一貫性のある応答を生成するための推論レイヤーとしてのみ使用されます。

検索拡張生成(RAG)

ベクトル検索の改善は意味理解における根本的なシフトを示していますが、エンタープライズサーチにおいて高品質な結果を提供する上で、それは問題解決の一部にすぎません。単純なベクトル検索だけでは、組織内のコンテンツ、人、活動の間のより複雑な関係を認識することができないからです。

さらに時代遅れなのが、単純なレキシカル検索システムです。これらはクエリの用語を文書コンテンツやメタデータの用語に直接マッチングさせますが、データベース内の単語やフレーズの完全一致しか利用できないため、送信するクエリに間違いがあると、必要な情報が返されないということになります。

ハイブリッド検索による高度な検索結果

そこで、ハイブリッド検索システムを活用することで、様々な利点を組み合わせることができます。例えばGlean の高度なRAGソリューションには、以下の4つの重要な技術的差別化要因があり、ハイブリッド検索と生成AIソリューションを際立たせています。

- 検索を強化する独自のアンカーとシグナルを搭載した、企業データ全体のナレッジグラフフレームワーク
- すべての企業データとアクセス権限ルールに接続する堅牢でスケーラブルなクローラー
- Gleanの検索インターフェイスとLLMの段階的な管理と最適化
- エンドツーエンドのユーザー体験の最適化

Gleanの優れた結果の中核にあるのがナレッジグラフです。これは、多種多様なシグナル(手がかり)とアンカーから構成されているネットワークであり、これこそが開発者が直面する可能性のある様々な問題を解決するのです。これらの要素は、組織内のすべてのドキュメント、人、アクティビティに関する豊富なコンテキストを提供することで、モデルが適切な学習を行い、結果としてユーザに優れた結果を提供してくれます。シグナルとアンカーは、ミステリーを解く手がかりのようなものです。これらがが多ければ多いほど、結果が良くなります。

例えば、Gleanのシグナルは以下のような個別の検索やパーソナライゼーションの問題を実際に解決します。

- 正規化(トークン化、語幹縮小、語形復元)
- 同義語(マイニング、コンテキストスコアリング、略語)
- 構造化アノテーション(コンセプトとエンティティのマイニングとスコアリング)
- 国際化
- インテント分類
- ドキュメント理解(重要用語、トピックモデリング、テンプレート処理、文書分類)
- 検索とトピック性(意味検索、用語の重み付け、最適化、用語ミックス、アンカー、クリックブースト、ハイブリッド最適化)
- 人気度(パーソナライゼーション、鮮度/陳腐化、部門モデリング)
等々

無数のシグナルとアンカーが企業に特化したナレッジグラフの構築を支援

では、高度なRAGソリューションを備えたシステムと、そうでないシステムの違いは一体何でしょうか?実際の生成結果を見てみましょう。

GleanにはScholasticという、タイトル、アンカー、ヘッダーに基づく検索とスコアリングに、セマンティック検索を統合するアプローチがあります。標準的なRAGソリューションとGleanの結果を比較してみましょう。

標準的なRAG(ベクトル検索、シンプルなRAG)
Q: Scholasticとは何ですか?
A: Scholastic は、ニューヨーク市に本社を置く児童書、教育技術、関連サービスの出版社および販売会社です...

Glean (ハイブリッド検索、高度なRAG)
Q: Scholasticとは何ですか?
A: Scholasticは私たちのベクトルベースの検索・スコアリングシステム(キーワードベースのシステムElasticから作った造語)で、ドキュメントやメッセージのアイテムを学習し、与えられたクエリに対して最も近いものを検索・スコアリングを行います...

標準的なRAGの応答は職場でのクエリには全く無関係ですが、Gleanの応答は質問を適切に理解し、ユーザーが求める正確な情報を提供しています。

生成AIによる応答であれ、検索結果であれ、シグナルとアンカーのネットワークによって強化された高度なハイブリッドRAGソリューションは、不完全なレキシカル検索やベクトル検索ソリューションよりも明らかに優れた結果を提供します。独自データを活用してモデルを微調整する能力こそが、エンタープライズ環境における検索と生成AIソリューションに必要な豊かなコンテキスト化を実現するカギとなります。

企業独自のデータは微調整とスコアリングに欠かせない要素

エンタープライズサーチの分野においても、ベクトル検索やセマンティック検索に完全に依存することは必ずしも最適な結果をもたらさない可能性があります。特に、特定の語句、文書、キーワードを検索する際など、高い精度が求められるシナリオではその傾向が顕著です。ベクトル検索には本来的なあいまい性があるため、そうした場合の要求される精度と必ずしも一致しないのです。

成功したAIを作るには生データだけでなく、様々なシグナルやアンカーが必要

Gleanでは、データの堅牢性が私たちのレキシカル検索機能の大きな強みとなっています。この強みこそが、クエリへの高い精度でのマッチングだけでなく、多数の候補からの結果のパーソナライズも実現してくれるのです。Gleanが採用するハイブリッド検索アプローチは、レキシカル検索の精度とベクトル検索の緻密な理解力を組み合わせています。つまり追加のコンテキストとナレッジグラフ内のシグナルとアンカーが提供するニュアンスによってその力を最大化しているのです。

さらにGleanは、独自の検索インターフェースとLLMをリンクする機能を備えているため、検索と検索結果の不備をよりスムーズに処理できます。当社の検索インターフェースに統合されたLLMは、検索と検索結果の不備をより適切に処理できるのです。例えば、ほとんどのサードパーティのソリューションでは、適切な回答ができない質問に直面した場合、しばしば新鮮さや関連性に欠ける情報を提供してしまいます。

しかしGleanでは、制限事項や注意事項を明確に伝えるために必要な追加のコンテキストがLLMに提供されます。この追加情報により、AIはユーザに次のステップに進むための情報を与えたり、受け取った情報が不完全である理由を理解できるよう説明することができるのです。

Gleanのナレッジグラフは推奨しない結果に追加のコンテキストを提供

先を行く優れた手法

今この瞬間に生成AIの可能性を活用して、常に先を行きたいというあなたには、Gleanが最適なソリューションです。Gleanはアクセス権限を尊重し、関連性を保ちパーソナライズされた、最新で新鮮な情報を提供します。さらに、ユーザがよく利用するあらゆるアプリケーションと柔軟に組み合わせることができます。

本当のエンタープライズ向けの生成AIソリューションで、チームの生産性を飛躍的に高めましょう。Glean の詳細説明や製品デモをご希望の方はフォームよりお問い合わせ ください。


執筆者情報:

Arvind Jain
CEO
Glean Technologies, Inc.
元記事:https://www.glean.com/blog/meet-glean-the-work-assistant-with-intuition

Googleで特別エンジニアとして10年以上に渡り検索、マップ、YouTubeなどの様々なチームを牽引。2014年にクラウドデータ管理企業のRubrikを共同設立。2019年にはGleanを設立しCEOに就任。2023年には米国フォーブス誌の「仕事の未来を再考するリーダー50人 」に選出。

関連している記事

  • Gleanとは
  • エンタープライズサーチ
2025.04.14

Gleanの導入企業に聞きました!採用理由と解決したかった「あの課題」とは

なぜGleanの導入を決めたのか、Glean採用時のお困りごとと選定理由について、3社のユースケースからご紹介していきます。スタートアップでの利用から1万名を超える利用展開まで、3社の事例をご覧いただけます。

  • 生成AI・RAG
2025.03.03

企業で生成AIの活用はなぜ進まないのか?~ビジネス観点での処方箋~

この記事では、生成AIの活用が進まない理由を解説し、費用対効果を最大化するための具体的アプローチと施策を解説します。

  • 生成AI・RAG
2025.02.21

RAG検討中の方、必見! パッケージベンダー視点で検討時のポイントを解説します

この記事では、RAGや生成AIツールを検証したが上手く行かなかった方や、今後の検証に向けて情報収集したい方にむけて、パッケージベンダーの視点からRAG検討時のポイントや棲み分けについて解説しています。

ページの先頭へ戻る