テキストインデックスのマルチバイト文字対応(8.0新機能)

公開日: 公開日：2016年12月02日（金）
更新日: 更新日：2025年12月17日（水）
サブカテゴリー: 基本操作; 新バージョン/機能

タグ: #関数

はじめに

Vertica8.0から、テキストインデックスがマルチバイト文字対応となり、日本語による全文検索が可能になりました。

本記事では、テキストインデックスを用いた日本語による全文検索を行う方法を紹介します。

テキストインデックスを用いた日本語による全文検索を行う手順

VerticaではICU Tokenizerというトークナイザーを使用することにより、日本語を含むマルチバイトの文字を識別することができます。

そのため、テキストインデックスを使ってマルチバイト文字の検索を行うためには、まずICU Tokenizerを構成する必要があります。

ICU Tokenizerの構成

1.トークナイザーを構成します
ICU Tokenizerの構成は、CREATE TRANSFORM FUNCTION文にて行います。

構文

CREATE TRANSFORM FUNCTION 'ファンクション名' AS LANGUAGE 'C++' NAME 'ICUTokenizerFactory' LIBRARY v_txtindex.logSearchLib ;

CREATE TRANSFORM FUNCTION文の詳細については、以下をご確認ください。

CREATE TRANSFORM FUNCTION
https://my.vertica.com/docs/9.2.x/HTML/index.htm#Authoring/SQLReferenceManual/Statements/CREATETRANSFORMFUNCTION.htm

実行例

dbadmin=> CREATE OR REPLACE TRANSFORM FUNCTION v_txtindex.ICUJapaneseTokenizer AS LANGUAGE 'C++' NAME 'ICUTokenizerFactory' LIBRARY v_txtindex.logSearchLib NOT FENCED;
CREATE TRANSFORM FUNCTION

2.トークナイザーのプロシージャIDを確認します

dbadmin=> SELECT proc_oid FROM vs_procedures WHERE procedure_name = 'ICUJapaneseTokenizer';
     proc_oid
-------------------
 45035996273724064
(1 row)

3.先ほどのプロシージャIDを使用し、トークナイザーのロケールを日本語に設定します
ロケールの設定は、SET_TOKENIZER_PARAMETER関数にて行います。

構文

SELECT v_txtindex.SET_TOKENIZER_PARAMETER('パラメータ名','値' USING PARAMETERS proc_oid='プロシージャID');

SET_TOKENIZER_PARAMETER関数の詳細については、以下をご確認ください。

SET_TOKENIZER_PARAMETER
https://my.vertica.com/docs/9.2.x/HTML/index.htm#Authoring/SQLReferenceManual/Functions/VerticaFunctions/TextSearch/setTokenizerParameter.htm

実行例

dbadmin=> SELECT v_txtindex.SET_TOKENIZER_PARAMETER('locale','ja_JP' USING PARAMETERS proc_oid='45035996273724064');
 SET_TOKENIZER_PARAMETER
-------------------------
 t
(1 row)

4.トークナイザーを有効化します

dbadmin=>  SELECT v_txtindex.SET_TOKENIZER_PARAMETER('used','true' USING PARAMETERS proc_oid='45035996273724064');
 SET_TOKENIZER_PARAMETER
-------------------------
 t
(1 row)

これで全文検索する準備は完了です。

テキストインデックスの作成

以下のテーブルに対して、テキストインデックスを作成していきます。

dbadmin=> select * from table1;
 col1 |            col2
------+----------------------------
    1 | アシストは市ヶ谷が本社です
    2 | 今年は平成31年です。
(2 rows)

1.テキストインデックスの作成
テキストインデックスの作成は、CREATE TEXT INDEX文にて行います。

構文

CREATE TEXT INDEX 'インデックス名' ON 'テーブル名'('列名1','列名2')TOKENIZER  'トークナイザー名(データ型)';;

CREATE TEXT INDEX文の詳細は、以下をご確認ください。

CREATE TEXT INDEX
https://www.vertica.com/docs/9.2.x/HTML/Content/Authoring/SQLReferenceManual/Statements/CREATETEXTINDEX.htm

実行例

dbadmin=> CREATE TEXT INDEX index_table1 ON table1(col1,col2) TOKENIZER v_txtindex.ICUJapaneseTokenizer(long varchar) stemmer none;
CREATE INDEX

2.作成したインデックスの確認

dbadmin=> SELECT * FROM index_table1 ORDER BY doc_id;
   token   | doc_id
----------+--------
 本社       |      1
 が          |      1
 です       |      1
 市ヶ谷    |      1
 は          |      1
 アシスト |      1
 は          |      2
 今年       |      2
 です       |      2
 平成       |      2
 年          |      2
 31         |      2
(12 rows)

テキストインデックスを用いた日本語による全文検索

構文

 SELECT * FROM テーブル名 WHERE '検索対象の列名' IN (SELECT doc_id FROM 'インデックス名' WHERE token = v_txtindex.StemmerCaseInsensitive('検索したい文字列'));

table1テーブルから「アシスト」を含むデータをテキストインデックスを使用して検索します。

実行例

dbadmin=> SELECT * FROM table1 WHERE col1 IN (SELECT doc_id FROM index_table1 WHERE token = v_txtindex.StemmerCaseInsensitive('アシスト'));
 col1 |             col2
------+------------------------------
    1 | アシストは市ヶ谷が本社です。
(1 row)

参考情報

ICU Tokenizer
https://my.vertica.com/docs/9.2.x/HTML/index.htm#Authoring/AdministratorsGuide/Tables/TextSearch/AdvancedTextSearch/ICUTokenizer.htm

検証バージョンについて

この記事の内容はVertica 9.2で確認しています。

更新履歴

2019/04/15　検証バージョンを9.2に変更
2016/12/02　本記事を公開

Analytics Database