MySQL 入门教程
  • 教程目录
  • 第一章 基础教程
    • 第一节 入门
      • 1.1 安装
      • 1.2 示例数据库
    • 第二节 查询数据
      • 2.1 SELECT 语句
      • 2.2 SELECT DISTINCT 语句
    • 第三节 过滤数据
      • 3.1 WHERE 子句
      • 3.2 AND 运算符
      • 3.3 OR 运算符
      • 3.4 IN 运算符
      • 3.5 BETWEEN 运算符
      • 3.6 LIKE 运算符
      • 3.7 LIMIT 子句
      • 3.8 IS NULL 运算符
    • 第四节 数据排序
      • 4.1 ORDER BY 子句
      • 4.1 自然排序
    • 第五节 连接表
      • 5.1 别名
      • 5.2 INNER JOIN
      • 5.3 LEFT JOIN
      • 5.4 自连接
      • 5.5 CROSS JOIN
    • 第六节 分组数据
      • 6.1 GROUP BY子句
      • 6.2 HAVING 子句
    • 第七节 子查询,派生表和通用表达式
      • 7.1 子查询
      • 7.2 派生表
      • 7.3 公共表表达式
      • 7.4 递归 CTE
    • 第八节 集合操作符
      • 8.1 UNION 和 UNION ALL
      • 8.2 INTERSECT 模拟
    • 第九节 修改数据
      • 9.1 INSERT 语句
      • 9.2 INSERT IGNORE
      • 9.3 UPDATE 语句
      • 9.4 UPDATE JOIN 语句
      • 9.5 DELETE
      • 9.6 ON DELETE CASCADE.
      • 9.7 DELETE JOIN
      • 9.8 REPLACE 语句
      • 9.9 PREPARE 语句
    • 第十节 事务
      • 10.1 事务介绍
      • 10.2 表锁定
    • 第十一节 管理数据库和表
      • 11.1 数据库管理
      • 11.2 MySQL 表类型
      • 11.3 CREATE TABLE
      • 11.4 序列
      • 11.5 ALTER TABLE
      • 11.6 重命名表
      • 11.7 从表中删除列
      • 11.8 向表中添加新列
      • 11.9 删除表
      • 11.10 临时表
      • 11.11 TRUNCATE TABLE
    • 第十二节 索引
      • 12.1 管理索引
      • 12.1 UNIQUE 索引
    • 第十三节 数据类型
      • 13.1 INT
      • 13.2 DECIMAL
      • 13.3 BIT
      • 13.4 BOOLEAN
      • 13.5 CHAR
      • 13.6 VARCHAR
      • 13.7 TEXT
      • 13.8 DATE
      • 13.9 TIME
      • 13.10 DATETIME
      • 13.11 TIMESTAMP
      • 13.12 JSON
      • 13.13 ENUM
    • 第十四节 约束
      • 14.1 NOT NULL 约束
      • 14.2 主键约束
      • 14.2 外键约束
      • 14.4 UNIQUE 约束
      • 14.5 CHECK 约束
    • 第十五节 全球化
      • 15.1 字符集
      • 15.2 校对规则
    • 第十六节 导入和导出
      • 16.1 导入 CSV 文件
      • 16.2 导出为 CSV
  • 第二章 技巧
    • CTE 简介
    • 递归 CTE
    • 邻接列表模型和层次结构
    • 获取行数
    • 比较表
    • 找重复值
    • 删除重复行
    • UUID 和主键
    • 复制表数据
    • 变量
    • 生成列
    • 连续行比较
    • 更改存储引擎
    • 基于正则表达式的搜索
    • row_number 模拟
    • 随机选择记录
    • 选择第 n 个最高纪录
    • 重置自动增量值
    • MariaDB 与 MySQL 比较
    • 间隔
    • NULL 详细和应用
    • 获取今天的日期
    • 将NULL值映射到有意义的值
    • 注释
  • 第三章 存储过程
    • 简介
    • 入门
    • 变量
    • 参数
    • 返回多个值
    • IF语句
    • CASE语句
    • IF和CASE语句的技巧
    • 循环
    • 游标
    • 列出存储过程
    • 错误处理
    • SIGNAL 和 ESIGNAL 语句
    • 存储函数
  • 第四章 触发器
    • 实现
    • 创建
    • 创建多个触发器
    • 管理
    • 计划事件
    • 修改事件
  • 第五章 视图
    • 简介
    • 实现和限制
    • 创建
    • 可更新视图
    • 确保视图一致性
    • 检查选项子句
    • 管理
  • 第六章 全文搜索
    • 简介
    • 定义索引
    • 自然语言全文搜索
    • 布尔全文搜索
    • 查询扩展
    • ngram全文解析器
  • 第七章 函数
  • 第八章 管理
    • 访问控制系统入门
    • 创建用户
    • 授予权限
    • 撤销权限
    • 角色管理
    • 删除用户
    • 维护数据库表
    • 备份数据库
    • 列出数据库
    • 列出表
    • 列出表的列
    • 列出用户
Powered by GitBook
On this page
  • MySQL ngram全文解析器简介
  • 使用 ngram 解析器创建FULLTEXT索引
  • 设置ngram令牌大小
  • ngram解析器短语搜索
  • 用ngram处理搜索结果
  • ngram通配符搜索
  • 处理停止词

Was this helpful?

  1. 第六章 全文搜索

ngram全文解析器

Previous查询扩展Next第七章 函数

Last updated 5 years ago

Was this helpful?

本教程将向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。

MySQL ngram全文解析器简介

MySQL内置的全文解析器使用空格确定单词的开始和结束。当涉及汉语,日语或韩语等表意语言语言时,这是一个限制,因为这些语言不使用分词符。

为了解决这个问题,MySQL提供了ngram全文解析器。自MySQL5.7.6版起,MySQL将ngram全文解析器作为内置的服务器插件,这意味着当MySQL数据库服务器启动时,MySQL会自动加载该插件。 MySQL支持用于InnoDB和MyISAM存储引擎的ngram全文解析器。

根据定义,ngram是来自文本序列的多个字符的连续序列。 ngram全文解析器的主要功能是将文本序列标记为n个字符的连续序列。

以下说明了ngram全文解析器如何标记不同值n的文本序列:

n = 1: 'm','y','s','q','l'
n = 2: 'my', 'ys', 'sq','ql' 
n = 3: 'mys', 'ysq', 'sql'
n = 4: 'mysq', 'ysql'
n = 5: 'mysql'

使用 ngram 解析器创建FULLTEXT索引

要创建使用ngram全文解析器的FULLTEXT索引,可以在,或CREATE INDEX语句中添加WITH PARSER ngram。

例如,以下语句创建新的帖子表,并将标题和正文列添加到使用ngram全文解析器的FULLTEXT索引。

USE testdb;
CREATE TABLE posts (
    id INT PRIMARY KEY AUTO_INCREMENT,
    title VARCHAR(255),
    body TEXT,
    FULLTEXT ( title , body ) WITH PARSER NGRAM
)  ENGINE=INNODB CHARACTER SET UTF8;
SET NAMES utf8;

INSERT INTO posts(title,body)
VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),
      ('MySQL教程','学习MySQL快速,简单和有趣');

请注意,SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在本示例中,它使用的是utf8。

要查看ngram如何标记文本,请使用以下语句:

SET GLOBAL innodb_ft_aux_table="testdb/posts";

SELECT 
    *
FROM
    information_schema.innodb_ft_index_cache
ORDER BY doc_id , position;

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    *
FROM
    information_schema.innodb_ft_index_cache
ORDER BY doc_id , position;
+------+--------------+-------------+-----------+--------+----------+
| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |
+------+--------------+-------------+-----------+--------+----------+
| my   |            2 |           3 |         2 |      2 |        0 |
| ys   |            2 |           3 |         2 |      2 |        1 |
| sq   |            2 |           3 |         2 |      2 |        2 |
| ql   |            2 |           3 |         2 |      2 |        3 |
| l全  |            2 |           2 |         1 |      2 |        4 |
| 全文 |            2 |           2 |         1 |      2 |        5 |
| 文搜 |            2 |           2 |         1 |      2 |        8 |
| 搜索 |            2 |           2 |         1 |      2 |       11 |
| ql   |            2 |           3 |         2 |      2 |       18 |
| my   |            2 |           3 |         2 |      2 |       18 |
| ys   |            2 |           3 |         2 |      2 |       18 |
| sq   |            2 |           3 |         2 |      2 |       18 |
| l提  |            2 |           2 |         1 |      2 |       22 |
| 提供 |            2 |           2 |         1 |      2 |       23 |
| 供了 |            2 |           2 |         1 |      2 |       26 |
| 了具 |            2 |           2 |         1 |      2 |       29 |
| 具有 |            2 |           2 |         1 |      2 |       32 |
| 有许 |            2 |           2 |         1 |      2 |       35 |
| 许多 |            2 |           2 |         1 |      2 |       38 |
| 多好 |            2 |           2 |         1 |      2 |       41 |
| 好的 |            2 |           2 |         1 |      2 |       44 |
| 的功 |            2 |           2 |         1 |      2 |       47 |
| 功能 |            2 |           2 |         1 |      2 |       50 |
| 能的 |            2 |           2 |         1 |      2 |       53 |
| 的内 |            2 |           2 |         1 |      2 |       56 |
| 内置 |            2 |           2 |         1 |      2 |       59 |
| 搜索 |            2 |           2 |         1 |      2 |       60 |
| 文搜 |            2 |           2 |         1 |      2 |       60 |
| 全文 |            2 |           2 |         1 |      2 |       60 |
| 置全 |            2 |           2 |         1 |      2 |       62 |
| my   |            2 |           3 |         2 |      3 |        0 |
| ys   |            2 |           3 |         2 |      3 |        1 |
| sq   |            2 |           3 |         2 |      3 |        2 |
| ql   |            2 |           3 |         2 |      3 |        3 |
| l教  |            3 |           3 |         1 |      3 |        4 |
| 教程 |            3 |           3 |         1 |      3 |        5 |
| 学习 |            3 |           3 |         1 |      3 |       12 |
| 习m  |            3 |           3 |         1 |      3 |       15 |
| sq   |            2 |           3 |         2 |      3 |       18 |
| ql   |            2 |           3 |         2 |      3 |       18 |
| my   |            2 |           3 |         2 |      3 |       18 |
| ys   |            2 |           3 |         2 |      3 |       18 |
| l快  |            3 |           3 |         1 |      3 |       22 |
| 快速 |            3 |           3 |         1 |      3 |       23 |
| 速, |            3 |           3 |         1 |      3 |       26 |
| ,简 |            3 |           3 |         1 |      3 |       29 |
| 简单 |            3 |           3 |         1 |      3 |       32 |
| 单和 |            3 |           3 |         1 |      3 |       35 |
| 和有 |            3 |           3 |         1 |      3 |       38 |
| 有趣 |            3 |           3 |         1 |      3 |       41 |
+------+--------------+-------------+-----------+--------+----------+
50 rows in set

此查询对于故障排除目的很有用。例如,如果一个单词不包括在搜索结果中,则该单词可能没有被编入索引,因为它是一个停止词或者可能是其它原因。

设置ngram令牌大小

在前面的示例可以看到,默认情况下,ngram中的令牌大小(n)为2,要更改令牌大小,请使用ngram_token_size配置选项,值的范围是:1到10。

请注意,较小的令牌大小可使较小的全文搜索索引更快地进行搜索。

因为ngram_token_size是只读变量,因此您只能使用两个选项设置其值:

第一种方式,在启动字符串中:

mysqld --ngram_token_size=1

第二种方式 - 在配置文件中:

[mysqld]
ngram_token_size=1

ngram解析器短语搜索

MySQL将短语搜索转换成ngram短语搜索。 例如,abc被转换为ab bc,它返回包含ab bc和abc的文档。

以下示例显示在posts表中搜索短语:搜索:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('搜索' );

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('搜索' );
+----+---------------+-------------------------------------------+
| id | title         | body                                      |
+----+---------------+-------------------------------------------+
|  1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
+----+---------------+-------------------------------------------+
1 row in set

用ngram处理搜索结果

自然语言模式

在自然语言模式搜索中,搜索项被转换为ngram值的并集。 假设令牌大小为2或者二进制,则搜索项mysql被转换为我的my ys sq和ql。

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);
+----+-----------+---------------------------+
| id | title     | body                      |
+----+-----------+---------------------------+
|  2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-----------+---------------------------+
1 row in set

布尔模式

在BOOLEAN MODE搜索中,搜索项被转换成ngram短语搜索。 例如:

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);
+----+-----------+---------------------------+
| id | title     | body                      |
+----+-----------+---------------------------+
|  2 | MySQL教程 | 学习MySQL快速,简单和有趣 |
+----+-----------+---------------------------+
1 row in set

ngram通配符搜索

ngram FULLTEXT索引仅包含ngram,因此它不知道短语的开始。执行通配符搜索时,可能会返回意外的结果。

以下规则将应用于使用ngram FULLTEXT搜索索引的通配符搜索:

如果通配符中的前缀短语短于ngram令牌大小,则查询返回所有包含以前缀项为起始的ngram令牌的文档。 例如:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('my*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('my*' );
+----+---------------+-------------------------------------------+
| id | title         | body                                      |
+----+---------------+-------------------------------------------+
|  1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
|  2 | MySQL教程     | 学习MySQL快速,简单和有趣                 |
+----+---------------+-------------------------------------------+
2 rows in set

如果通配符中的前缀短语长于ngram令牌大小,则MySQL将将前缀术语转换为ngram短语,并忽略通配符运算符。 请参阅以下示例:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('mysqld*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('mysqld*' );
+----+---------------+-------------------------------------------+
| id | title         | body                                      |
+----+---------------+-------------------------------------------+
|  1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |
|  2 | MySQL教程     | 学习MySQL快速,简单和有趣                 |
+----+---------------+-------------------------------------------+
2 rows in set

在这个例子中,短语“mysqld”被转换为ngram短语:my ys sq ql ld,因此返回包含其中一个短语的所有文档。

处理停止词

ngram解析器不包括在停止词列表中包含停止词的令牌。例如,假设ngram_token_size为2,文档包含abc。 ngram解析器将文档标记为ab和bc。 如果b是一个停用词,则ngram将包含ab和bc,因为它们包含b。

请注意,如果语言不是英语,则必须定义自己的词条列表。 此外,长度大于ngram_token_size的停止词将被忽略。

在本教程中,您已经学会了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。

以下语句赂posts表中插入一个新行:

CREATE TABLE
ALTER TABLE
INSERT