笔记十七：基于词项和基于全文的搜索

CrazyZard 的个人博客 / 0 / 0 / 创建于 6年前 / 更新于 4年前 / 1 个改进

基于Term的查询

Term 的重要性
- Term 是表达语意的最小单位。搜索和利用统计语言模型进行自然语言处理都需要处理Term
特点
- Term Level Query：Term Query / Range Query / Exists Query / Prefix Query / Wildcard Query
- 在ES中，Term 查询，对输入不做分词。会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为每个包含该词项的文档进行相关度算分- 例如“Apple Store”
- 可以通过Constant Score 将查询转换换成一个Filtering，避免算分，并利用缓存，提高性能

Demo

插入数据

POST /products/_bulk
{ "index": { "_id": 1 }}
{ "productID" : "XHDK-A-1293-#fJ3","desc":"iPhone" }
{ "index": { "_id": 2 }}
{ "productID" : "KDKE-B-9947-#kL5","desc":"iPad" }
{ "index": { "_id": 3 }}
{ "productID" : "JODL-X-1937-#pV7","desc":"MBP" }

查询

POST /products/_search
{
"query": {
  "term": {
    "desc.keyword": {
      "value": "iPhone" //查不多数据，term查询
      //"value":"iphone" // 查到数据 term查询会做分词
    }
  }
}
}
POST /products/_search
{
"query": {
  "term": {
    "productID": {
      "value": "XHDK-A-1293-#fJ3"  // 无结果
      "value": "xhdk" //有一条数据
      "value": "xhdk-a-1293-#fj3"
    }
  }
}
}
//如果对值进行查询
POST /products/_search
{
//"explain": true,
"query": {
  "term": {
    "productID.keyword": {
      "value": "XHDK-A-1293-#fJ3"
    }
  }
}
}

复合查询 - Constant Score 转为 Filter

将Query 转成 Filter，忽略TF-IDF计算，避免相关性算分的开销
Filter 可以有效利用缓存

POST /products/_search
{
  "explain": true,
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "productID.keyword": "XHDK-A-1293-#fJ3"
        }
      }
    }
  }
}

基于全文本的查询

基于全文本的查找
- Match Query / Match Phrase Query / Query String Query
特点
- 索引和搜索时会进行分词，查询字符串先传递到一个合适的分词器，然后生成一个供查询的词项列表
- 查询时候，先会对输入的查询进行分词。然后每个词项逐个进行底层的查询，最终将结果进行合并。并未每个文档生成一个算分。例如查“Martix reloaded”,会查到包括 Matrix或者 reload的所有结果。

Match Query Result

POST movies/_search
{
  "query":{
    "match": {
      "title":{
        "query": "Matrix reloaded"
      }
    }
  }
}

Operator

POST movies/_search
{
  "query":{
    "match": {
      "title":{
        "query": "Matrix reloaded",
        "operator":"AND"
      }
    }
  }
}

Minimun_should_match

POST movies/_search
{
  "query":{
    "match": {
      "title":{
        "query": "Matrix reloaded",
        "minimum_should_match":2"
      }
    }
  }
}

Match Phrase Query

POST movies/_search
{
  "profile":true,
  "query":{
    "match_phrase": {
      "title":{
        "query": "Matrix reloaded",
        "slop":1"
      }
    }
  }
}

Match Query 查询过程

基于全文本的查找
- Match Query / Match Phrase Query / Query String Query
基于全文本的查询的特点
- 索引和搜索时都会进行分词，查询字符串先传递到一个合适的分词器，然后生成一个供查询的词项列表
- 查询会对每个词项逐个进行底层的查询，再将结果进行合并，并未每个文档生成一个算分

ES 笔记十六：基于词项和基于全文的搜索

本节知识点回顾

基于词项的查找 vs 基于全文的查找
通过字段 Mapping 控制字段的分词
- “Text” vs “Keyword”
通过参数控制查询的Precision & Recall
复合查询
- 即使是对Keyword 进行Term 查询，同样会进行算分
- 可以将查询转为Filtering，取消相关性算分的环节，以提高性能

本作品采用《CC 协议》，转载必须注明作者和本文链接

快乐就是解决一个又一个的问题！

本帖由系统于 5年前自动加精

CrazyZard

版主 1.3k 声望

程序猿 @ 西湖心辰

暂无个人描述~

6 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

笔记十七：基于词项和基于全文的搜索

基于Term的查询

Demo

复合查询 - Constant Score 转为 Filter

基于全文本的查询

Match Query Result

Operator

Minimun_should_match

Match Phrase Query

Match Query 查询过程

本节知识点回顾

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

笔记十七：基于词项和基于全文的搜索

基于Term的查询

Demo

复合查询 - Constant Score 转为 Filter

基于全文本的查询

Match Query Result

Operator

Minimun_should_match

Match Phrase Query

Match Query 查询过程

本节知识点回顾

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录