笔记十七:基于词项和基于全文的搜索
基于Term的查询
- Term 的 重要性
- Term 是表达语意的最小单位。搜索和利用统计语言模型进行自然语言处理都需要处理Term
- 特点
- Term Level Query:Term Query / Range Query / Exists Query / Prefix Query / Wildcard Query
- 在ES中,Term 查询,对输入不做分词。会将输入作为一个整体,在倒排索引中查找准确的词项,并且使用相关度算分公式为每个包含该词项的文档进行相关度算分- 例如“Apple Store”
- 可以通过Constant Score 将查询转换换成一个Filtering,避免算分,并利用缓存,提高性能
Demo
- 插入数据
POST /products/_bulk { "index": { "_id": 1 }} { "productID" : "XHDK-A-1293-#fJ3","desc":"iPhone" } { "index": { "_id": 2 }} { "productID" : "KDKE-B-9947-#kL5","desc":"iPad" } { "index": { "_id": 3 }} { "productID" : "JODL-X-1937-#pV7","desc":"MBP" }
- 查询
POST /products/_search { "query": { "term": { "desc.keyword": { "value": "iPhone" //查不多数据,term查询 //"value":"iphone" // 查到数据 term查询会做分词 } } } } POST /products/_search { "query": { "term": { "productID": { "value": "XHDK-A-1293-#fJ3" // 无结果 "value": "xhdk" //有一条数据 "value": "xhdk-a-1293-#fj3" } } } } //如果对值进行查询 POST /products/_search { //"explain": true, "query": { "term": { "productID.keyword": { "value": "XHDK-A-1293-#fJ3" } } } }
复合查询 - Constant Score 转为 Filter
- 将Query 转成 Filter,忽略TF-IDF计算,避免相关性算分的开销
- Filter 可以有效利用缓存
POST /products/_search
{
"explain": true,
"query": {
"constant_score": {
"filter": {
"term": {
"productID.keyword": "XHDK-A-1293-#fJ3"
}
}
}
}
}
基于全文本的查询
- 基于全文本的查找
- Match Query / Match Phrase Query / Query String Query
- 特点
- 索引和搜索时会进行分词,查询字符串先传递到一个合适的分词器,然后生成一个供查询的词项列表
- 查询时候,先会对输入的查询进行分词。然后每个词项逐个进行底层的查询,最终将结果进行合并。并未每个文档生成一个算分。 例如查“Martix reloaded”,会查到包括 Matrix或者 reload的所有结果。
Match Query Result
POST movies/_search
{
"query":{
"match": {
"title":{
"query": "Matrix reloaded"
}
}
}
}
Operator
POST movies/_search
{
"query":{
"match": {
"title":{
"query": "Matrix reloaded",
"operator":"AND"
}
}
}
}
Minimun_should_match
POST movies/_search
{
"query":{
"match": {
"title":{
"query": "Matrix reloaded",
"minimum_should_match":2"
}
}
}
}
Match Phrase Query
POST movies/_search
{
"profile":true,
"query":{
"match_phrase": {
"title":{
"query": "Matrix reloaded",
"slop":1"
}
}
}
}
Match Query 查询过程
- 基于全文本的查找
- Match Query / Match Phrase Query / Query String Query
- 基于全文本的查询的特点
- 索引和搜索时都会进行分词,查询字符串先传递到一个合适的分词器,然后生成一个供查询的词项列表
- 查询会对每个词项逐个进行底层的查询,再将结果进行合并,并未每个文档生成一个算分
本节知识点回顾
- 基于词项的查找 vs 基于全文的查找
- 通过字段 Mapping 控制字段的分词
- “Text” vs “Keyword”
- 通过参数控制查询的Precision & Recall
- 复合查询
- 即使是对Keyword 进行Term 查询,同样会进行算分
- 可以将查询转为Filtering,取消相关性算分的环节,以提高性能
本作品采用《CC 协议》,转载必须注明作者和本文链接
本帖由系统于 4年前 自动加精