笔记二十三：多语言及中文分词与检索

CrazyZard 的个人博客 / 0 / 0 / 创建于 5年前 / 更新于 5年前

自然语言与查询Recall

当处理人类自然语言时，有些情况，尽管搜索和原文不完全匹配，但是希望搜到一些内容
- Quick brown fox 和 fast brown fox / Jumping fox 和 Jumped foxes
一些可采取的优化
- 归一化词元：清除变音符号，如 role 的的时候也会匹配role
- 抽取词根：清除单复数和时态的差异
- 包含同义词
- 拼写错误：拼写错误，或者同音异形词

混合多语言的挑战

一些具体的多语言场景
- 不同的索引使用不同的语言 / 同一索引中，不同的字段使用不同的语言 / 一个文档的一个字段内混合不同的语言
混合语言存在的一些挑战
- 次干提取：以色列文档，包含了希伯来语，阿拉伯语，俄语和英文
- 不争取的文档频率 - 英文为主的文章中，德文算分高（稀有）
- 需要判断用户搜索时使用的语言，语言识别（Compact Language Detecor）
  - 例如，根据语言查询不同的索引

分词的挑战

英文分词：You’re 分成一个还是多个？Half -baked
中文分词
- 分词的标椎：哈工大标椎中，姓和名分开。HanLP是在一起的。具体情况需制定不同的标椎
- 歧义（组合型歧义，交际型歧义，真歧义）
  - 中华人民共和国 / 美国会通过对台收武器法案/ 上海仁和服装厂

中文分词方法的演变-字典法

查字典 - 最容易想到的分词方法（北京航空大学的梁南元教授提出）
- 一个句子从左到到右扫描一遍。遇到有点词就标识出来。找到复合词，就找最长的
- 不认识的字符串就分割成单字词
最小词数的分词理论- 哈工大王晓龙博士吧查字典的方法理论化
- 一句话应该分词数量最少的词串
- 遇到二义性的分割，无能为力（例如：“发展中国家”/“上海大学城书店”）
- 用各种文化规则来解决二义性，都并不成功

中文分词方法的演变- 基于统计法的机器学习算法

统计语言模型 - 1990年前后，清华大学电子工程系郭进博士
- 解决了二义性问题，将中文分词的错误率降低了一个数据级。概率问题，动态规划+利用维特比算法快速找到最佳分词
基于统计的机器学习算法
- 这类目前常用的算法是 HMM、CRF、SVM、深度学习算法等算法。比如 Hanlp分词工具是基于CRF算法为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具有较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的下效果
- 随着深度学习的兴起，也出现了基于神经网路的分词器，有人尝试使用双向LSTM + CRF实现分词器，其本质上是序列标注，据报道其分词器字符准确率可高达97.5%

中文分词器现状

中文分词器以统计语言模型为基础，经过几十年的发展，今天基本已经可以看做是一个已经解决的问题
不同分词器的好坏，主要的差别在于数据的使用和工程使用的精度
常见的分词器都是使用机器学期算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性

一些中文分词器

HanLP - 面向生产环境的自然语言处理包
IK 分词器

HanLP

./elasticsearch-plugin install https://github.com/KennFalcon/elasticsearc...

IK Analysis

/elasticsearch-plugin install https://github.com/medcl/elasticsearch-ana...

拼音

./elasticsearch-plugin install https://github.com/medcl/elasticsearch-ana...

中文分词 DEMO

使用不同分词器测试效果
索引时，尽量切分的短，查询的时候，尽量用长的词
拼音分词器

#安装插件
./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.1.0/elasticsearch-analysis-ik-7.1.0.zip
#安装插件
bin/elasticsearch install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v7.1.0/elasticsearch-analysis-hanlp-7.1.0.zip

#ik_max_word
#ik_smart
#hanlp: hanlp默认分词
#hanlp_standard: 标准分词
#hanlp_index: 索引分词
#hanlp_nlp: NLP分词
#hanlp_n_short: N-最短路分词
#hanlp_dijkstra: 最短路分词
#hanlp_crf: CRF分词（在hanlp 1.6.6已开始废弃）
#hanlp_speed: 极速词典分词

POST _analyze
{
  "analyzer": "hanlp_standard",
  "text": ["剑桥分析公司多位高管对卧底记者说，他们确保了唐纳德·特朗普在总统大选中获胜"]

}     

#Pinyin
PUT /artists/
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "user_name_analyzer" : {
                    "tokenizer" : "whitespace",
                    "filter" : "pinyin_first_letter_and_full_pinyin_filter"
                }
            },
            "filter" : {
                "pinyin_first_letter_and_full_pinyin_filter" : {
                    "type" : "pinyin",
                    "keep_first_letter" : true,
                    "keep_full_pinyin" : false,
                    "keep_none_chinese" : true,
                    "keep_original" : false,
                    "limit_first_letter_length" : 16,
                    "lowercase" : true,
                    "trim_whitespace" : true,
                    "keep_none_chinese_in_first_letter" : true
                }
            }
        }
    }
}


GET /artists/_analyze
{
  "text": ["刘德华 张学友 郭富城 黎明 四大天王"],
  "analyzer": "user_name_analyzer"
}

es

本作品采用《CC 协议》，转载必须注明作者和本文链接

快乐就是解决一个又一个的问题！

CrazyZard

版主 1.3k 声望

程序猿 @ 西湖心辰

暂无个人描述~

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

笔记二十三：多语言及中文分词与检索

自然语言与查询Recall

混合多语言的挑战

分词的挑战

中文分词方法的演变-字典法

中文分词方法的演变- 基于统计法的机器学习算法

中文分词器现状

一些中文分词器

HanLP

IK Analysis

拼音

中文分词 DEMO

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

笔记二十三：多语言及中文分词与检索

自然语言与查询Recall

混合多语言的挑战

分词的挑战

中文分词方法的演变-字典法

中文分词方法的演变- 基于统计法的机器学习算法

中文分词器现状

一些中文分词器

HanLP

IK Analysis

拼音

中文分词 DEMO

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录