jieba 词性标注 & 并行分词
jieba 词性标注
# 新建自定义分词器
jieba.posseg.POSTokenizer(tokenizer=None)
# 参数可指定内部使用的 jieba.Tokenizer 分词器。 jieba.posseg.dt 为默认词性标注分词器。
# 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
jieba 并行分词
将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。
基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
jieba.enable_parallel(4)
- 开启并行分词模式,参数为并行进程数。jieba.disable_parallel()
- 关闭并行分词模式
并行分词仅支持默认分词器
jieba.dt
和jieba.posseg.dt
。
Tokenize:返回词语在原文的起止位置,输入参数只接受 unicode
import jieba
import jieba.analyse
result = jieba.tokenize(u'冷酷是个很酷的网站')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
搜索模式:
result = jieba.tokenize(u'冷酷是个前途无量的网站', mode='search')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
延迟加载
jieba 采用延迟加载,import jieba
和 jieba.Tokenizer()
不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果想初始 jieba,也可以手动初始化。
import jieba
# 手动初始化
jieba.initialize()
词典文件:
jieba.set_dictionary('data/dict.txt.big')
本作品采用《CC 协议》,转载必须注明作者和本文链接
本帖由 Galois
于 4年前 解除加精