jieba 词性标注 & 并行分词 
                                                    
                        
                    
                    
  
                    
                    jieba 词性标注
# 新建自定义分词器
jieba.posseg.POSTokenizer(tokenizer=None)
# 参数可指定内部使用的 jieba.Tokenizer 分词器。 jieba.posseg.dt 为默认词性标注分词器。
# 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。jieba 并行分词
将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。
基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
jieba.enable_parallel(4)  - 开启并行分词模式,参数为并行进程数。jieba.disable_parallel() - 关闭并行分词模式
并行分词仅支持默认分词器
jieba.dt和jieba.posseg.dt。
Tokenize:返回词语在原文的起止位置,输入参数只接受 unicode
import jieba
import jieba.analyse
result = jieba.tokenize(u'冷酷是个很酷的网站')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))搜索模式:
result = jieba.tokenize(u'冷酷是个前途无量的网站', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))延迟加载
jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果想初始 jieba,也可以手动初始化。
import jieba
# 手动初始化
jieba.initialize()词典文件:
jieba.set_dictionary('data/dict.txt.big')本作品采用《CC 协议》,转载必须注明作者和本文链接
                      本帖由 Galois
        于 4年前 解除加精
            
                 
           Galois 的个人博客
 Galois 的个人博客
         
             
           
           关于 LearnKu
                关于 LearnKu
               
                     
                     
                     粤公网安备 44030502004330号
 粤公网安备 44030502004330号