如何使用 jieba 断词工具的 jieba.suggest_freq 设定 URL 不被切开(设定字串范围)
我有一个CSV档,是关于论坛内容
现在我需要对CSV资料进行分析和使用断词工具断开中文句子
以下是论坛内容的例子:
我使用了以下代码撰写,但是不知道得出的结果是错误原因:
from datetime import date,datetime
import csv
import codecs
import time
import re
import sys
import os
import jieba
jieba.load_userdict('./data/dict.txt')
file_name = 'head300.csv'
jieba.suggest_freq('李嘉誠',True)
jieba.suggest_freq('http:.*? ',True)
with open (file_name, 'r', encoding="utf-8") as csvfile:
reader = csv.reader(csvfile)
column = [row[4] for row in reader]
content_list = list(column)
print("Total: "+str(len(content_list)))
for no_list in range(0,Total_List):
print(content_list[no_list])
content_output = jieba.cut(content_list[no_list])
print_list = '/'.join(content_output) + '\n'
with open('seg.csv', 'a', newline='', encoding='utf-8') as csvfile:
csvfile.write(print_list)
我需要设定URL不会被断开,我尝试了使用以下代码,但不成功:
jieba.suggest_freq('http:.*? ',True)
我知道 replace
功能可以使用 .*?
获取特定范围。但是,我不知道如何在suggest设定URL的范围。我需要在 jieba.suggest_freq
功能 找到头4个字元 http
一直到最后一个字元 (空白格)
。
以下是我预期的需要的结果(URL不会被断开):
救援/人員/到場/,/發現/有/2/名/女子/不適/,/遂/安排/救護/車將/她/們/送院/治理/。/l/in/k/:/ /https://hk.on.cc/hk/bkn/cnt/news/20200110/bkn-20200110181321251-0110_00822_001.html / /受事/故/影響/,/警方/將/部分/行人/路段/封鎖/,/而/消防/人員/經/調查/後/,/初步/相信/事件/並無/可疑/,/惟/氣體/源頭/仍/待/
調查/。
希望大家可以帮到我,谢谢喔❤
內定就是侦测第一个空白格, 我试了一下, OK啊