如何使用 jieba 断词工具的 jieba.suggest_freq 设定 URL 不被切开（设定字串范围）

我有一个CSV档，是关于论坛内容

现在我需要对CSV资料进行分析和使用断词工具断开中文句子

以下是论坛内容的例子：

我使用了以下代码撰写，但是不知道得出的结果是错误原因：

from datetime import date,datetime
import csv
import codecs
import time
import re
import sys
import os
import jieba

jieba.load_userdict('./data/dict.txt')
file_name = 'head300.csv'
jieba.suggest_freq('李嘉誠',True)
jieba.suggest_freq('http:.*? ',True)

with open (file_name, 'r', encoding="utf-8") as csvfile:

reader = csv.reader(csvfile)

column = [row[4] for row in reader]

content_list = list(column)

print("Total: "+str(len(content_list)))
for no_list in range(0,Total_List):
    print(content_list[no_list])
    content_output = jieba.cut(content_list[no_list])
    print_list = '/'.join(content_output) + '\n'
    with open('seg.csv', 'a', newline='', encoding='utf-8') as csvfile:
        csvfile.write(print_list)

我需要设定URL不会被断开，我尝试了使用以下代码，但不成功：

jieba.suggest_freq('http:.*? ',True)

我知道 replace 功能可以使用 .*? 获取特定范围。但是，我不知道如何在suggest设定URL的范围。我需要在 jieba.suggest_freq 功能找到头4个字元 http 一直到最后一个字元 (空白格) 。

以下是我预期的需要的结果（URL不会被断开）:

救援/人員/到場/，/發現/有/2/名/女子/不適/，/遂/安排/救護/車將/她/們/送院/治理/。/l/in/k/:/ /https://hk.on.cc/hk/bkn/cnt/news/20200110/bkn-20200110181321251-0110_00822_001.html / /受事/故/影響/，/警方/將/部分/行人/路段/封鎖/，/而/消防/人員/經/調查/後/，/初步/相信/事件/並無/可疑/，/惟/氣體/源頭/仍/待/ 
調查/。

希望大家可以帮到我，谢谢喔❤

Jieba python 3.7.6

fd5556

51 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 19 |

博客

2021年python库大全 30 / 5 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

公告

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

Jason990420

1.9k 声望 / 個人 @ 個人

最佳答案

內定就是侦测第一个空白格, 我试了一下, OK啊

column = ['光绪年间有这样一个真实的故事。 https://ibook.idv.tw/enews/enews1531-1560/enews1536.html 江苏的贾先生，在上海租界一洋行工作，深得老板信任。 https://ibook.idv.tw/enews/enews1531-1560/enews1536.html 端午节前，老板派他去城南一带收欠款，他带上皮袋子就出发了。 ']
print(f"Total: {len(column)}")

for item in column:
    # print(item)
    content_output = cut_all(url_split(item))
    print_list = '/'.join(content_output) + '\n'
    #with open('seg.csv', 'a', newline='', encoding='utf-8') as csvfile:
    # csvfile.write(print_list)
    print(print_list)

Total: 1
光绪/年间/有/这样/一个/真实/的/故事/。 /https://ibook.idv.tw/enews/enews1531-1560/enews1536.html/ /江苏/的/贾/先生/，/在/上海/租界/一/洋行/工作/，/深得/老/板/信任/。 /https://ibook.idv.tw/enews/enews1531-1560/enews1536.html/ /端午/节前/，/老/板/派/他/去/城南/一带/收/欠款/，/他/带/上/皮袋子/就/出发/了/。

5年前评论

fd5556 （楼主）

我刚检查过了，原来是end=' '的部分打成 end=[' '] 就会出现我所讲的那个问题，目前已经解决，谢谢你

讨论数量: 2

Jason990420

1.9k 声望 / 個人 @ 個人

好像 jieba.suggest_freq 并没有提供正则式的功能, 提供自己写的两个函数, 试试.

from datetime import date,datetime
import csv
import codecs
import time
import re
import sys
import os
import jieba
from itertools import repeat

def url_split(string, sep=['https://', 'http://'], end=' '):
    if not string:
        return []
    if not any(map(str.__contains__, repeat(string), sep)):
        return [string]
    items = []
    for head in sep:
        try:
            start_ = string.index(head)
            items.append(start_)
        except:
            pass
    start = min(items)
    try:
        stop = string.index(end, start)
    except:
        stop = len(string)
    return [string[:start], string[start:stop]] + url_split(string[stop:])

def cut_all(sequence):
    result = []
    for item in sequence:
        result += [item] if any(map(str.startswith, repeat(item), sep)) else jieba.cut(item)
    return result

sep = ['https://', 'http://']
end = ' '
jieba.load_userdict('./data/dict.txt')
jieba.suggest_freq('李嘉誠',True)

file_name = 'head300.csv'

with open (file_name, 'r', encoding="utf-8") as csvfile:
    reader = csv.reader(csvfile)
    column = [row[4] for row in reader]

print(f"Total: {len(column)}")

for item in column:
    print(item)
    content_output = cut_all(url_split(item))
    print_list = '/'.join(content_output) + '\n'
    with open('seg.csv', 'a', newline='', encoding='utf-8') as csvfile:
        csvfile.write(print_list)
    print(print_list)

5年前评论

fd5556 （楼主）

我测试过你给的解答，确实是可以解决网址被切的问题，可是我发现用这个方法会导致以下问题

/【/葵涌/「/和/你/寫揮春/」/】/ / /https://upload.cc/i1/2020/01/11/Mw4Uj3.png    葵涌有街坊發起「和你寫揮春」活動，有數十名市民參與。除了寫揮春，現場亦設有抗爭畫展和放映會供市民觀賞，亦有向市民免費派發抗爭主題揮春。  https://upload.cc/i1/2020/01/11/DzfRk0.png    其中一位籌備此活動的街坊表示，希望藉今晚活動能連繫葵涌社區和表達對文宣組的支持。  https://upload.cc/i1/2020/01/11/X7KHLo.png    https://upload.cc/i1/2020/01/11/0eoInX.png    https://upload.cc/i1/2020/01/11/Vqs5Gt.png   葵涌手足好波！ 和宜合道運動場噴漆要小心，對面車房幾日都有便衣 /faces/smile.gif :)

网址之后的文字就变成没有没切割了，如果我想让它是侦测第一个空白格的话，我该怎么办的…？

Jason990420

1.9k 声望 / 個人 @ 個人

內定就是侦测第一个空白格, 我试了一下, OK啊

column = ['光绪年间有这样一个真实的故事。 https://ibook.idv.tw/enews/enews1531-1560/enews1536.html 江苏的贾先生，在上海租界一洋行工作，深得老板信任。 https://ibook.idv.tw/enews/enews1531-1560/enews1536.html 端午节前，老板派他去城南一带收欠款，他带上皮袋子就出发了。 ']
print(f"Total: {len(column)}")

for item in column:
    # print(item)
    content_output = cut_all(url_split(item))
    print_list = '/'.join(content_output) + '\n'
    #with open('seg.csv', 'a', newline='', encoding='utf-8') as csvfile:
    # csvfile.write(print_list)
    print(print_list)

Total: 1
光绪/年间/有/这样/一个/真实/的/故事/。 /https://ibook.idv.tw/enews/enews1531-1560/enews1536.html/ /江苏/的/贾/先生/，/在/上海/租界/一/洋行/工作/，/深得/老/板/信任/。 /https://ibook.idv.tw/enews/enews1531-1560/enews1536.html/ /端午/节前/，/老/板/派/他/去/城南/一带/收/欠款/，/他/带/上/皮袋子/就/出发/了/。

5年前评论

fd5556 （楼主）

我刚检查过了，原来是end=' '的部分打成 end=[' '] 就会出现我所讲的那个问题，目前已经解决，谢谢你

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

如何使用 jieba 断词工具的 jieba.suggest_freq 设定 URL 不被切开（设定字串范围）

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

如何使用 jieba 断词工具的 jieba.suggest_freq 设定 URL 不被切开（设定字串范围）

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录