Python 情感分析断句不成功
大家好,小弟最近需要对句子进行断句,但是在断句的时候遇到部分句子断句不成功,只有连成一行,最终的情感值是 0.0
以下是断句不成功的两个个例子
事源係由建制派係區議會選舉大敗開始 支共覺得靠藍屍黑警都已經控制唔住香港局勢 所以首先係燉左王志民走、跟住港府上訴禁蒙面法 之後就係安排武漢P4實驗室既培植菌黎香港 想製造SARS 2.0 我懷疑港府某d高層已經收到order 所以著手準備定口罩存貨同粉嶺隔離區 如果SARS 2.0成事兼禁蒙面法上訴得直 可以滅起碼10萬香港人 到時冇人會再出黎抗爭 亦可以加快引入支那醫護、送中法、23條之類 點知而家武漢自己爆左出黎先 仲要俾美國證實係人工改造病毒 搞到要鎖城、淋柒同陳恥未收到指示又唔敢做野 黎緊香港會死幾多人我估唔到 但幾肯定呢舖會被支那攬炒硬 支共今次係想滅一批港人希望控制番個政局 不過到時我地死先定支爆先就要問個天先知
(不是本人post) 前線醫護去接觸武肺case 唔想返屋企都好正常 #yupsk# . 咁就變左好多醫護去book宿舍住. #hoho2sk# 而家要爭先有得去住架 結果就分左一間房 兩個人share 廁所就多房share咁. 咁都ok啦 大學咁. #hohosk# 好 去睇下間房先 就係得床同被比你 張被毛巾咁 算 被都算乾淨 [bangheadsk] 咁去抹下張床先放被啦. 嘩屌 [shockingsk] 抹完黑色既. 幾耐冇人住過? 好 忍. [O:-)sk] 咁去廁所睇下 都想沖個靚涼. #yupsk# 嘩屌你仲正 #ngsk# 原來係公廁咁. 即刻唔想沖去返醫院沖算. 好啦 唔沖涼啦 [O:-)sk] 抹完野洗洗手都要 開個熱水試試 #yupsk# [shockingsk] [shockingsk] #firesk# #firesk# [fucksk] [fucksk] 屌你乜野事 係咪入左恆河水比醫護增加抵抗力? 好 明白可能耐冇用 咁放一個鐘水睇下點: 仲係流恆河水 [:o)sk] btw另一邊冇事 但唔敢用. 問左幾次職員 唔肯轉. 結果朋友影左上面d相 send去內部group. 嚇到d大粒野親自打電話比當事人話可以安排下. (但果時已經深夜 仲轉咩房) 點解隔離營有美國牛食 醫護就住呢d ?
这两句我放到情感分析的时候不幸遇到断行失败,然后导致情感值是0
from snownlp import SnowNLP
text1 = "事源係由建制派係區議會選舉大敗開始 支共覺得靠藍屍黑警都已經控制唔住香港局勢 所以首先係燉左王志民走、跟住港府上訴禁蒙面法 之後就係安排武漢P4實驗室既培植菌黎香港 想製造SARS 2.0 我懷疑港府某d高層已經收到order 所以著手準備定口罩存貨同粉嶺隔離區 如果SARS 2.0成事兼禁蒙面法上訴得直 可以滅起碼10萬香港人 到時冇人會再出黎抗爭 亦可以加快引入支那醫護、送中法、23條之類 點知而家武漢自己爆左出黎先 仲要俾美國證實係人工改造病毒 搞到要鎖城、淋柒同陳恥未收到指示又唔敢做野 黎緊香港會死幾多人我估唔到 但幾肯定呢舖會被支那攬炒硬 支共今次係想滅一批港人希望控制番個政局 不過到時我地死先定支爆先就要問個天先知"
text2 = "(不是本人post) 前線醫護去接觸武肺case 唔想返屋企都好正常 #yupsk# . 咁就變左好多醫護去book宿舍住. #hoho2sk# 而家要爭先有得去住架 結果就分左一間房 兩個人share 廁所就多房share咁. 咁都ok啦 大學咁. #hohosk# 好 去睇下間房先 就係得床同被比你 張被毛巾咁 算 被都算乾淨 [bangheadsk] 咁去抹下張床先放被啦. 嘩屌 [shockingsk] 抹完黑色既. 幾耐冇人住過? 好 忍. [O:-)sk] 咁去廁所睇下 都想沖個靚涼. #yupsk# 嘩屌你仲正 #ngsk# 原來係公廁咁. 即刻唔想沖去返醫院沖算. 好啦 唔沖涼啦 [O:-)sk] 抹完野洗洗手都要 開個熱水試試 #yupsk# [shockingsk] [shockingsk] #firesk# #firesk# [fucksk] [fucksk] 屌你乜野事 係咪入左恆河水比醫護增加抵抗力? 好 明白可能耐冇用 咁放一個鐘水睇下點: 仲係流恆河水 [:o)sk] btw另一邊冇事 但唔敢用. 問左幾次職員 唔肯轉. 結果朋友影左上面d相 send去內部group. 嚇到d大粒野親自打電話比當事人話可以安排下. (但果時已經深夜 仲轉咩房) 點解隔離營有美國牛食 醫護就住呢d ?"
s1 = SnowNLP(text1)
s1.sentiments
0.0 #output
s2 = SnowNLP(text2)
s2.sentiments
0.0 #output
当我使用以下代码检查发现并没有成功断行,就只有一行
for sentence in s1.sentences:
print(sentence)
for sentence in s2.sentences:
print(sentence)
最终我无法把他们断行取出平均值,其他有全型逗号句号的句子则没有问题,可以顺利的得到想要的结果。
我想知道有什么方法可以让情感分析工具成功断行?(例如遇到空白格就断行),要从哪里设定才可以的~?
感谢大家