關(guān)鍵詞:模糊地址識(shí)別 文本相似度計(jì)算 最小編輯距離法 支持向量機(jī) 諧音字識(shí)別
摘要:由于受到客戶方言及語言習(xí)慣因素影響,加之客戶服務(wù)中心客服坐席手工記錄客戶地址的形式不統(tǒng)一,難以實(shí)現(xiàn)精確篩選細(xì)化到小區(qū)、村莊級(jí)別的相近地址,支撐定位客戶反映的頻繁停電等問題。該文提出了一種地址模糊匹配模型,根據(jù)地址信息的文本和拼音形式,利用最小編輯距離算法量化非結(jié)構(gòu)化客戶地址間的偏差程度。進(jìn)一步應(yīng)用支持向量機(jī)分類技術(shù),結(jié)合地址文本信息和拼音信息的編輯距離計(jì)算結(jié)果,實(shí)現(xiàn)對(duì)相近地址的有效識(shí)別。試驗(yàn)結(jié)果表明,該方法可以克服諧音字對(duì)地址識(shí)別的影響,具有計(jì)算速度快且識(shí)別能力強(qiáng)的優(yōu)勢(shì),能夠支撐篩選頻繁停電地址等場(chǎng)景應(yīng)用。另外,通過網(wǎng)格搜索法的應(yīng)用,實(shí)現(xiàn)了支持向量機(jī)分類器主要參數(shù)的優(yōu)化,提升了模糊地址匹配的精度。
電力大數(shù)據(jù)雜志要求:
{1}文中小標(biāo)題一般分為三級(jí),第一級(jí)標(biāo)題用“一、”、“二、”、“三、”標(biāo)示;第二級(jí)標(biāo)題用“1.”、“2.”、“3.”標(biāo)示,第三級(jí)標(biāo)題用“(1)”、“(2)”、“(3)”標(biāo)示,每級(jí)標(biāo)題序號(hào)前均空兩格。
{2}嚴(yán)禁一稿多投遞;如果一個(gè)月未獲錄用通知,作者可自行處理稿件。
{3}來稿請(qǐng)勿一稿多投,編輯部有權(quán)對(duì)采用的稿件進(jìn)行部分修改或者刪減。
{4}以單字母方式標(biāo)識(shí)以下各種參考文獻(xiàn)類型:普通圖書 [ M ],會(huì)議論文 [C],報(bào)紙文章 [N],期刊文章 [J],學(xué)位論文 [D],報(bào)告 [R],標(biāo)準(zhǔn) [S],專利〔P〕,匯編 [G],檔案 [B],古籍 [O],參考工具 [K]。
{5}來稿應(yīng)附3~8個(gè)關(guān)鍵詞。附200字左右的結(jié)構(gòu)式摘要(理論研究不要寫成結(jié)構(gòu)式摘要),內(nèi)容包括目的、方法、結(jié)果、結(jié)論。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社