關(guān)鍵詞:中文分詞 膨脹卷積 深度學(xué)習(xí) 自然語言處理
摘要:目前,許多深度神經(jīng)網(wǎng)絡(luò)模型以雙向長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)處理中文分詞任務(wù),存在輸入特征不夠豐富、語義理解不全、計算速度慢的問題。針對以上問題,該文提出一種基于膨脹卷積神經(jīng)網(wǎng)絡(luò)模型的中文分詞方法。通過加入漢字字根信息并用卷積神經(jīng)網(wǎng)絡(luò)提取特征來豐富輸入特征;使用膨脹卷積神經(jīng)網(wǎng)絡(luò)模型并加入殘差結(jié)構(gòu)進行訓(xùn)練,能夠更好理解語義信息并提高計算速度。基于Bakeoff 2005語料庫的4個數(shù)據(jù)集設(shè)計實驗,與雙向長短時記憶網(wǎng)絡(luò)模型的中文分詞方法做對比,實驗表明該文提出的模型取得了更好的分詞效果,并具有更快的計算速度。
中文信息學(xué)報雜志要求:
{1}本刊對刊發(fā)的文章?lián)碛邪鏅?quán),不得擅自轉(zhuǎn)載、改編。凡轉(zhuǎn)載、改編務(wù)經(jīng)我刊同意,違者必究。
{2}作者簡介包括:姓名、性別、出生年月、畢業(yè)學(xué)校及所學(xué)專業(yè)、工作單位、職務(wù)職稱、現(xiàn)從事的研究工作情況。
{3}來稿若屬國家自然科學(xué)基金項目或省部基金項目,請在文稿中標明其基金來源和編號,我刊可以優(yōu)先審核發(fā)表。
{4}正文內(nèi)連續(xù)敘述中的序號采用①……;②……;③……。分級超過3級后用網(wǎng)括號如:“①”,“②”表示,并采用連排。
{5}附注請一律使用當頁腳注的形式,以帶圈①……⑩的方式編號,使用每頁重新編號的方式。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社