關(guān)鍵詞:文本復(fù)雜網(wǎng)絡(luò) 特征降維 pca 特征提取
摘要:【目的/意義】本文構(gòu)建一種'特征降維'文本復(fù)雜網(wǎng)絡(luò)進行文本表示,解決傳統(tǒng)詞同現(xiàn)文本復(fù)雜網(wǎng)絡(luò)處理海量數(shù)據(jù)時的維數(shù)災(zāi)難與語義不足問題,再結(jié)合機器學(xué)習(xí)方法提升文本特征提取效果。【方法/過程】依據(jù)共現(xiàn)關(guān)系抽取二級詞條,再結(jié)合依存句法關(guān)系抽取三級詞條,構(gòu)建'特征降維'文本復(fù)雜網(wǎng)絡(luò),接著利用PCA算法和TOPSIS法評價網(wǎng)絡(luò)節(jié)點重要性提取反映文本主題的關(guān)鍵詞作為文本特征詞,實現(xiàn)文本特征提取?!窘Y(jié)果/結(jié)論】本文以網(wǎng)絡(luò)新聞數(shù)據(jù)為實驗對象。實驗結(jié)果表明,特征降維文本復(fù)雜網(wǎng)絡(luò)能較好地表示中文文本,并且在較好地保留了文本語義信息的同時有效減少網(wǎng)絡(luò)節(jié)點冗余,結(jié)合PCA算法的特征提取方法可以使文本分類性能提高。
情報科學(xué)雜志要求:
{1}摘要論文應(yīng)附有中英文摘要。摘要應(yīng)能客觀地反映論文主要內(nèi)容的信息,具有獨立性和自含性。一般不超過200字,以與正文不同的字體字號排在作者署名與關(guān)鍵詞之間。
{2}本刊提倡嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng),堅持“百花齊放,百家爭鳴”的方針,堅持相互尊重的自由討論。
{3}正文(包括圖、表)中的物理量和計量單位必須符合國家標(biāo)準(zhǔn)與國際標(biāo)準(zhǔn)。
{4}附錄內(nèi)容較少,與參考文獻排在同一頁;如出現(xiàn)內(nèi)容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內(nèi)容格式要求與正文一致。
{5}本刊用稿采取三審四校制。來稿應(yīng)包括題名、作者姓名、作者單位、中英文摘要與關(guān)鍵詞、主要作者簡介、正文、參考文獻等。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社