伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀模板(10篇)

時間:2023-07-21 16:49:02

導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇網(wǎng)絡(luò)輿情分析研究現(xiàn)狀,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀

篇1

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)絡(luò)言論活躍已達到前所未有的程度,不論是對國家政策的討論,還是針對國內(nèi)或國際的重大事件,都能馬上形成網(wǎng)上輿論,這種網(wǎng)絡(luò)來表達觀點、傳播思想產(chǎn)生輿論壓力,達到任何部門、機構(gòu)都無法忽視的地步。

網(wǎng)絡(luò)輿情通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等形式對現(xiàn)實生活中某些熱點、焦點問題等進行反應(yīng),其中不乏較強影響力、傾向性的言論和觀點。如果引導(dǎo)不善,負面的網(wǎng)絡(luò)輿情將對社會公共安全形成較大威脅。對相關(guān)政府部門來說,如何加強對網(wǎng)絡(luò)輿論的及時監(jiān)測、有效引導(dǎo),以及對網(wǎng)絡(luò)輿論危機的積極化解,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現(xiàn)實意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵。

1 系統(tǒng)價值

1.1 社會效益分析

網(wǎng)絡(luò)輿情智能監(jiān)測與分析系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)對網(wǎng)絡(luò)輿情的統(tǒng)計分析,并以此作為網(wǎng)絡(luò)輿情監(jiān)測的管理的依據(jù)。具體作用表現(xiàn)在以下幾個方面:

1) 系統(tǒng)向決策者提供客觀、準確的輿情信息,有利于決策者做出正確的決策

2) 系統(tǒng)向決策者提供系統(tǒng)的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維

3) 系統(tǒng)能提供各種輿情的趨勢分析信息給決策者

1.2 經(jīng)濟效益分析

目前,由于互聯(lián)網(wǎng)的日益普及,各種輿情的不斷涌現(xiàn),好的、壞的都有。政府部門、大型機構(gòu)、社會企業(yè)等都希望能盡早識別不良傾向的、帶有煽動或甚至含有社會危害的言論,或者是獲取政策落實、制度實施效果等信息。這些需要揭示了系統(tǒng)建設(shè)在帶來巨大的社會價值的同時帶來巨大的經(jīng)濟效益。

2 同類系統(tǒng)現(xiàn)狀

基于目前的網(wǎng)絡(luò)現(xiàn)狀,為數(shù)不多的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)基本上是采用關(guān)鍵詞搜索進行輿情信息檢測,由于關(guān)鍵詞搜索的查全率和查準率都不高,因此網(wǎng)絡(luò)輿情監(jiān)測的效果不夠理想,更是無法自動發(fā)現(xiàn)新的輿情點。

部分網(wǎng)絡(luò)輿情檢測系統(tǒng)只是在企業(yè)內(nèi)部使用,無法適用于政府部門等大型機構(gòu),部分系統(tǒng)采用的算法效率低,不能快速對數(shù)據(jù)進行處理,因而無法滿足超大網(wǎng)絡(luò)環(huán)境下的輿情檢測與分析,無法做到自學(xué)習(xí)成長,沒有類似知識庫的自動累積處理功能,必須人工協(xié)助處理?;诖朔N情況,提出創(chuàng)建《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》項目來解決這些問題。

3 網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)簡介

該系統(tǒng)核心部分包括信息獲取、信息處理、前端信息展現(xiàn)幾個部分。實現(xiàn)從網(wǎng)頁獲取數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行清洗、提煉、分析總結(jié),最終形成決策信息并存入數(shù)據(jù)庫中,提供靈活的前端查詢機制,把信息傳遞給決策人員。

網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)實現(xiàn)以下目標:1) 對熱點話題、敏感話題識別。2) 實現(xiàn)傾向性分析。3) 實現(xiàn)對輿情主題的跟蹤。4) 自動形成輿情摘要。5) 形成趨勢分析報告。6) 自動識別突發(fā)事件及發(fā)展趨勢。7) 對敏感內(nèi)容實現(xiàn)預(yù)警。8) 提供輿情分析統(tǒng)計報告提供決策支持。

4 系統(tǒng)關(guān)鍵技術(shù)研究

4.1 網(wǎng)絡(luò)輿情行為模式識別技術(shù)

對于“行為模式識別”算法應(yīng)用最廣和成熟的是防垃圾郵件的“行為模式識別技術(shù)”。在垃圾郵件的行為模式識別技術(shù)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)輿情的特點,輿情內(nèi)容內(nèi)在結(jié)構(gòu)關(guān)系、演化規(guī)律等基礎(chǔ)信息,收集網(wǎng)絡(luò)上典型的熱點話題、敏感話題、政策熱議等方面的適當數(shù)量的文章組成行為識別學(xué)習(xí)訓(xùn)練庫,利用網(wǎng)上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標作為輿情分析的依據(jù),配以科學(xué)的算法,通過對“訓(xùn)練庫“進行學(xué)習(xí)及總結(jié)、計算,結(jié)合網(wǎng)絡(luò)輿情信息產(chǎn)生和傳播的典型行為特征,建立網(wǎng)絡(luò)輿情行為模式數(shù)學(xué)統(tǒng)計模型,以此實現(xiàn)網(wǎng)絡(luò)輿情的智能發(fā)現(xiàn)。

4.2 自動分類和聚類技術(shù)[1]

自動分類是指按照已有的分類,把相關(guān)信息按照分類的標準進行歸類。聚類則事先沒有定義特點的分類及標準,是在分析過程中利用一定的算法,把類似的內(nèi)容進行自動劃類并聚合的處理過程。

根據(jù)輿情分析的特點,本系統(tǒng)基于統(tǒng)計的自動分類技術(shù),利用向量空間模型來表示輿情分析的文檔。對輿情文檔特征進行抽取和加權(quán)、機器學(xué)習(xí)。在處理過程中,考慮到不同位置出現(xiàn)的語詞的價值不同而給定不同的加權(quán)系數(shù)。機器學(xué)習(xí)的方法主要有支撐向量機、最近K鄰居方法和貝葉斯算法[2] 等,可以根據(jù)輿情文檔的特點而選擇相應(yīng)的方法。

輿情文檔自動聚類的關(guān)鍵步驟有文檔表示、相似度計算、聚類和給出聚類標識等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等。在網(wǎng)絡(luò)輿情分析中,根據(jù)輿情分析的目的,選擇那些最具有區(qū)分性的特征,而不是大多數(shù)文檔都具有的特征來實現(xiàn)自動聚類。

在本系統(tǒng)解決方案中采取了自動歸類和自動聚類相結(jié)合的方式,先進行自動歸類,再在各類別之下進行自動聚類。

4.3 內(nèi)容分析技術(shù)

內(nèi)容分析法是一種對于傳播內(nèi)容進行客觀,系統(tǒng)和定量的描述的研究方法。其實質(zhì)是對傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準確意義的過程。內(nèi)容分析的過程是層層推理的過程。隨著信息技術(shù)的發(fā)展,計算機的性能不斷提高,各種內(nèi)容分析技術(shù)也逐漸成熟,為網(wǎng)絡(luò)輿情的深度挖掘分析奠定了很好的基礎(chǔ)。

《內(nèi)容分析法:媒介信息量化研究技巧》[3]一書提供了系統(tǒng)全面的內(nèi)容分析研究的操作指南,深入分析了內(nèi)容分析中的各種常見問題,如測量、抽樣、信度、效度和數(shù)據(jù)分析中的各種技術(shù)。在進行網(wǎng)絡(luò)輿情內(nèi)容分析前,獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,獲取有針對性的、信息量大、覆蓋全面的、連續(xù)的內(nèi)容樣例,定義分析單元。對數(shù)據(jù)進行量化處理形成評判記錄和進行信度分析兩部分內(nèi)容,再根據(jù)網(wǎng)絡(luò)輿情建立合適的維度,最后進行統(tǒng)計分析,并形成分析結(jié)論。

5 系統(tǒng)實現(xiàn)

在系統(tǒng)開發(fā)過程中,要建立了若干知識庫,利用垂直搜索、知識發(fā)現(xiàn)、自動分詞和抽詞、自動分類和聚類、內(nèi)容分析等技術(shù),實現(xiàn)對海量網(wǎng)絡(luò)信息進行監(jiān)測、網(wǎng)絡(luò)輿情的自動發(fā)現(xiàn)和分析。該系統(tǒng)建設(shè)的核心是要收集圍繞主題的、足夠量的數(shù)據(jù),并經(jīng)過整理形成規(guī)范數(shù)據(jù)再進行挖掘,輸出有用的決策信息,系統(tǒng)結(jié)構(gòu)圖如圖1所示。

系統(tǒng)涉及五個主要方面:

5.1 數(shù)據(jù)收集處理

進行網(wǎng)絡(luò)輿情分析的前提是獲取基于某個主題的、數(shù)量足夠多的、完整的網(wǎng)絡(luò)數(shù)據(jù)。為了解決這個問題,系統(tǒng)建設(shè)時考慮通過建立數(shù)據(jù)收集規(guī)則來達到此目的。在數(shù)據(jù)收集規(guī)則時主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達的數(shù)據(jù)量等。

在規(guī)則制定后,信息收集組件利用類似“網(wǎng)絡(luò)爬蟲”的技術(shù),按照已經(jīng)設(shè)置的收集規(guī)則,到網(wǎng)絡(luò)上進行數(shù)據(jù)收集。 數(shù)據(jù)收集后按照主題歸于相應(yīng)的數(shù)據(jù)庫中,以便下一步的數(shù)據(jù)處理。

5.2 信息處理模塊

需要把收集的數(shù)據(jù)轉(zhuǎn)為有用的信息,在收集到相關(guān)數(shù)據(jù)后,先期對已經(jīng)收集完成的數(shù)據(jù)進行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行挖掘,形成相應(yīng)的統(tǒng)計信息,便于查詢輸出。下面將就關(guān)鍵核心的處理步驟進行說明。

5.2.1 對原始數(shù)據(jù)的預(yù)處理

為了在數(shù)據(jù)挖掘分析前對數(shù)據(jù)進行預(yù)處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)數(shù)據(jù)格式化,利用數(shù)據(jù)格式化實現(xiàn)對各種網(wǎng)頁格式的數(shù)據(jù)進行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進行數(shù)據(jù)清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進行清洗,去除無效的、重復(fù)的數(shù)據(jù),形成數(shù)量足夠的、時間段連續(xù)的、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準備。

5.2.2 實現(xiàn)對敏感輿情的報警

為了解決相關(guān)管理人員需要及時掌握敏感熱點或大事件的動態(tài),系統(tǒng)特增加了此處理步驟,在此將利用對敏感熱點或大事件的特征進行布控,在布控策略規(guī)則中設(shè)置需要關(guān)注的熱點敏感關(guān)鍵字,相關(guān)組件將對存儲的內(nèi)容進行掃描、分析。對匹配上的內(nèi)容進行預(yù)警并產(chǎn)生預(yù)警記錄,同時支持手機和郵件的報警方式,及時把相關(guān)信息發(fā)送給預(yù)設(shè)的人員。該模塊包括關(guān)鍵字匹配組件、報警處理組件。

5.2.3 數(shù)據(jù)的深度挖掘分析處理

經(jīng)過預(yù)處理的數(shù)據(jù)還只是數(shù)據(jù),并沒有形成有用的信息,所以引入數(shù)據(jù)挖掘分析處理步驟,以便對數(shù)據(jù)利用前面介紹的輿情行為模式分析、內(nèi)容分析等挖掘技術(shù)進行深度挖掘及分析,形成系統(tǒng)的核心信息數(shù)據(jù),為數(shù)據(jù)展現(xiàn)提供數(shù)據(jù)來源。

為了對數(shù)據(jù)進行挖掘,系統(tǒng)內(nèi)置的多種數(shù)據(jù)挖掘算法,實現(xiàn)自動對信息進行分類、總結(jié)。具體內(nèi)容如下:

針對中文信息的處理與分析,系統(tǒng)中的自動分詞組件采用詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語言模型方法,使分詞的準確性達到99%以上。在語義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實現(xiàn)準確的自動關(guān)鍵詞與自動摘要。利用網(wǎng)絡(luò)輿情模式識別技術(shù)可以自動發(fā)現(xiàn)新的網(wǎng)絡(luò)輿情模式,便于用戶盡早布防。

為解決自動分類的難題,系統(tǒng)內(nèi)置自動分類組件通過對訓(xùn)練庫的學(xué)習(xí),獲取每個分類的屬性特征模型,然后使用這一分類體系對未知分類情況的數(shù)據(jù)進行分類。聚類組件將結(jié)構(gòu)化的數(shù)據(jù)集合中的數(shù)據(jù)根據(jù)需要統(tǒng)計的主題劃分不同的子集,自動學(xué)習(xí)形成新的分類,滿足自動擴展分類的需要。

面對收集的海量數(shù)據(jù),如何獲取用戶所需的信息這個是一個關(guān)鍵問題,系統(tǒng)通過關(guān)聯(lián)分析、趨勢分析,從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。同時,利用趨勢分析技術(shù),分析網(wǎng)絡(luò)輿論等隨時間的發(fā)展趨勢情況,以便實現(xiàn)對輿論環(huán)境的監(jiān)測與不良傾向的預(yù)警。

做到上面的內(nèi)容還只是實現(xiàn)了系統(tǒng)的一部分,系統(tǒng)另外提供對新的知識的自動發(fā)現(xiàn)。利用自動分類與聚類等技術(shù)基礎(chǔ),對知識進行挖掘并匯總分析,能實現(xiàn)對新的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及獲取發(fā)展趨勢。同時把結(jié)果合并到系統(tǒng)已有的知識庫,達到不斷擴展知識庫的要求。

有時候用戶會要對特定的事件或輿情進行跟蹤,為了解決此問題,通過系統(tǒng)提供的對象跟蹤組件,利用用戶在系統(tǒng)中設(shè)置的需要特別跟蹤的對象的特征,在分析過程中對涉及該對象的數(shù)據(jù)進行特別分析和處理,形成該對象的信息鏈存儲到數(shù)據(jù)庫中,在數(shù)據(jù)展現(xiàn)時可以通過圖表等方式展現(xiàn)對象跟蹤鏈的相關(guān)信息。

5.3 海量數(shù)據(jù)的存儲

網(wǎng)絡(luò)輿情數(shù)據(jù)量是海量的,如何提高查詢的反饋速度是另外一個重要的問題,系統(tǒng)通過建立全文索引技術(shù),對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢輸出時提高輸出速度及準確性,特別是針對重要的關(guān)鍵字進行檢索時能大大的提高查詢速度。

除了全文索引,數(shù)據(jù)管理系統(tǒng)的選擇是另外一個重點??疾炷壳耙呀?jīng)成熟的數(shù)據(jù)庫管理系統(tǒng),發(fā)現(xiàn)Oracle是最合適的。所以本系統(tǒng)就采用Oracle作為數(shù)據(jù)存儲的數(shù)據(jù)庫系統(tǒng),同時可以利用其提供的多維查詢技術(shù),實現(xiàn)Olap的查詢要求。

5.4 數(shù)據(jù)快速,準確的展現(xiàn)

有了海量的、有用的信息,如何把這些數(shù)據(jù)展現(xiàn)給用戶?在本系統(tǒng)主要考慮對關(guān)鍵字的查詢輸出、輿情新關(guān)鍵字挖掘查詢、輿情報告的輸出、報警信息的查詢、各種統(tǒng)計報表的輸出。

對于輸出的技術(shù)要求,在數(shù)據(jù)輸出時系統(tǒng)利用Oracle系統(tǒng)的Olap技術(shù)結(jié)合系統(tǒng)提供的查詢頁面框架,可以實現(xiàn)用戶從多個角度對各類數(shù)據(jù)的查詢,在頁面處理上目前市面上已經(jīng)有相關(guān)的成熟的技術(shù)可以作為參考,相信不會有技術(shù)難點。

針對輸出的內(nèi)容,系統(tǒng)內(nèi)置了部分統(tǒng)計報表,這些報表是基于網(wǎng)絡(luò)輿情分析專家在輿情檢測與分析方面的專業(yè)知識進行設(shè)計,能滿足大多數(shù)用戶的需要。為了滿足個性化的查詢輸出,同時系統(tǒng)支持用戶自定義適合自己的統(tǒng)計報表。

5.5 通過系統(tǒng)管理功能保證系統(tǒng)正常運行

為了滿足個性化的管理要求,系統(tǒng)提供系統(tǒng)設(shè)置、角色管理、用戶管理、數(shù)據(jù)備份等功能,支持定義常用的網(wǎng)頁結(jié)構(gòu)及識別規(guī)則的定義,用于在數(shù)據(jù)獲取后的格式化分析。解決網(wǎng)頁結(jié)構(gòu)識別規(guī)則定義、報警關(guān)鍵字設(shè)置、報警記錄接收手機號或郵箱設(shè)置、系統(tǒng)管理用戶權(quán)限管理等內(nèi)容。

6 小結(jié)

該文先介紹了目前網(wǎng)絡(luò)現(xiàn)狀、同時就同類分析產(chǎn)品的不足進行了描述。另外著重從《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》的兩個重點部分進行描述,從最核心的技術(shù)與模塊組成來闡述系統(tǒng)是如何實現(xiàn)的。

參考文獻:

篇2

一、學(xué)科館員在國內(nèi)外的起源現(xiàn)狀

德國學(xué)科館員制度最早可以追溯到19世紀早期;20世紀60年代早期,平均每個德國研究型大學(xué)圖書館設(shè)有4~15名學(xué)科館員;至20世紀70年代中期,德國大學(xué)圖書館一般都設(shè)有8―21名學(xué)科館員。英國的學(xué)科館員在20世紀初(1901―1922年)引進倫敦大學(xué),在20世紀30年代被利茲大學(xué)采用并輻射到其它學(xué)校;至1975年,已有20個大學(xué)圖書館建立了此項制度。在美國,1940年以前,哈佛大學(xué)等多家圖書館就已經(jīng)雇用了早期的學(xué)科館員――區(qū)域問題參考館員;1950年,美國的內(nèi)不拉斯加大學(xué)圖書館設(shè)立分支圖書館并配備學(xué)科館員進行管理,才是學(xué)科館員制度最公開、最正式的建立;1981年,美國卡內(nèi)基―梅隆大學(xué)圖書館率先推出了“跟蹤服務(wù)”(track service)。此外,俄亥俄大學(xué)圖書館相繼推出了“網(wǎng)絡(luò)化館員免費導(dǎo)讀服務(wù)”(network librarian and free guide)。隨后,許多歐美國家的大學(xué)圖書館和研究型圖書館也紛紛推行了這種服務(wù)模式,并得到圖書館與讀者的普遍認同[2]。

在我國,學(xué)科館員制度起步比較晚,我國的學(xué)科館員制度是在借鑒國外學(xué)科館員制度成功實施的基礎(chǔ)上發(fā)展起來的。1998年清華大學(xué)圖書館率先推行學(xué)科館員制度,西安交通大學(xué)、北京大學(xué)、南開大學(xué)等圖書館相繼開展[2]。經(jīng)過10多年的發(fā)展,目前國內(nèi)已有百余家高校圖書館開展此項目,學(xué)科館員制在國內(nèi)大學(xué)圖書館中逐漸推廣并受關(guān)注,已逐步進入正軌。

目前公共圖書館在數(shù)字化、信息化的進程中,得到了快速的推進,已然站在了高校與科研圖書館同一水平線上,加之,公共圖書館文化信息資源共享工程得了很好的推進,這些為推動學(xué)科館員制度提供了有力的支撐。

二、公共圖書館建立學(xué)科館員制度的必要性

在公共圖書館學(xué)科館員服務(wù)方面也有成功例子,例如國家圖書館已經(jīng)擁有一批具備法律學(xué)科館員,為用戶提供針對性極強的資料;建立輿情監(jiān)測分析系統(tǒng),幫助企業(yè)公司了解輿論動向,以制定正確的應(yīng)對策略,引導(dǎo)輿論正向發(fā)展輿情分析;同時專門為立法和決策部門提供服務(wù)[3]。上海圖書館開展了對大型企業(yè)和中小企業(yè)的情報服務(wù),例如:海爾、飛躍電視機廠和“三槍”等單位,幫助企業(yè)在專利競爭中贏得國際對手;同時提出建設(shè)行業(yè)情報平臺,為政府經(jīng)濟決策提供信息服務(wù)。這都是取決于上海圖書館人員的專業(yè)背景、理念和經(jīng)驗比較強以及科技文獻館藏品種全的緣故[4]。浙江圖書館不僅為大型企業(yè)提供專題服務(wù),如:國內(nèi)飲料行業(yè)知名企業(yè)娃哈哈集團公司等企業(yè);而且還專門開設(shè)微小企業(yè)專題服務(wù)[5]。早在1988年深圳圖書館編發(fā)了“窗口信息”,內(nèi)容涉及電子、自行車、飲料、食品、珠寶、出版、環(huán)保、花卉等十二個專業(yè),取得較好的社會、經(jīng)濟效益[6]。他們是公共圖書館行業(yè)信息服務(wù)的領(lǐng)頭羊,給我們做出了好的榜樣。

目前,公共圖書館推行學(xué)科館員制則少有,究其原因是:(1)公共圖書館讀者眾多,各行各業(yè)、各個領(lǐng)域的讀者需求龐雜,由于受組織結(jié)構(gòu)、人員配置等諸多因素,公共圖書館學(xué)科館員甚少,達不到眾多領(lǐng)域都設(shè)有學(xué)科館員;(2)公共圖書館的學(xué)科館員,大多由專業(yè)知識不強的人員組成,知識能力參差不齊,加上部分領(lǐng)導(dǎo)對學(xué)科館員工作不夠重視,以致于公共圖書館大多只是停留在文獻傳遞的參考咨詢這個層面上,學(xué)科館員制度流于形式,服務(wù)沒有真正落到實處。

為了滿足眾多的讀者需求,更好地為大眾服務(wù),需要公共圖書館多樣化、個性化和深層次的知識服務(wù),由此,公共圖書館實行學(xué)科館員制,迫在眉睫。

三、公共圖書館學(xué)科館員制度的發(fā)展模式

1.建立學(xué)科館員制度

目前,國家并沒有政策性的規(guī)定這一制度圖書館必須建立。為了使學(xué)科館員的工作開展順利,領(lǐng)導(dǎo)的認識和決心是密切相關(guān)的;其關(guān)鍵之一是:取決于館領(lǐng)導(dǎo)對學(xué)科館員制度的重視,以及對圖書館開展個性化服務(wù)的必要性的高度認識,應(yīng)結(jié)合本館的實際情況,在人才引進和培養(yǎng)、管理體制上保證學(xué)科館員制度的順利建立,并盡可能地完善學(xué)科館員制度;其二:圖書館需要當?shù)卣娜肆?、財力及物力的大力支持,因為學(xué)科館員制度與軟硬件設(shè)施、優(yōu)秀的人才以及雄厚的財力支持是分不開的,否則將事倍功半。

2.學(xué)科館員的隊伍建設(shè)

根據(jù)各方面學(xué)科服務(wù)工作的需要,合理配置學(xué)科館員的隊伍結(jié)構(gòu)、崗位,確定學(xué)科館員隊伍建設(shè)的目標;在人力資源方面,我們可通過人才引進和現(xiàn)有館員的培訓(xùn)采取以下三種方式:一、可以在本館挑選業(yè)務(wù)素質(zhì)好,能夠勝任某一科咨詢、服務(wù)的同志擔任學(xué)科館員;二、引進復(fù)合型人才,引進具有圖書館情報學(xué)知識背景又具備其他學(xué)科知識的雙學(xué)位人才;三、聘請資深離退專家或在職專業(yè)人員擔任兼職學(xué)科館員,這是最快捷有效的方法。

3.學(xué)科館員的素質(zhì)培養(yǎng)

學(xué)科館員除了具有淡泊名利的修養(yǎng)和無私奉獻的職業(yè)道德、“讀者第一,用戶至上”的服務(wù)理念之外,還應(yīng)具備過硬的業(yè)務(wù)知識水平。

為了能從大量的龐大無序的信息源中提取、鑒別、篩選、整理、挖掘出讀者要求的文獻信息,學(xué)科館員必須要熟悉相關(guān)學(xué)科數(shù)據(jù)庫資源的檢索方法與技巧,熟悉圖書館各部門的基本業(yè)務(wù)工作內(nèi)容和流程,這樣才能為用戶提供學(xué)科性專業(yè)信息資源導(dǎo)航。

要開展文獻信息的深層次開發(fā),學(xué)科館員必須緊密跟蹤對口學(xué)科的國內(nèi)外學(xué)術(shù)發(fā)展動態(tài),對熱點問題、新觀點、新動態(tài)等進行搜集并分析研究,做出知識性的評價,編制二、三次文獻,為用戶提供參考。

據(jù)統(tǒng)計,網(wǎng)上90%的信息資源是英文資源。熟練地掌握一門外語到多門成為圖書館工作的必需。這要求學(xué)科館員既要有一定的外語水平,也要有一定的計算機操作能力和網(wǎng)絡(luò)知識。此外,學(xué)科館員還應(yīng)能提供外文資料的翻譯服務(wù)。

4. 學(xué)科館員的激勵機制

在市場經(jīng)濟條件下,僅僅靠宣傳奉獻精神或職業(yè)道德,已無法從根本上促使學(xué)科館員提高水平的服務(wù)。因此,在完善學(xué)科館員制度的同時,還必須對分配制度進行改革,否則館員制度的實施效果會打折扣。

有些中小型圖書館疏于對科學(xué)館員工作的激勵,很大程度地抑制了學(xué)科館員的發(fā)展。

馬斯洛的需要層次論把人類的需要分為五個層次:生理需要、安全需要、社會需要、尊重需要、自我實現(xiàn)的需要。其中自我實現(xiàn)的需要是指通過自己努力,實現(xiàn)自己對生活的期望,從而對生活和工作感到很有意義。公共圖書館根據(jù)學(xué)科館員的需求與動機,有針對性地采用激勵方法激發(fā)全體學(xué)科館員的工作熱情,充分調(diào)動主動性和創(chuàng)造性。

建立考核制度,對學(xué)科館員進行上崗后,加強人力資源管理,提高工作效率的重要環(huán)節(jié),認真做好平時、年度、聘期內(nèi)的考核工作,將考核結(jié)果與職務(wù)的升降、館員的任職掛鉤,逐步形成一個“能者上、平者讓、庸者下”的有效競爭機制,以激發(fā)學(xué)科館員的主觀能動性。

圖書館應(yīng)結(jié)合自身實際,建立科學(xué)規(guī)范的激勵制度,極大地調(diào)動積極性。只有這樣,才能吸引人才,并使其努力地學(xué)習(xí),盡力地工作。

5.學(xué)科館員的選拔、培訓(xùn)機制以及帶動作用

對學(xué)科館員不斷地進行知識信息素養(yǎng)的補充、更新、拓展和提高培訓(xùn),則是開發(fā)內(nèi)部的人力資源。

一,根據(jù)學(xué)科館員崗位設(shè)置要求,在全館范圍內(nèi)進行考試并結(jié)合工作業(yè)績,選拔出優(yōu)秀人才進行脫產(chǎn)或不脫產(chǎn)培訓(xùn),進一步提高他們的業(yè)務(wù)水平和工作技能,形成人才梯隊,以保持學(xué)科服務(wù)的連續(xù)性和穩(wěn)定性??梢栽诂F(xiàn)有館員中選派業(yè)務(wù)水平高、責(zé)任心強者攻讀第二學(xué)位,使其通過系統(tǒng)的學(xué)習(xí)掌握對口學(xué)科的專業(yè)知識,從而勝任學(xué)科化服務(wù)工作;二,強化繼續(xù)再教育,建立人才資源建設(shè)的長效機制。為館員提供多種學(xué)習(xí)交流和業(yè)務(wù)培訓(xùn)的機會,參與用戶科研活動、專家講座及學(xué)術(shù)交流會,讓館員及時掌握學(xué)科的前沿動態(tài)。三,與兄弟單位進行交流、溝通,互相學(xué)習(xí),取長補短。四、貫穿人的一生是自學(xué),自學(xué)是繼續(xù)再教育途徑的補充。針對自己的知識水平不斷地學(xué)習(xí)、不斷地充實自己,擴大知識面,完善自我。

學(xué)科館員是圖書館服務(wù)水平的標志,是圖書館與外界聯(lián)系的橋梁;同時學(xué)科館員對內(nèi)也是各項業(yè)務(wù)工作的核心,是圖書館服務(wù)的中堅力量,擔負著業(yè)務(wù)工作的指導(dǎo)和培訓(xùn)的重任,帶動全館員工更好地為經(jīng)濟建設(shè)服務(wù)。

四、結(jié)束語

學(xué)科館員制度在我國公共圖書館工作中既是一種新的服務(wù)模式,也是管理上的一種創(chuàng)新行為。公共圖書館應(yīng)根據(jù)自身的實際情況,因地制宜地開展學(xué)科館員服務(wù)工作,拓寬圖書館的服務(wù)范圍,提升服務(wù)層次,走出一個具有中國特色的因館制宜的學(xué)科館員之路。

參考文獻:

[1]胡越主編.圖書館服務(wù)的學(xué)科化與個性化[M].北京市:首都師范大學(xué)出版社,2008.10:525

[2]譚浩娟.中外圖書館學(xué)科館員制度的比較與啟示.科技情報開發(fā)與經(jīng)濟.2006,(1):36-37

[3]趙紅.國家圖書館學(xué)科館員和學(xué)科化服務(wù)[J].法律文獻信息與研究.2010,(3):22-27

[4]上海圖書館學(xué)會.挖掘知識價值:公共圖書館為企業(yè)的信息服務(wù)[EB]. [2007-11-19].[2013-10-15]

http:///tsgxh/list/list.aspx?id=3929

[5]范沈姍.企業(yè)競爭情報一圖書館信息服務(wù)的新熱點[J].圖書館理論與實踐.2001,(1):22-26,34

[6]張廷杰.深圳圖書館臺港澳文獻資源的建設(shè)與開發(fā)[J].圖書館論壇.1993,(3):59-62

篇3

中圖分類號:TP3-05文獻標識碼:A文章編號:16727800(2012)009000303

1文本情感研究的背景

所謂文本情感分析(Sentiment Analysis),就是對說話人的觀點、態(tài)度和情感傾向性進行分析,即分析文本中表達的主觀性信息。根據(jù)立場、出發(fā)點、個人態(tài)度和喜好的不同,人們對各種對象和事件表達的信念、態(tài)度、意見和情感的傾向性不可避免地存在差異。在論壇、微博等反映人們觀點的網(wǎng)絡(luò)媒體上,尤其表現(xiàn)出了這種差異。

文本情感分析在實際生活中有著廣泛的應(yīng)用,可以應(yīng)用于產(chǎn)品推薦系統(tǒng)、有害信息過濾、社會輿情分析、產(chǎn)品在線跟蹤和質(zhì)量評價、影視評價、Blogger聲譽評價、新聞報道評述、事件分析、股票評論、圖書推薦、敵對信息檢測、企業(yè)情報系統(tǒng)等方面。

在已有研究中,文本情感分析也被稱作觀點鑒別(Opinion Classification)、流派分類(Genre classification)、情感的極性(Sentiment polarity)、語義傾向(semantic orientation)、觀點挖掘(opinion mining)、觀點抽?。╫pinion extractive)等,為了表述的一致性,本文中將其統(tǒng)一表述為情感分析。

文本情感分析通常包含4個子問題:①確定文本情感的類別有多少;②文本的主客觀區(qū)分,即區(qū)分出文本內(nèi)容是主觀評論還是客觀陳述;③文本的極性分類(Polarity Classification),又稱為正負面傾向性分類,即判別文本內(nèi)容是肯定贊賞的,還是否定批判的;④文本情感強度分類,即判定文本情感傾向性的強弱程度,如強烈貶義、一般貶義、客觀、一般褒揚、強烈褒揚5個類別,這一問題通常又被稱為等級推理(Rating Inference)。

2文本情感分析整體研究現(xiàn)狀

目前,公認的關(guān)于文本情感分析的研究工作開始于Pang在2002年提出的基于文本的N元語法(Ngram)和詞類(POS)等特征,分別使用樸素貝葉斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量機(Support Vector Machine,SVM)將電影評論文本的傾向性分為正向和負向兩類。此外還有Turney在2002年提出的基于無監(jiān)督學(xué)習(xí)(Unsupervised Learning)對文本情感傾向性分類的研究。同時他們在實驗中使用的電影評論數(shù)據(jù)集目前已成為廣泛使用的情感分析的測試集。

如今,國內(nèi)外都已經(jīng)掀起了文本情感的研究熱潮,很多研究團體、科研院校、公司已經(jīng)對文本情感展開了研究。把這些相關(guān)的研究分為4個階段:①語料階段;②文本的預(yù)處理階段;③特征標注與特征選擇階段;④情感分類階段。

2.1語料階段

目前絕大部分語料都來自博客、專業(yè)的評論站點、新聞?wù)军c、電子商務(wù)站點。而其中影評資料、產(chǎn)品的用戶評論、Web 2.0博客文章是研究者的首選。

康奈爾大學(xué)的電影評論數(shù)據(jù)集以及Theresa Wilson等建立的MPQA庫是目前研究者廣泛使用的兩類情感分析數(shù)據(jù)集。

2.2文本的預(yù)處理階段

文本情感分析的預(yù)處理包括:停用詞、詞綴修剪、N元詞、詞性標準、簡化替換(如書替換為NOUN、照相機替換產(chǎn)品名)等,但這些有意“美化”的處理都會降低情感分析的準確率。

此外,主觀句識別也屬于文本情感分析的預(yù)處理階段。該研究的目標是需要提取文本的真正表達情感的句子。Pang于2004年提出基于文本中的主觀句的選擇和Wilson等人于2005年開創(chuàng)了在短語層進行主觀性分析的研究工作,提出基于文本中中性實例(Neutral Instances)的分析,他們根據(jù)28個混合特征訓(xùn)練了一個分類器,都是為了能夠盡量獲得文本中真正表達情感的句子。Abbasi于2008年提出通過信息增益(Information Gain,簡稱IG)的方法來選擇大量特征集中對于情感分析有益的特征。

2.3特征標注與特征選擇階段

情感特征的標注方法目前主要包括:

(1)監(jiān)督機器學(xué)習(xí)的方法,由已有的電子詞典或詞語知識庫擴展生成的情感傾向詞典。情感詞就是指具有情感傾向的詞語以名詞、動詞、形容詞和副詞為主,包括人名、機構(gòu)名、產(chǎn)品名、事件名等命名實體。其中,部分詞語的褒貶性(或稱為極性,通常分為褒義、貶義和中性)可以通過查字典獲得,其它的極性與情感傾向性的強烈程度都無法直接獲得。

使用情感詞作為特征的研究有:

朱嫣嵐等人提出了基于知網(wǎng)的兩種詞匯語義傾向計算方法,即基于語義相似度的方法和基于語義相關(guān)場的方法。

婁德成和姚天昉也是通過計算文本中詞匯與知網(wǎng)中已標注褒貶性詞匯間的相似度,來獲取詞匯的語義傾向性。

目前,依靠語料或字典語料結(jié)合構(gòu)建意見詞典成為主流。由于目前用于情感分析的中文標注語料較少,即當目標領(lǐng)域不存在標注語料時,Xiaojun Wan通過谷歌翻譯等機器翻譯服務(wù),利用英語標注語料和中文未標注語料彌補中文標注語料不足的問題。此外,還有Danushka Bollegala等提出算法可以通過其它領(lǐng)域標注語料和目標領(lǐng)域的未標注語料生成意見挖掘所需的情感敏感詞典。

(2)無監(jiān)督機器學(xué)習(xí)的方法。Turney在2002年基于點互信息(PMI)計算文本中抽取的關(guān)鍵詞和情感基準詞(Excellent, Poor)的相似度來對文本的情感傾向性進行判別(SOPMI算法)。實現(xiàn)方法簡單,此算法得到了很多研究者的推薦。

Yuan等人在Turney的研究工作的基礎(chǔ)上,對漢語極性詞的自動獲取進行了研究,發(fā)現(xiàn)采用一個字符的漢語情感詞比漢語情感詞的效果要好。

(3)情感特征的選擇方法。目前很多情感分析的研究基于機器學(xué)習(xí),那么特征選擇就是一個很重要的問題,N元語法等句法特征是使用最多的一類特征,Wilson等人于2009年提出混合單詞特征、否定詞特征、情感修飾特征、情感轉(zhuǎn)移特征等各類句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元語法、詞類、標點)和結(jié)構(gòu)特征(單詞的長度、詞類中單詞的個數(shù)、文本的結(jié)構(gòu)特征等)的情感分析。Melville等人于2009年提出結(jié)合情感詞的先驗的基于詞典的情感傾向性和訓(xùn)練文本中后驗的基于上下文的情感傾向性共同判斷文本的情感傾向性。

另外,傳統(tǒng)的文本特征選擇方法有監(jiān)督特征選擇方法CHI、IG、MI和無監(jiān)督特征選擇方法DF、TS、TC、En。這些方法應(yīng)用到這些情感特征選擇上的效果如何還有待實驗驗證。

2.4情感分類階段

(1)情感建模的方法?;诒O(jiān)督學(xué)習(xí)算法的情感分析仍然是主流,Zhang等人于2009年提出基于非負矩陣三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遺傳算法(Genetic Algorithm)的情感分析之外,使用最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯、k最近鄰(KNearest Neighbor,KNN)、最大熵和支持向量機等。

此外還有基于規(guī)則和無監(jiān)督的建模方法。婁德成等人于2006年利用句法結(jié)構(gòu)和依存關(guān)系對中文句子語義進行了情感分析,Zagibalov等人于2008年在SOPMI算法的基礎(chǔ)上通過對于中文文本特征的深入分析以及引入迭代機制在很大程度上提高了無監(jiān)督學(xué)習(xí)情感分析的準確率。

(2)情感分析的其它研究點。除以上介紹的情感分析關(guān)注情感的分類以外,還有評論對象的識別、情感傾向性論述的持有者識別、抽取句子中評價詞語和目標對象之間的關(guān)聯(lián)關(guān)系、評價傾向極性的強度等研究方向等等。

(3)目前已有系統(tǒng)。目前很多系統(tǒng)已經(jīng)問世,例如:日本富士通公司開發(fā)了從中、日、英三國語言的博客和論壇中提取對企業(yè)及其產(chǎn)品的評價信息的技術(shù),根據(jù)從萬維網(wǎng)上抓取的大量用戶的評論得到產(chǎn)品的整體信譽度。

上海交通大學(xué)開發(fā)了一個用于“漢語汽車論壇”的意見挖掘系統(tǒng)。目的是在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并且概括顧客們對各種汽車品牌的不同性能指標的評論和意見,并判斷這些意見的褒貶性和強度。然后,通過對文本處理的綜合統(tǒng)計,給出可視化的結(jié)果。該系統(tǒng)仍需要在特征獲取、權(quán)重計算等方面進行完善。

綜合以上研究現(xiàn)狀,對比國內(nèi)外的研究進展,對于國內(nèi)來講,中文文本情感分析可以說剛剛起步,與國外的主要差距表現(xiàn)在:①在基礎(chǔ)資源建設(shè)方面,還沒有建立起一個公開、公用、權(quán)威、標準的詞典資源和具有一定規(guī)模的標準語料資源;②在研究方案方面,從詞語、短語、搭配、句子到文本,主要跟蹤借鑒國外研究思路與技術(shù)路線進行嘗試。

3中文文本情感分析亟待解決的問題

相比傳統(tǒng)的文本分類,情感分類有先天的困難和挑戰(zhàn),主要表現(xiàn)在:①自然文本中表達方式的多樣化:比喻、附和、諷刺、正話反說等;②句式的復(fù)雜性:比較型的句子、各種不同的習(xí)慣用語、句式的不同搭配等;③訓(xùn)練數(shù)據(jù)的稀疏性和不均衡性。這些都造成了目前較為狹窄的應(yīng)用領(lǐng)域,不能同時獲得較高的準確率和召回率。

中文文本情感分析研究方興未艾,仍然存在很多問題亟待解決,未來的研究將主要圍繞以下幾個方向展開:

(1)建立標準的中文文本情感詞庫及標準的文本情感測試語料庫。標準完善的數(shù)據(jù)庫是驗證算法的有力工具。因此創(chuàng)建更大規(guī)模且更標準的中文文本情感數(shù)據(jù)庫是下一步工作的重中之重。

(2)選擇最優(yōu)文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影響最終的列表識別結(jié)果。一個詞存在多維度的情感,因此,單純依靠情感詞并不能準確判定所有情況下的情感和意見。所以,對于情感特征集選擇技術(shù)需要我們進一步的研究和完善。

(3)選擇合理有效的文本情感分類方法。情感特征的權(quán)重簡單累加并不意味著情感表達能力的累加,緊致有效的特征表達方法是跨越“語義鴻溝”的重要手段。人們往往通過各種手段多渠道地獲取各種各樣的情感特征,并通過不同分類器的融合表示它們。但這方法需要在更多的情感分析領(lǐng)域進行實驗驗證,未來還需要開展融合多方面文本情感特征的工作。

(4)可靠性研究。文本情感中評論的真實性通過信用評價來衡量,不真實甚至是混淆視聽的評論稱為意見垃圾(Opinion Spam)或虛假評論,也將是未來研究的方向之一。

參考文獻:

[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.

[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.

[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.

[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.

[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.

[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.

[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006(1).

[8]婁德成,姚天昉.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應(yīng)用,2006(11).

[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).

[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.

[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.

[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.

[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.