伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

數(shù)據(jù)分析論文模板(10篇)

時間:2023-05-16 15:18:18

導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇數(shù)據(jù)分析論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

數(shù)據(jù)分析論文

篇1

2建立標(biāo)簽關(guān)系的反向工程

當(dāng)我們框定了熵減的方法體系后,在數(shù)據(jù)間建立血緣關(guān)系則顯得尤為重要,由于數(shù)據(jù)生長動力呈現(xiàn)由內(nèi)而外的泛化驅(qū)動,但是本身這種泛化在信息化過程中很多是無組織的行為,缺少邏輯上預(yù)先定義,所以數(shù)據(jù)生成后,大量的數(shù)據(jù)關(guān)系被衰減掉,從正向渠道難以對數(shù)據(jù)關(guān)系建立血緣,工程極其浩瀚復(fù)雜。由于血緣關(guān)系無法完全在數(shù)據(jù)生長中自然形成,正向人工干預(yù)又存在操作難度,所以反其道而行之則是唯一通道。數(shù)據(jù)加工的反向性,優(yōu)勢首先體現(xiàn)在由微觀到宏觀的加工難度大幅下降,因為其工作處于抽象的最底層,使采用眾包模式加工成為可能。其次,這種加工模式,可以在有效建立一種數(shù)據(jù)關(guān)系的閉環(huán)管理的同時,不會抑制數(shù)據(jù)生長的空間和速率,不會因加工效率低而凝固數(shù)據(jù)資產(chǎn)化的進程。在反向加工的過程中,需要通過標(biāo)簽聯(lián)結(jié)數(shù)據(jù)關(guān)系,這時候我們要關(guān)注標(biāo)簽的質(zhì)量和復(fù)用度,由于標(biāo)簽定義存在難度,所以要松綁標(biāo)簽定義來促成數(shù)據(jù)加工的快速實施,解決的重點則遷移到標(biāo)簽在后期管理中的智能化上。首先,可以通過標(biāo)簽在關(guān)系聯(lián)結(jié)中的重復(fù)出現(xiàn)進行跟蹤,識別是標(biāo)簽二義性還是加工者的活動差異。活動差異標(biāo)簽最基本的處理方法是進行聚合,形成知識歸納;二義標(biāo)簽則需要改進表達。其次,依賴血緣關(guān)系建立可視化圖譜,從數(shù)據(jù)結(jié)構(gòu)工程里可以有效識別關(guān)系路徑的黏合點,即發(fā)現(xiàn)重復(fù)路徑中出現(xiàn)的一個以上的標(biāo)簽,消除由知識結(jié)構(gòu)差異造成的人為誤會,對標(biāo)簽進行合并。這樣,通過標(biāo)簽的智能化后期管理就可以將加工難度上移,建立分層加工的工廠模式。這種加工存在基本準(zhǔn)則,并要建立基本的衡量尺度來保證標(biāo)簽有效性,加工工藝可以從標(biāo)簽質(zhì)量、使用度、命中率等指標(biāo)進行測量。其中,質(zhì)量有賴于標(biāo)簽本身定義成分的內(nèi)涵,要確認其被受眾廣泛理解;使用度是在加工活動中的使用次數(shù),是否被數(shù)據(jù)關(guān)系廣泛應(yīng)用,使用度較低的標(biāo)簽要確認其存在價值,通過標(biāo)簽間同時出現(xiàn)概率決定其含義表達是否具備唯一性;命中率則建立在使用者的自然需要基礎(chǔ)上,如果某一標(biāo)簽絕少被使用者利用或調(diào)度,與整體觀測結(jié)果是否存在數(shù)值上的明顯差異。整體上看,通過這些基本準(zhǔn)則建立標(biāo)簽管理的異常檢測分析,來保證加工質(zhì)量的方式具備技術(shù)的可行性,但同時更需要對后期的數(shù)據(jù)運行建立領(lǐng)域指標(biāo)模型來校驗。

篇2

1.1反射率分析模塊

反射率的大小體現(xiàn)了氣象目標(biāo)的降水粒子的密度分布及體積大小,在實際氣象技術(shù)中長期用于表示氣象目標(biāo)的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構(gòu)成。在設(shè)計上簡單介紹其設(shè)計流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進行預(yù)處理,否則進行坐標(biāo)轉(zhuǎn)換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關(guān)注的關(guān)鍵是如何進行數(shù)據(jù)的預(yù)處理。在實現(xiàn)上,對接收的數(shù)據(jù)進行反射率信息結(jié)構(gòu)體賦值。當(dāng)然該結(jié)構(gòu)體包括了記錄實際仰角角度、數(shù)據(jù)文件路徑存儲、雷達波段判斷以及相關(guān)數(shù)據(jù)的偏移。通過掃描上述結(jié)構(gòu)體可以實現(xiàn)對雷達數(shù)據(jù)的預(yù)處理。

1.2速度分析模塊

多普勒雷達采用了速度退化模糊技術(shù)以擴大其對徑向風(fēng)速測量不模糊的區(qū)間。結(jié)構(gòu)設(shè)計主要考慮數(shù)據(jù)顯示的徑向方式,流程設(shè)計則與反射模塊類似。當(dāng)然在界面設(shè)計上,系統(tǒng)將提供對顏色配置的定義,使其人機交互更為快捷。

1.3天線穩(wěn)定性分析模塊

天線是雷達數(shù)據(jù)采集的關(guān)鍵部位,長期以來是影響雷達運行的主要關(guān)鍵點之一。其依賴于底下的電機進行旋轉(zhuǎn),目前大多數(shù)進口電機可以保證24小時安全運行。而運行時仰角提升和轉(zhuǎn)速的平穩(wěn)性直接影響雷達數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進行掃描實現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進行預(yù)處理后繪制相關(guān)曲線實現(xiàn)對天線運行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標(biāo)為氣象雷達實際運行的每層仰角均值;橫坐標(biāo)為范圍角:0-360°。

1.4雷達組網(wǎng)分析模塊

按照民航局的總體規(guī)劃,未來空管將實現(xiàn)多氣象雷達覆蓋,在這過程,多個氣象雷達的組網(wǎng)將成為氣象雷達數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準(zhǔn)確性更強。而與此同時帶來了雷達數(shù)據(jù)融合組網(wǎng)的技術(shù)難點。設(shè)計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網(wǎng)雷達可選數(shù)據(jù);其次對選擇雷達數(shù)據(jù)進行數(shù)據(jù)預(yù)處理;再之則對雷達數(shù)據(jù)進行統(tǒng)計平均并做坐標(biāo)轉(zhuǎn)換;最后進行拼圖處理。在這過程中,需要對雷達數(shù)據(jù)的強度進行自適應(yīng)調(diào)整、顯示范圍自適應(yīng)調(diào)整。與上述同理,系統(tǒng)核心在于預(yù)處理。在C#中定義List數(shù)據(jù)列表,并在定義其結(jié)構(gòu)為[站點標(biāo)示][距離][方位角],對于數(shù)據(jù)讀取時,需要進行插值算法處理,此時的單時數(shù)據(jù)拼接分析可以實現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準(zhǔn)確性可以在前端定義雷達數(shù)據(jù)方位角表,根據(jù)表進行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預(yù)處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

篇3

數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡(luò)以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎(chǔ)。數(shù)據(jù)的采集需要解決分布式高速高可靠數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術(shù)。還要設(shè)計質(zhì)量評估模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。

1.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)采集的過程本身就有會有很多數(shù)據(jù)庫,但如果想達到有效分析海量數(shù)據(jù)的目的,就必將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,而且在導(dǎo)入基礎(chǔ)上做一些簡單的辨析、抽取、清洗等操作。

①抽?。阂驗槲覀兺ㄟ^各種途徑獲取的數(shù)據(jù)可能存在多種結(jié)構(gòu)和類型,而數(shù)據(jù)抽取過程可以有效地將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的結(jié)構(gòu)或者便于處理的類型。以達到快速分析處理的目的。

②清洗:對于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價值層次不一樣,就必然存在由于價值低而導(dǎo)致開發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無關(guān)系的數(shù)據(jù),而另一些數(shù)據(jù)則是完全錯誤的干擾項,所以對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。

1.3數(shù)據(jù)的存儲與管理

當(dāng)我們采集數(shù)據(jù)完成后,就需要將其存儲起來統(tǒng)一管理,主要途徑就是建立相應(yīng)的數(shù)據(jù)庫,進行統(tǒng)一管理和調(diào)用。在此基礎(chǔ)上,需要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關(guān)鍵問題。還需開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);以及分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、研究大數(shù)據(jù)建模技術(shù)、索引、移動、備份、復(fù)制、可視化技術(shù)。

1.4數(shù)據(jù)的統(tǒng)計分析

一般情況下,統(tǒng)計與分析主要就是利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。

1.5數(shù)據(jù)分析與挖掘

所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般不會有預(yù)先設(shè)計好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的K-means、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。

2數(shù)據(jù)分析的8個層次

2.1標(biāo)準(zhǔn)化報告(StandardReports)

標(biāo)準(zhǔn)化報告作為數(shù)據(jù)分析的第一個層次,要求相對較低,主要是借助相應(yīng)的統(tǒng)計工具對數(shù)據(jù)進行歸納總結(jié),得出包含主要參數(shù)指標(biāo)的標(biāo)準(zhǔn)化報告。類似于一個銷售企業(yè)每月或者每季度的財務(wù)報表。

2.2即席查詢(AdHocReports)

用戶可以通過自己的需求,靈活地選擇查詢條件,系統(tǒng)就能夠根據(jù)用戶的需求選擇生成相應(yīng)的統(tǒng)計報表。即席查詢與普通應(yīng)用查詢最大的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶隨意添加想要查詢的指標(biāo)按鈕再加上相應(yīng)的限制條件,就可以立即生成可視化的統(tǒng)計結(jié)果,不僅一目了然,而且沒有任何操作難度。

2.3多維分析(QueryDrilldown)

多維分析是指對具有多個維度和指標(biāo)所組成的數(shù)據(jù)模型進行的可視化分析手段的統(tǒng)稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉(zhuǎn)等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個角度多個側(cè)面觀察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數(shù)據(jù)。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數(shù)據(jù)。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個維上進行的選擇操作,切片的結(jié)果是得到了一個二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個或者多個維上進行選擇操作,而切塊的結(jié)果是得到了一個子立方塊)。轉(zhuǎn)軸相對比較簡單,就是改變維的方向。

2.4儀表盤與模擬分析(Alerts)

儀表盤用于監(jiān)控一些關(guān)鍵指標(biāo)。模擬分析是由操作者動態(tài)地加以調(diào)節(jié)的控件(如滑動塊、可調(diào)旋鈕、選擇框等),來控制管理決策模型行為某些參數(shù)。當(dāng)操作者通過控制面板對模型中的參數(shù)值或變量值進行調(diào)節(jié)時,圖形中的曲線、柱形組或分析指標(biāo)等要素就會發(fā)生相應(yīng)的運動,而這種運動正好反映了該參數(shù)的變化對模型行為的影響,如果這種變動引起了模型中最優(yōu)解或其他關(guān)鍵數(shù)字的變化,能夠隨時將關(guān)于這種變化的結(jié)論正確地顯示出來。

2.5統(tǒng)計分析(StatisticallyAnalysis)

我們知道概率論是數(shù)理統(tǒng)計的基礎(chǔ),數(shù)理統(tǒng)計是在其基礎(chǔ)上研究隨機變量,并應(yīng)用概率論的知識做出合理的估計、推斷與預(yù)測。概率論中討論的各種分布在數(shù)理統(tǒng)計中作為統(tǒng)計模型來分析處理帶有隨機誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計方法有參數(shù)估計、假設(shè)檢驗和回歸分析。而統(tǒng)計分析主要是對用戶所關(guān)注的問題進行推斷、預(yù)測和控制的分析方法。具體可以分為以下三方面:

①描述統(tǒng)計:主要是集中趨勢、離散程度、分布形狀等,統(tǒng)計圖(方圖、箱線圖、散點圖等);

②數(shù)據(jù)的分類匯總;

③基礎(chǔ)統(tǒng)計分析:方差分析、時間序列分析、相關(guān)和回歸分析、(主成分)因子分析等統(tǒng)計分析方法。

2.6預(yù)測(Forecasting)

在統(tǒng)計分析和數(shù)據(jù)挖掘領(lǐng)域,對未來的預(yù)測已經(jīng)有了很多數(shù)學(xué)模型以及解決具體問題的相關(guān)算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點,就可以對未來進行預(yù)測。

2.7預(yù)測模型(PredictiveModeling)

隨著數(shù)據(jù)分析學(xué)家對數(shù)據(jù)挖掘技術(shù)的不斷探索,出現(xiàn)了很多預(yù)測模型以及與之相對應(yīng)的算法,但是很難確定某個模型是最精確的,因為不同的領(lǐng)域,不同的條件,對應(yīng)的預(yù)測模型是不一樣的,所以沒有統(tǒng)一化的最優(yōu)模型,只存在有選擇性的最優(yōu)模型。下面介紹幾種典型的預(yù)測模型。

①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關(guān)系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數(shù)項(截距項),b1稱作回歸系數(shù)。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應(yīng)地描述經(jīng)濟現(xiàn)象各相關(guān)量之間的聯(lián)系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應(yīng)于各自變量的系數(shù),又稱偏回歸系數(shù)。

②貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,而概率推理是通過一些產(chǎn)量的信息來獲取其他概率信息的過程。貝葉斯網(wǎng)絡(luò)會建立一個有向無環(huán)圖和一個概率表集合,有向無環(huán)圖中的每一個節(jié)點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應(yīng)有向無環(huán)圖中唯一的節(jié)點,存儲此節(jié)點對其所有直接前驅(qū)節(jié)點的條件概率。貝葉斯網(wǎng)絡(luò)是為了解決不定性與不完整性問題而提出的,在多個領(lǐng)域中獲得廣泛應(yīng)用。

③基于時間序列分析的指數(shù)平滑模型在時間序列分析中指數(shù)平滑模型是最靈活和準(zhǔn)確的方法,在經(jīng)濟領(lǐng)域也被證明是最有效的預(yù)測模型。在不同的時間序列下,指數(shù)平滑模型可以分為簡單指數(shù)平滑法、帶有趨勢調(diào)整的指數(shù)平滑法、帶有阻尼趨勢的指數(shù)平滑法、簡單季節(jié)指數(shù)平滑法、帶有趨勢和季節(jié)調(diào)整的指數(shù)平滑法五種不復(fù)雜度的模型。

2.8最優(yōu)化

(Optimization)因為優(yōu)化問題往往可以帶來巨額的收益,通過一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂最優(yōu)化就是從有限或者無限種可行的方案中選取最優(yōu)的方案。如果可以通過簡單的評判,就可以確定最優(yōu)方案那是最好的。但是事實不會那么簡單,所以優(yōu)化技術(shù)已經(jīng)發(fā)展出了一系列的理論來解決實際問題。其常用的優(yōu)化技術(shù)為:

①線性規(guī)劃:當(dāng)目標(biāo)函數(shù)與約束函數(shù)都是線性函數(shù)時,就是一個線性規(guī)劃問題。而當(dāng)同時滿足約束函數(shù)和目標(biāo)函數(shù)時,則可以認為是最優(yōu)解。

②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學(xué)規(guī)劃。

③多目標(biāo)規(guī)劃:指衡量一個決策優(yōu)劣的標(biāo)準(zhǔn)不止一個,也就是有多目標(biāo)函數(shù)。

④動態(tài)規(guī)劃:將一個復(fù)雜的問題劃分為多個階段,逐段求解,最終求出全局最優(yōu)解。

3用Excel實現(xiàn)簡單的數(shù)據(jù)分析

①對于企業(yè)而言最重要的是利潤,所以管理者必須要從這張表中得到最關(guān)鍵也最容易得到的銷量和銷售額以及與其相關(guān)的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計結(jié)果來直觀地反映該企業(yè)在某個期間的盈利情況。

②其次,我們必須要做進一步的分析。已經(jīng)對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對產(chǎn)品銷售而言,客戶結(jié)構(gòu)能夠有效地反映客戶的地域分布,企業(yè)可以根據(jù)客戶的來源,在未開辟客戶的地域去尋找新的目標(biāo)客戶群。而銷量結(jié)構(gòu)可以直觀地反映企業(yè)最大銷量來自哪個地區(qū),對銷量較小的地區(qū)可以加大宣傳力度或者增加銷售網(wǎng)點來保持各地區(qū)銷售均衡。還可以及時地調(diào)整銷售方式來擴大市場份額,而對于銷量最小的地區(qū)考慮開辟新的市場。

統(tǒng)計了各地區(qū)的銷售總額和平均銷售額以及兩者的對比關(guān)系。由此可以得出地區(qū)平均購買力大小,以及各地區(qū)總銷售額大小。借助圖表描述,管理者可以對企業(yè)在某段期間內(nèi)的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經(jīng)常性大量購買的客戶必須要以最優(yōu)惠的價格和最好的服務(wù)讓其滿意,以形成一個穩(wěn)定的大客戶群。而對于那些少量購買的客戶,也要制定出相應(yīng)合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。

4用R語言實現(xiàn)數(shù)據(jù)多層次分析

R語言是一種自由軟件編程語言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),它是一種用來進行數(shù)據(jù)探索、統(tǒng)計分析和作圖的解釋型語言。它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。而在使用R語言進行數(shù)據(jù)分析處理時,當(dāng)我們遇到很大的原始數(shù)據(jù),但用來建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫中進行整理,然后通過R與數(shù)據(jù)庫的接口提取數(shù)據(jù),數(shù)據(jù)庫適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對應(yīng)關(guān)系,這也是R中絕大多數(shù)統(tǒng)計模型的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫中大部分的運算都不需要消耗很大的內(nèi)存。

篇4

2HANA數(shù)據(jù)分析平臺實施過程

數(shù)據(jù)分析平臺建設(shè)應(yīng)遵循最大限度的考慮應(yīng)用實用性、縮短實現(xiàn)周期、降低技術(shù)風(fēng)險等因素。

2.1需求分析

需求分析是要對用戶的訴求或需求進行深入了解,并在需求的基礎(chǔ)上對整個平臺進行一致約定。因此以重要性、分析的復(fù)雜性、數(shù)據(jù)量大小、以及快速見效為原則,需求分析需要明確下面的內(nèi)容。

1)選擇需要分析的主題,結(jié)合當(dāng)前電力營銷業(yè)務(wù)在計量、業(yè)擴、抄表、電費核算、電費繳納、賬務(wù)等工作職能的劃分,也要考慮分析的主題具有針對性的業(yè)務(wù)場景,這些場景往往跨越多個職能。

2)分析并描述各個主題的業(yè)務(wù)背景,包括使用的用戶角色,使用的業(yè)務(wù)場景。以電費出賬異常為例:電費出賬異常主要是由于用戶檔案錯誤、抄表錯誤所引發(fā)的,涉及到業(yè)擴、抄表、電費核算等多個職能部門。以電費出賬異常作為分析的主題,其業(yè)務(wù)場景主要用于電費發(fā)行后,對引發(fā)電費異常的用戶檔案數(shù)據(jù)、計量信息、抄表信息進行檢查并按職能需求進行分別展示。

3)分析各個主題間的關(guān)系,在這個平臺上用戶的所有活動信息,如用戶請求的數(shù)量,用戶對這些數(shù)據(jù)的訪問頻率、時間、數(shù)據(jù)細節(jié)層次、請求多大的數(shù)據(jù)量等之間的關(guān)聯(lián)。

4)分析主題所涉及的表的目錄、表的內(nèi)容、表的容量、每個表的平均行大小、表的記錄數(shù)、表的增長情況等。

2.2平臺規(guī)劃

HANA數(shù)據(jù)分析平臺應(yīng)用架構(gòu)一般采用四層:數(shù)據(jù)源層、數(shù)據(jù)抽取及復(fù)制層、HANA數(shù)據(jù)集市層以及報表展示層。

1)數(shù)據(jù)源層:作為平臺的分析對象,提供報表分析所需的數(shù)據(jù),數(shù)據(jù)源層可同時支持各種類型的數(shù)據(jù)庫,數(shù)據(jù)源層為營銷系統(tǒng)(管理庫),生產(chǎn)庫到管理庫之間采用SharePlex復(fù)制工具實現(xiàn)數(shù)據(jù)同步,以避免數(shù)據(jù)抽取對生產(chǎn)系統(tǒng)的影響。

2)數(shù)據(jù)抽取和復(fù)制層:數(shù)據(jù)抽取和復(fù)制層負責(zé)將數(shù)據(jù)源層中源系統(tǒng)的數(shù)據(jù)抽取和復(fù)制到HANA分析數(shù)據(jù)庫中,主要構(gòu)成是數(shù)據(jù)抽取和復(fù)制工具,可以分別采用實時同步服務(wù)(SLT)以及非實時同步的數(shù)據(jù)服務(wù)(DataService)兩種不同的復(fù)制工具來滿足不同特征的源數(shù)據(jù)要求。在確定采用哪種工具前,需要對每個數(shù)據(jù)源的大小、變更時間、變更頻繁度、增量大小等信息做詳細了解,對不同數(shù)據(jù)源表選擇合適的復(fù)制工具。

3)數(shù)據(jù)集市層:數(shù)據(jù)集市層是整體系統(tǒng)架構(gòu)的核心,負責(zé)分析數(shù)據(jù)的儲存、報表模型的建立以及數(shù)據(jù)計算。該層包含分析數(shù)據(jù)庫以及虛擬模型架構(gòu)兩個主要組成,所有需分析展示的數(shù)據(jù)在數(shù)據(jù)集市層通過集市層進行儲存、壓縮、建立邏輯模型并計算,通過該平臺特有的內(nèi)存計算技術(shù)可以使這個過程的效率大幅提升。

4)報表展示層:報表展示層負責(zé)將HANA數(shù)據(jù)庫中的數(shù)據(jù)運算結(jié)果按照報表需求進行展示,采用SAPBusinessObjectBI4.0以及EXCEL作為展示工具。

2.3平臺實現(xiàn)

2.3.1模型設(shè)計

依據(jù)報表的需求分析、功能需求、性能需求、模型擴展性、模型的靈活性、實現(xiàn)成本進行平衡,在達到性能要求的前提下,設(shè)計出可以重用的模型,HANA平臺不同于傳統(tǒng)的數(shù)據(jù)倉庫需要物理化模型設(shè)計,HANA采用了邏輯視圖模型設(shè)計的概念,邏輯視圖從表面看體現(xiàn)的是傳統(tǒng)的星型、雪花型模型設(shè)計,但這些模型中的數(shù)據(jù)并不是物理存放的。HANA提供了屬性視圖、分析視圖、計算視圖三種模型設(shè)計,屬性視圖實現(xiàn)對維度的設(shè)計,分析視圖則實現(xiàn)傳統(tǒng)的星型模型設(shè)計,計算視圖實現(xiàn)更復(fù)雜的雪花型模型設(shè)計。模型設(shè)計時是先將需求階段所確定的分析主題作為分析對象,梳理每個主題展示所需的事實表數(shù)據(jù)內(nèi)容和數(shù)據(jù)粒度、分析維度、分析的數(shù)據(jù)指標(biāo)。例如:一個以分析電費構(gòu)成為主題的業(yè)務(wù)場景,該主題分析當(dāng)期電費的構(gòu)成情況,并同期比較各個電費構(gòu)成的變動情況,那它的指標(biāo)可以為目錄電度電費、峰谷品跌、豐枯品跌、基本電費、力調(diào)費、代征費、電度電費、結(jié)算電費等指標(biāo)。分析的維度可包含:時間維度、用戶維度、組織維度、用電服務(wù)維度、抄表維度、計收維度等。并在此時完成對事實表和維度表的邏輯數(shù)據(jù)模型設(shè)計。

2.3.2表樣及功能設(shè)計

報表的樣式和功能應(yīng)當(dāng)考慮用戶對數(shù)據(jù)進行分析的使用習(xí)慣,借鑒數(shù)據(jù)倉庫中的多維數(shù)據(jù)可視化方法,通過對報表的上鉆、下鉆、切片等展示功能技術(shù)的利用,實現(xiàn)對匯總性數(shù)據(jù)、明細類數(shù)據(jù)、核心數(shù)據(jù)的快速查看和分析。以上述的分析電費構(gòu)成主題為例,其展示需求決定表樣的設(shè)計采用圖型混合表格的方式,功能上采用按照組織維度進行上鉆、下鉆功能可查看不同供電區(qū)域的電費構(gòu)成情況和各個指標(biāo)的排名情況,前端展示采用了BOWebintelligence嵌入DashBoard圖表設(shè)計實現(xiàn)。

2.3.3數(shù)據(jù)抽取及復(fù)制設(shè)計

為確保數(shù)據(jù)質(zhì)量,應(yīng)當(dāng)進行數(shù)據(jù)抽取和復(fù)制的規(guī)劃設(shè)計。首先,根據(jù)模型設(shè)計中指標(biāo)、維度信息分別列舉出其相應(yīng)的數(shù)據(jù)來源,即營銷系統(tǒng)的物理表和字段,指標(biāo)來源于營銷系統(tǒng)的交易數(shù)據(jù),而維度來源于營銷系統(tǒng)的主數(shù)據(jù)。其次,根據(jù)邏輯數(shù)據(jù)模型和數(shù)據(jù)來源確定營銷數(shù)據(jù)庫到HANA數(shù)據(jù)庫的ETL規(guī)劃,根據(jù)數(shù)據(jù)的質(zhì)量規(guī)則(包括:數(shù)據(jù)清除、空值處理、數(shù)據(jù)替換、規(guī)范化數(shù)據(jù)格式等),確認營銷系統(tǒng)源數(shù)據(jù)到HANA目標(biāo)數(shù)據(jù)庫數(shù)據(jù)的轉(zhuǎn)換規(guī)則,同時依據(jù)數(shù)據(jù)大小、數(shù)據(jù)變更時間、數(shù)據(jù)變更頻繁度、數(shù)據(jù)增量大小要求確定采用的實時工具SLT還是定時抽數(shù)工具BODataService,例如:收費賬務(wù)相關(guān)的交易數(shù)據(jù)存在記錄基數(shù)大、變更頻率很高等特征,采用實時復(fù)制增量數(shù)據(jù)更合適,而賬務(wù)的月結(jié)數(shù)據(jù)僅在每月初產(chǎn)生且數(shù)據(jù)量非常巨大,因此采用定時批量復(fù)制更合適。

2.3.4模型及報表開發(fā)

模型及報表開發(fā)共分為數(shù)據(jù)裝載、HANA建模、定義語義層(IDT)、報表開發(fā)、數(shù)據(jù)校驗五個步驟,這五個步驟相互交疊與重復(fù),直至到達最優(yōu)化設(shè)計。其中數(shù)據(jù)裝載的方式利用了SLT的實時同步技術(shù),SLT同步技術(shù)其核心是基于數(shù)據(jù)庫的觸發(fā)器模式實現(xiàn)對源數(shù)據(jù)的增量復(fù)制,最大限度的避免了對源系統(tǒng)表結(jié)構(gòu)的改變,同時采用的多任務(wù)復(fù)制機制使得實時復(fù)制的效率可保持在5~10秒內(nèi)的數(shù)據(jù)延遲,裝載后的HANA數(shù)據(jù)的大小比較源數(shù)據(jù)庫數(shù)據(jù)大小可壓縮30%~70%的容量。

3發(fā)展前景

不斷的完善HANA數(shù)據(jù)分析平臺的分析主題,不僅是基于電力營銷系統(tǒng),還可以基于用電采集系統(tǒng)等構(gòu)建起電力企業(yè)的大數(shù)據(jù)分析平臺。利用HANA內(nèi)置的PAL(預(yù)測分析庫)對海量電量數(shù)據(jù)、客戶服務(wù)數(shù)據(jù)實現(xiàn)數(shù)據(jù)高級分析,建立其有效的事前預(yù)測、事中控制、事后改善的企業(yè)快速輔助決策模式。營銷業(yè)務(wù)可以在客戶服務(wù)中對受理業(yè)務(wù)的情況信息、執(zhí)行過程、執(zhí)行結(jié)果進行深入分析、對客戶需求進行快速響應(yīng),改進服務(wù)質(zhì)量、提升電網(wǎng)服務(wù)建設(shè)。更可以利用海量電能量數(shù)據(jù)對偷竊電稽核、客戶用電行為、能效管理等進行過分析和應(yīng)用,助力營銷輔助決策與分析能力的快速提升。

篇5

2蚊蟲的轉(zhuǎn)錄組學(xué)研究

轉(zhuǎn)錄組學(xué)(transcriptomics)是一個活細胞所能轉(zhuǎn)錄出來的所有RNA的總和,是研究細胞表型和功能的一個重要手段。傳統(tǒng)上用于轉(zhuǎn)錄組數(shù)據(jù)獲得和分析的方法主要有基于雜交技術(shù)的芯片技術(shù)包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即轉(zhuǎn)錄組測序技術(shù)?;贗llumina高通量測序平臺的轉(zhuǎn)錄組測序技術(shù)能夠在單核苷酸水平對任意物種的整體轉(zhuǎn)錄活動進行檢測,在分析轉(zhuǎn)錄本的結(jié)構(gòu)和表達水平的同時,還能發(fā)現(xiàn)未知轉(zhuǎn)錄本和稀有轉(zhuǎn)錄本,精確地識別可變剪切位點以及cSNP(編碼序列單核苷酸多態(tài)性),提供最全面的轉(zhuǎn)錄組信息。相對于傳統(tǒng)的芯片雜交平臺,轉(zhuǎn)錄組測序無需預(yù)先針對已知序列設(shè)計探針,即可對任意物種的整體轉(zhuǎn)錄活動進行檢測,提供更精確的數(shù)字化信號,更高的檢測通量以及更廣泛的檢測范圍,是目前深入研究轉(zhuǎn)錄組復(fù)雜性的強大工具。巨蚊屬是蚊科中三種不吸血的蚊屬之一,其幼蟲階段以同在小型水體中孳生的白紋伊蚊和埃及伊蚊為食,兩性成蚊均不吸血,以植物汁液和花蜜為食。為了探究巨蚊與其它吸血蚊種在搜尋宿主方面的基因水平上有何差異,國外有學(xué)者從巨蚊上分離出觸須、觸角和身體其他部分,分別提取這三部分的RNA,利用RNA-seq技術(shù),將獲得的序列片段從頭組裝,與目前已公布的致倦庫蚊、岡比亞按蚊、埃及伊蚊基因組數(shù)據(jù)進行系統(tǒng)進化樹分析,發(fā)現(xiàn)巨蚊與埃及伊蚊的種屬關(guān)系最近,并且在上述四種蚊種中均發(fā)現(xiàn)了編碼氣味分子受體(odorantreceptor,OR)蛋白和離子轉(zhuǎn)移受體(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受體蛋白的表達量與豐度上較其它蚊種都有所降低[18]。因為這些受體蛋白被認為與吸血昆蟲搜尋宿主氣味分子如CO2有關(guān),所以,巨蚊在長期的生物進化過程中,喪失了原本存在的吸血習(xí)性。蚊唾液腺蛋白與其吸血傳病密切相關(guān)。國外有學(xué)者提取白紋伊蚊雌性成蚊的唾液腺RNA后進行轉(zhuǎn)錄組和蛋白質(zhì)組分析,發(fā)現(xiàn)至少有32個基因在雌性成蚊的唾液腺中表達程度或者增高或者降低,另外有17個基因表達在雌性成蚊唾液腺和雄性成蚊中,但不表達在雌性成蚊的其他組織中。通過分析發(fā)現(xiàn),其中大約三分之一的基因功能表現(xiàn)在吸血、消化糖、免疫應(yīng)答等方面,但是并未發(fā)現(xiàn)其余基因的明確功能,所以非常有可能是長期吸血的過程中進化出的新的功能分子。利用同樣的方法,分析岡比亞按蚊、斯氏按蚊、達氏按蚊、埃及伊蚊、白紋伊蚊、致倦庫蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相關(guān)的轉(zhuǎn)錄組,可以將這些蛋白歸納為:

(1)昆蟲唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;

(2)在吸血的長角亞目昆蟲(包括白蛉、蚋、蠓等)中豐富表達的D7蛋白;

(3)僅在蚊唾液腺中存在的蛋白,包括30000左右的過敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆蟲都被發(fā)現(xiàn)具有一種獨特的生物學(xué)現(xiàn)象——滯育(diapause)。昆蟲的滯育現(xiàn)象被認為是一種休眠的形式,在昆蟲發(fā)育時遇到不適宜的環(huán)境時,就會馬上由體內(nèi)激素調(diào)節(jié)并控制,暫時停止發(fā)育。白紋伊蚊被發(fā)現(xiàn)同樣具有滯育現(xiàn)象,這是它能適應(yīng)環(huán)境氣候變化,實現(xiàn)快速擴張入侵的生物學(xué)基礎(chǔ)之一。白紋伊蚊的雌性成蚊在每日受到較短時間的光照后,產(chǎn)下的卵不會立即孵化,這便是一種滯育的現(xiàn)象。有趣的是,同是伊蚊屬的埃及伊蚊,其雌性成蚊產(chǎn)的卵如果沒有接觸到水,也不會孵化、發(fā)育,這卻被認為是一種靜息狀態(tài)(quiescence)。這兩種現(xiàn)象的區(qū)別在于,發(fā)生滯育后,白紋伊蚊的卵即使收到合適的外界環(huán)境的刺激,仍需要經(jīng)過一段時間的恢復(fù)才會孵化,而處于靜息狀態(tài)的埃及伊蚊的卵,只要受到適宜條件的刺激(如接觸到水),就會馬上進入發(fā)育階段。國外有學(xué)者利用RNA-seq技術(shù),對這兩種現(xiàn)象進行分析,發(fā)現(xiàn)這兩種現(xiàn)象在發(fā)育停止的階段,分子水平上是很相近的,不同之處在于滯育現(xiàn)象的早期準(zhǔn)備階段和后期修復(fù)階段,是其所獨有的。關(guān)于滯育現(xiàn)象的早期準(zhǔn)備階段,國外學(xué)者通過RNA-seq技術(shù),比較滯育前階段(pre-diapause)的白紋伊蚊胚胎與同時期非滯育的白紋伊蚊胚胎基因表達水平上的差異,發(fā)現(xiàn)前者在基因表達模式上有非常大的改變。目前,已有學(xué)者歸納和總結(jié)出了一套利用RNA-seq技術(shù)研究白紋伊蚊滯育現(xiàn)象的方法,為今后更全面、徹底地認識白紋伊蚊以及其他媒介昆蟲的滯育現(xiàn)象提供了堅實的基礎(chǔ)。利用RNA-seq技術(shù),我們對白紋伊蚊不同發(fā)育時期(卵、幼蟲、蛹、雄蚊、雌蚊)和感染登革病毒前后的轉(zhuǎn)錄組進行了分析。對比分析不同發(fā)育階段特別是雌雄蚊的基因表達譜,我們找到了在胚胎早期對性別分化具有重要作用的候選基因和對雌蚊吸血傳病相關(guān)的性別偏愛基因。對比分析登革病毒感染與否的白紋伊蚊轉(zhuǎn)錄組,我們發(fā)現(xiàn)了可能與蚊媒與病原相互作用有關(guān)的免疫分子(未發(fā)表結(jié)果)。目前,針對這些候選基因的進一步功能分析正在進行之中。另外,對白紋伊蚊抗藥品系和敏感品系的RNA-seq對比分析也在進行中,這對于其抗藥機制的闡明非常重要。

3蚊蟲的小RNA組學(xué)研究

小RNA(smallRNAs)主要指長度在18~30nt的一類非編碼RNA(ncRNAs),在真核生物中,具有基因表達調(diào)控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、內(nèi)源小干擾RNA(endo-siRNAs)和piwi干擾RNA(piRNAs)。piRNA長度集中在26-31nt,目前只在動物的生殖系細胞及干細胞中被發(fā)現(xiàn),其主要功能是參與轉(zhuǎn)座子的沉默。miRNAs和endo-siRNAs長度主要集中在20~24nt。miRNAs在動植物和微生物中都普遍存在,據(jù)估計一個物種中約1/3的基因會受到miRNA的調(diào)控,大量的實驗也表明miRNAs參與了諸多生命過程的調(diào)控,例如細胞周期、細胞分化、組織器官的發(fā)生、營養(yǎng)代謝、信號途徑以及對外界生物的非生物的環(huán)境的反應(yīng);同時,miRNAs在生產(chǎn)實踐與臨床治療上也具有很大的應(yīng)用前景。以往用于尋找miRNAs等小RNA的方法有實驗克隆法、計算機預(yù)測法。克隆法可以直接用于鑒定新小RNA,是初期發(fā)掘小RNA的常用方法,不足之處是實驗周期較長,對低表達的小RNA的發(fā)現(xiàn)能力十分有限。計算機預(yù)測法多是針對某一已知的小RNA特征設(shè)計算法,從全基因組或EST數(shù)據(jù)庫中快速發(fā)掘大量潛在的小RNA,一定程度上彌補了克隆法的缺點,然而,預(yù)測的小RNA最終還需要實驗證明,同時計算機預(yù)測法對新類型小RNA的發(fā)掘能力十分有限。隨著第二代高通量測序技術(shù)的問世,小RNA高通量測序(smallRNA-Seq)技術(shù)開始逐漸取代原始的小RNA發(fā)掘法方法,該法具有速度快、成本低、覆蓋度深等多方面的優(yōu)點,對鑒定與發(fā)現(xiàn)生命體內(nèi)的小分子RNA及其功能與機理研究起極大的推動作用。全世界有超過3000種蚊蟲,目前為止僅有岡比亞按蚊、斯氏按蚊、埃及伊蚊、致倦庫蚊以及白紋伊蚊鑒定出miRNA。一些miRNA的文庫和功能分析表明miRNA對蚊蟲的卵巢發(fā)育和吸血后的血液消化具有調(diào)節(jié)作用。病毒感染可以對宿主細胞miRNA的表達水平產(chǎn)生深遠影響,可能與宿主抗病毒機制及病毒入侵后改變細胞內(nèi)環(huán)境有關(guān),雌蚊中miRNA的表達模式會隨著病原體的感染而發(fā)生變化。Hussain等對登革病毒(DENV)編碼的miRNA或病毒小RNA(vsRNAs)的進行了功能研究,他們發(fā)現(xiàn)6個vsRNAs能通過作用于病毒基因組RNA莖環(huán)結(jié)構(gòu)中的5''''和3''''的UTR區(qū),顯著增加病毒復(fù)制。中腸屏障是蚊蟲防止病原體入侵而建立的重要屏障,Alexander等的研究發(fā)現(xiàn)miR-1174僅在伊蚊和按蚊的中腸中表達,且雌蚊吸血后其表達量明顯上調(diào);而當(dāng)miR-1174表達下調(diào)后,蚊子吸血率明顯降低,壽命明顯縮短。作者認為:蚊特異性miRNAs,特別是miR-1174具有重要的生物學(xué)意義,它們可能影響人們今后控制蚊蟲的策略。我們對白紋伊蚊不同發(fā)育時期(卵、幼蟲、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA進行了深度測序分析。結(jié)果在白紋伊蚊中篩選出119條已知的miRNA基因,確定了15條novelmiRNA基因,其中11條是伊蚊特異的,并且觀察到許多miRNA呈現(xiàn)期特異表達的特點。經(jīng)過實驗驗證,miR-286、miR-2492和miR-1891分別在白紋伊蚊的卵、幼蟲和成蟲期特異高效表達,敲低/敲除這些miRNA會對蚊蟲的生長發(fā)育造成顯著影響。這些研究為新型生物殺蟲劑的研發(fā)提供了靶標(biāo)。我們還對感染登革病毒前后白紋伊蚊的細胞和成蟲的小RNA進行了深度測序分析。結(jié)果在感染登革病毒的白紋伊蚊中找到了10條表達上調(diào)的miRNA和11條表達下調(diào)的miRNA。通過對這些差顯表達miRNA的功能分析,發(fā)現(xiàn)miR-252通過與E蛋白3''''-UTR區(qū)域的結(jié)合,對登革病毒的復(fù)制起到抑制作用;而miR-281則通過與E蛋白5''''-UTR區(qū)域的結(jié)合,對登革病毒的復(fù)制具有促進作用。這些研究為抗登革病毒藥物的設(shè)計和研發(fā)提供了線索。piRNA來源于轉(zhuǎn)座元件、基因間隔區(qū)和一些編碼蛋白質(zhì)基因的3''''UTRs,對維持基因的完整性和穩(wěn)定性有一定作用,但最近的研究證明它在抗病毒免疫中也有較大作用。Schnettler等的研究證明:對蚊蟲細胞感染蟲媒病毒可以引發(fā)piRNA路徑,而敲除piRNA蛋白質(zhì)會使病毒產(chǎn)生增多。Castellano等確定了多個24-30nt的Piwi相互作用RNAs基因組簇,通過比對到轉(zhuǎn)座元件和蛋白質(zhì)編碼基因的3''''UTRs,發(fā)現(xiàn)許多TEs和一些內(nèi)源性基因的3''''UTR產(chǎn)生大量具有piRNA樣特征的29-nt小RNAs峰。此外,來自岡比亞按蚊和黑腹果蠅TEs的正義和反義piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亞理工大學(xué)的研究人員最近在庫蚊中發(fā)現(xiàn)了一種新型的抗病毒途徑,Morazzani等在無dicer-2和無突變的蚊細胞中進行的實驗表明,病毒產(chǎn)生的piRNA樣小RNA可以在病毒產(chǎn)生siRNA的過程中調(diào)節(jié)病毒感染的發(fā)生。同時也表明新的piRNA途徑存在于蚊媒的體細胞中并且可能發(fā)揮著比siRNA途徑更寬泛的的抗病毒作用,顯示出其為強大的免疫系統(tǒng)。因此,理解病毒如何繞開蚊蟲的雙重抗病毒反應(yīng)對于科學(xué)家來說是越來越有趣的挑戰(zhàn)。

篇6

2工程概況

普光氣田天然氣凈化廠循環(huán)水應(yīng)急池位于普光氣田天然氣凈化廠一臺地的填挖交界區(qū)域,地質(zhì)狀況復(fù)雜。水池平面尺寸110m×50m,深6m(泵區(qū)深6.5m),設(shè)計有效容積30000m3,主要用于廠內(nèi)緊急情況下循環(huán)水的應(yīng)急排放。池體結(jié)構(gòu)為鋼筋混凝土,設(shè)有一縱五橫6條沉降縫,池體混凝土強度等級為C30、抗?jié)B等級為S6,基礎(chǔ)采用C15毛石混凝土換填,換填深度為3m。

3沉降監(jiān)測網(wǎng)的布設(shè)與施測

3.1沉降監(jiān)測網(wǎng)的布設(shè)為了保證水池蓄水試驗過程中,池體沉降監(jiān)測的順利進行,需在水池周邊布設(shè)一個獨立沉降監(jiān)測網(wǎng)。沉降監(jiān)測網(wǎng)布設(shè)過程中,考慮到新建沉降監(jiān)測網(wǎng)基準(zhǔn)點自身穩(wěn)固需要一定的時間跨度和本地區(qū)常年多雨的氣候條件限制,在沉降監(jiān)測網(wǎng)基準(zhǔn)點布設(shè)時不再重新埋設(shè)基準(zhǔn)點,而是利用距離水池100m以外的3個廠內(nèi)原有的、且經(jīng)過施工期間多次觀測精度可靠的控制點作為本工程水池沉降觀測的基準(zhǔn)點。為便于后期對池體進行沉降監(jiān)測和能夠反映出池體的準(zhǔn)確沉降情況,沉降觀測點設(shè)在最能反映池體沉降的沉降縫兩側(cè)及轉(zhuǎn)角處。在池底板混凝土澆筑時預(yù)先埋設(shè)沉降監(jiān)測點,沉降監(jiān)測點埋設(shè)位置為距池壁外側(cè)約50cm的底板上,沉降監(jiān)測點分布原則為每條沉降縫兩側(cè)及轉(zhuǎn)角處各埋設(shè)1個,共計28個。

3.2儀器選擇與施測為了保證水池沉降觀測數(shù)據(jù)的準(zhǔn)確有效,為水池蓄水試驗過程中池體結(jié)構(gòu)安全提供參考依據(jù)以及為3個基準(zhǔn)點賦予新的獨立高程數(shù)值。蓄水試驗前使用蘇州一光EL302A電子水準(zhǔn)儀對沉降監(jiān)測網(wǎng)內(nèi)的3個基準(zhǔn)點,分別按照閉合水準(zhǔn)路線和附合水準(zhǔn)路線進行多次二等水準(zhǔn)測量,其偶然中誤差M和全中誤差MW均小于0.8mm,完全符合二等水準(zhǔn)測量的精度要求。

4沉降監(jiān)測

4.1確定觀測次數(shù)

為了取得水池沉降監(jiān)測的參照數(shù)據(jù),水池充水前應(yīng)進行一次與沉降監(jiān)測精度(二等)相同的水準(zhǔn)測量,以測得的各監(jiān)測點高程數(shù)據(jù)為基準(zhǔn),計算蓄水試驗期間各監(jiān)測點的沉降量。同時,為了保證水池蓄水試驗過程中池體結(jié)構(gòu)安全,避免因水池充水速度過快導(dǎo)致池體失穩(wěn)垮塌,水池蓄水試驗過程中應(yīng)緩慢充水。每2m高度或每次充水觀測一次,發(fā)生不均勻沉降時應(yīng)停止充水,并增加觀測次數(shù),直至穩(wěn)定后再繼續(xù)充水;水池蓄水達到設(shè)計高度后,觀測一次,24h后觀測一次,連續(xù)觀測3d,以后每15d觀測一次,直至沉降穩(wěn)定;放水前后再各觀測一次。

4.2沉降監(jiān)測

本工程沉降監(jiān)測的測量儀器使用蘇州一光EL302A電子水準(zhǔn)儀。測量時除了轉(zhuǎn)角點外,均采用間視法進行觀測。但是,最長視線長度不得大于50m,最短視線長度不得小于3m,最低視線高度不得低于0.6m;觀測讀數(shù)應(yīng)精確到0.01mm,從而達到保證測量精度的目的,以保證沉降監(jiān)測數(shù)據(jù)的有效性。

5數(shù)據(jù)分析

5.1數(shù)據(jù)處理數(shù)學(xué)模型

為了保證沉降監(jiān)測數(shù)據(jù)計算的準(zhǔn)確無誤,在數(shù)據(jù)計算時利用Excel表格進行[6]。同時,為了充分體現(xiàn)各監(jiān)測點的沉降變化和不均勻沉降程度,首先用充水后的每次觀測的各監(jiān)測點的高程與蓄水試驗前測得的相應(yīng)點的高程進行計算比較,以取得各監(jiān)測點的沉降量。計算公式如下:Si=Si前-Si后式中:Si前為蓄水試驗前測得的點i的高程;Si后為充水后的每次觀測的點i的高程,Si為點i充水以后相對蓄水試驗前的沉降量。沉降速度計算可參照相關(guān)規(guī)范和公式,由于本工程水池的沉降在第3次充水后的第3天(3月27日)后已基本穩(wěn)定,所以這里不再贅述該水池的沉降速度計算和數(shù)據(jù)處理等。

5.2數(shù)據(jù)處理結(jié)果與分析

根據(jù)每次觀測的各監(jiān)測點的高程,通過以上數(shù)學(xué)模型可以計算得出:各監(jiān)測點的沉降量。若在沉降監(jiān)測中發(fā)現(xiàn)建筑物有較大不均勻沉降時,需根據(jù)沉降量計算基礎(chǔ)的傾斜度。因本工程沉降監(jiān)測過程中未發(fā)現(xiàn)較大不均勻沉降現(xiàn)象,這里不再贅述。其計算方法可參照《建筑變形測量規(guī)范》(JGJ8-2007)中有關(guān)沉降觀測的內(nèi)容。通過表2中的相關(guān)數(shù)據(jù)可以清晰看出,在蓄水試驗過程中各監(jiān)測點均有不同程度的沉降,試驗前期沉降量較大,隨著試驗的進行逐漸減小、趨于穩(wěn)定,雖然沉降量的大小各異,但基本趨于均勻;總體來看,位于填方區(qū)的東南方向的沉降量大于位于挖方區(qū)的西北區(qū)域,但未出現(xiàn)較大的不均勻沉降現(xiàn)象;某些測點略有回升,也可能是由于測量過程中的誤差造成的。另外,在蓄水試驗完成水池內(nèi)試驗用水全部排出后,各監(jiān)測點均出現(xiàn)了一定程度的回升現(xiàn)象,其可能是因為水池基底土體受到的荷載卸載后,在基底應(yīng)力場平衡的影響下,基底出現(xiàn)了回彈現(xiàn)象所致。

篇7

1.1數(shù)據(jù)采集

大數(shù)據(jù)的采集是整個流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。

1.2數(shù)據(jù)處理與集成

數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進行適當(dāng)?shù)念A(yù)處理,包括格式化、去噪以及進一步集成存儲。因為數(shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會設(shè)計一些過濾器來完成這一任務(wù)。

1.3數(shù)據(jù)分析

在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進行分析,因為在進行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲的數(shù)據(jù)進行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。

1.4數(shù)據(jù)解釋

數(shù)據(jù)解釋是對大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果。

2云計算與大數(shù)據(jù)分析的關(guān)系

云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價值分析為目的的活動,而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺,不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺承載。所以,云計算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計算的出現(xiàn)為大數(shù)據(jù)分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據(jù)庫、實時流數(shù)據(jù)處理以及智能分析技術(shù),如模式識別、自然語言理解、應(yīng)用知識庫等等。但是,大數(shù)據(jù)分析要走向云計算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴展。

3基于云計算環(huán)境的Hadoop

為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當(dāng)前最流行的大數(shù)據(jù)處理平臺,并被廣泛認可和開發(fā)應(yīng)用。基于Hadoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運行于由成百上千個節(jié)點組成的大規(guī)模計算機集群上。

4實例分析

本節(jié)以電信運營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價值。當(dāng)前傳統(tǒng)語音和短信業(yè)務(wù)量下滑,智能終端快速增長,移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運營商帶來新的機會,幫助運營商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來自于某運營商的個人語音和數(shù)據(jù)業(yè)務(wù)清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據(jù)分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數(shù)據(jù)中所蘊含的價值要遠遠大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。

篇8

一、市場調(diào)查

根據(jù)一份市場調(diào)查顯示;賣家本身體現(xiàn)的實力給人與信任可依賴程度越高,用戶越愿意來購買商品。

在我評論之前,我申明一下,一家之言只代表一個群體的言論,并不能涵蓋每個人的想法與判斷,電子商務(wù)的數(shù)據(jù)報告只能說明趨勢,并不能完全反應(yīng)出每個顧客真實的意圖。賣家信譽-28%。價格-26%。網(wǎng)站的外觀和感覺-16%。網(wǎng)站易用性-15%。商品打折-4%??爝f和交付等原因-3%。出現(xiàn)在搜索引擎上-2%。

這是一份市場調(diào)查的結(jié)果,數(shù)據(jù)報告對實際商業(yè)產(chǎn)生怎樣的影響,一個關(guān)鍵問題就是篩選問題的分類方式,他是否獨立又相互依存,論點論據(jù)之間重合度越低,數(shù)據(jù)報告能說明的問題越準(zhǔn)確。但在這之前首先是樣本數(shù)據(jù)的獲取與篩選方法,這里就不追溯了。我只是想根據(jù)個人對電子商務(wù)的理解,結(jié)合這份報告說點事,實際上這一組數(shù)據(jù)比較接近我個人對網(wǎng)購的理解,首先我們逐條說明這些影響一個網(wǎng)店的因素:

二、賣家信譽

之所以被普遍認為是最重要的,是因為我們網(wǎng)購時并不真實的接觸到產(chǎn)品,也并不了解向你推銷商品的人是否值得可信,這都是顧客基本的一個需要認知過程,互聯(lián)網(wǎng)上哪里去確認?當(dāng)然如果你在一家多賣家的平臺上,往往都會有商家信用,評論等功能,很容易通過別的顧客消費情況增加自己對商家的認知。電子商務(wù)為什么要打假信用?這只是順應(yīng)顧客需求,維護健康秩序所必須做的事情。所以作為賣家不要輕易嘗試作假信用,或者你今天逃過一劫,但說不定你明天網(wǎng)店剛做大的時候被強行關(guān)閉了。

三、價格

價格是一道屏障,在相互比拼中,有人拼得起,有人拼不起,但如何更好的控制價格,削減顧客成本,不僅為自己贏得更多展示機會,也會贏得更多顧客。價格不會是越低廉越好,最好的平衡體系沒有,只有一個方法,如何在綜合上為自己贏得市場??有人習(xí)慣選一些比如3.99美元的價格,看上去不加拿一分錢顧客潛在心理是這個人沒賺錢,但值得說的是商品定價因產(chǎn)品,因地域時間,顧客等因素制宜,現(xiàn)在的顧客不都是傻子,商品有的是比價機會。也有人選擇款0利潤或者賠本的商品推,但在商品里關(guān)聯(lián)組合商品賣,通過吸引用戶購買自己的組合商品或者別的商品來拉動自己銷售利潤;還有的人也是利用免費贈送或者賠本的方式掛商品,但通過物流利潤來保證自己不虧本的方式拉動店鋪其他產(chǎn)品行銷。

四、網(wǎng)站的外觀與感覺

有的人店鋪半年一年都是淘寶默認的最爛的那套模板,也不知道為什么淘寶沒更新還是咋的,我沒賣過商品,還不是很了解那個,但我買東西基本不光顧這樣的店鋪,店主對店鋪的打理程度決定了我對店主的看法,因為信用不是絕對可靠的;產(chǎn)品,服務(wù)好不好,全在你的形象與行為上。

五、網(wǎng)站易用性

你能忍受自己在一個網(wǎng)站嘩啦了半天結(jié)果沒搞懂應(yīng)該怎么買商品嗎?我一個朋友,按照我的認識他也是比較理性,屬于心思敏捷的,他說他在XX網(wǎng)站搞了好久,都不知道怎么買東西,所以以后都沒去過;雖然易用的應(yīng)用都還是不能被所有人接受,但簡單清楚的,沒有歧義的每一步流程總是好的。不過這個雖然用戶關(guān)注的多,但我覺得但凡有點認識的,認識相應(yīng)語言的人大概都明白很多網(wǎng)購系統(tǒng)的操作流程。這里就不說什么了。

六、促銷打折

商品打折也屬于價格范疇,只是這里細化成了一個活動,活動可以是定期的比如每周二,三,四晚上限量搶購啊;選2款顧客競價??;前面“價格”里也提到的0價格換信用,換軟文之類的??;參與商盟聯(lián)合促銷啊;換季狂甩啊之類的??傊畢⑴c打折的,有資本經(jīng)歷運作打折的,只要PV高,顧客肯定不會少,除非你的商品含有價格,性能,服務(wù)等水分太大,用什么樣的打折方法,最關(guān)鍵的你是銷售一時還是為了希望吸引到長久的顧客而去設(shè)計。

七、快遞與交付等原因

物流過程中雖然有很多不可控因素導(dǎo)致一些商品容易磨損之類的,但物流懼怕承擔(dān)責(zé)任的態(tài)度決定了自己的發(fā)展框架,假設(shè)一下,你的企業(yè)就在你的心胸里;你心胸只有100㎡大小,即使你鼓足了勁你也最多到120㎡,這樣的容量是沒有辦法和猶如大海寬廣心胸的人比較的。我是沒記住你,但有人記住你了,他下次要走物流,肯定不會選你,你損失的不只是一個用戶,而是損失了一個未來。

八、搜索排名

我沒有看到他們分析提交的數(shù)據(jù)時基于怎樣的搜索引擎,這個分類其實很不準(zhǔn)確,雖然數(shù)字已經(jīng)很少了,我自己買商品在淘寶,有啊上都用他們站內(nèi)的搜索引擎,如果我常用的幾個排序商品方法篩選數(shù)據(jù)你都沒排列在前三頁,那么即使你離我最近,就住在我隔壁,你服務(wù)態(tài)度最好,商品也不必別人的差;但你離我還是太遠了,我根本找不到你。

對我個人來說,像百度,GOOGLE的網(wǎng)頁搜索這樣的綜合搜索出來的商品,對我吸引力太小了,綜合搜索出來的商品并不是他信譽最高,價格最低,服務(wù)最好就顯示在了綜合搜索引擎上,只因為他的頁面更適合搜索引擎邏輯而已。商品真正追求的東西不在文本上,而在商品與服務(wù)內(nèi)在的東西里。當(dāng)然,在同等條件下,不要錯過這樣一個增加PV與交易機會的機會。

九、總結(jié)

目前,數(shù)據(jù)挖掘技術(shù)正以前所未有的速度發(fā)展,并且擴大著用戶群體,在未來越來越激烈的市場競爭中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機會?,F(xiàn)在世界上的主要數(shù)據(jù)庫廠商紛紛開始把數(shù)據(jù)挖掘功能集成到自己的產(chǎn)品中,加快數(shù)據(jù)挖掘技術(shù)的發(fā)展。我國在這一領(lǐng)域正處在研究開發(fā)階段,加快研究數(shù)據(jù)挖掘技術(shù),并把它應(yīng)用于電子商務(wù)中,應(yīng)用到更多行業(yè)中,勢必會有更好的商業(yè)機會和更光明的前景。

參考文獻:

[1]韓家煒.Web挖掘研究[J].計算機研究與發(fā)展,2001.

[2]陳宏.消費者數(shù)據(jù)挖掘系統(tǒng)建立的幾個問題.

篇9

改革以來中國發(fā)生的大規(guī)模人口遷移,是制度變遷和經(jīng)濟轉(zhuǎn)型共同作用的結(jié)果。中國傳統(tǒng)的計劃經(jīng)濟體制是圍繞推行重工業(yè)優(yōu)先發(fā)展戰(zhàn)略而形成的。在資本稀缺的經(jīng)濟中,推行資本密集型重工業(yè)優(yōu)先發(fā)展戰(zhàn)略,不可能依靠市場來引導(dǎo)資源配置,因而必須通過計劃分配的機制把各種資源按照產(chǎn)業(yè)發(fā)展的優(yōu)先序進行配置。由此,以資本和勞動力為代表的資源或生產(chǎn)要素,既無必要,也不允許根據(jù)市場價格信號自由流動,因此,隨著20世紀50年代這種發(fā)展戰(zhàn)略格局的確定,一系列相關(guān)制度安排把資本和勞動力的配置,按照地域、產(chǎn)業(yè)、所有制等分類人為地“畫地為牢”,計劃之外的生產(chǎn)要素流動成為不合法的現(xiàn)象。其中把城鄉(xiāng)人口和勞動力分隔開的戶籍制度,以及與其配套的城市勞動就業(yè)制度、城市偏向的社會保障制度、基本消費品供應(yīng)的票證制度、排他性的城市福利體制等,阻礙了勞動力這種生產(chǎn)要素在部門間、地域上和所有制之間的流動。在這種制度下,不存在勞動力市場,農(nóng)村居民沒有政府的許可不可能向城市流動,勞動和人事部門通過計劃來控制勞動力跨部門流動。

1978年底開始的農(nóng)村家庭承包制改革,使農(nóng)戶成為其邊際勞動努力的剩余索取者,從而解決了制度下因平均分配原則而長期解決不了的激勵問題(meng,2000)。與此同時,政府開始對價格進行改革,誘導(dǎo)農(nóng)民提高農(nóng)業(yè)生產(chǎn)率。在農(nóng)業(yè)剩余勞動力被釋放出來后,非農(nóng)產(chǎn)業(yè)活動更高的報酬吸引勞動力轉(zhuǎn)移(cook,1999),從而推動農(nóng)村生產(chǎn)要素市場的發(fā)育,原來主要集中在農(nóng)業(yè)的勞動力開始向農(nóng)村非農(nóng)產(chǎn)業(yè)、小城鎮(zhèn)甚至大中城市流動。

由于各種阻礙勞動力流動的障礙尚未拆除,以及政府鼓勵農(nóng)村勞動力就地轉(zhuǎn)移的政策引導(dǎo),20世紀80年代前期的勞動力轉(zhuǎn)移以從農(nóng)業(yè)向農(nóng)村非農(nóng)產(chǎn)業(yè)轉(zhuǎn)移為主,主要是在鄉(xiāng)鎮(zhèn)企業(yè)中就業(yè),即所謂的“離土不離鄉(xiāng)”。但隨著鄉(xiāng)鎮(zhèn)企業(yè)遇到來自國有企業(yè)、“三資”企業(yè)和私人企業(yè)越來越強勁的競爭,必須提高技術(shù)水平和產(chǎn)品質(zhì)量,因而鄉(xiāng)鎮(zhèn)企業(yè)資本增加的速度逐漸加快,吸納勞動力的速度相應(yīng)減緩。農(nóng)村勞動力面臨著越來越強烈的跨地區(qū)轉(zhuǎn)移的壓力。與此同時,外商投資企業(yè)、中外合資企業(yè)、私營企業(yè)和股份公司等其他非國有部門在東部地區(qū)發(fā)展較快,擴大了對勞動力需求,并成為消除制約勞動力流動體制障礙的一支重要力量。

隨著農(nóng)村勞動力就地轉(zhuǎn)移渠道日益狹窄,1983年政府開始允許農(nóng)民從事農(nóng)產(chǎn)品的長途販運和自銷,第一次給予農(nóng)民異地經(jīng)營以合法性。1984年進一步放松對勞動力流動的控制,甚至鼓勵勞動力到臨近小城鎮(zhèn)打工。1988年中央政府則開了先例,允許農(nóng)民自帶口糧進入城市務(wù)工經(jīng)商。到20世紀90年代,中央政府和地方政府分別采取一系列措施,適當(dāng)放寬對遷移的政策限制,也就意味著對戶籍制度進行了一定程度的改革。例如,許多各種規(guī)模的城市很早就實行了所謂的“藍印戶口”制度,把絕對的戶籍控制變?yōu)檫x擇性地接受。此外,1998年公安部對若干種人群開了進入城市的綠燈,如子女可以隨父母任何一方進行戶籍登記,長期兩地分居的夫妻可以調(diào)動到一起并得以戶籍轉(zhuǎn)換,老人可以隨子女而獲得城市戶口,等等。雖然執(zhí)行時在一些大城市遇到阻力,但至少在中央政府的層次上為戶籍制度的進一步改革提供了合法性依據(jù)。城市福利制度的改革也為農(nóng)村勞動力向城市流動創(chuàng)造了制度環(huán)境。80年代后期開始逐步進行的城市經(jīng)濟改革,如非國有經(jīng)濟的發(fā)展,糧食定量供給制度的改革,以及住房分配制度、醫(yī)療制度及就業(yè)制度的改革,降低了農(nóng)民向城市流動并居住下來和尋找工作的成本。

與其他方面的政策改革相比,戶籍制度改革在很長時間里沒有實質(zhì)性的突破,成為勞動力流動的最大障礙。所有在就業(yè)政策、保障體制和社會服務(wù)供給方面對外地人的歧視性對待,都根源于戶籍制度。隨著時間推移,兩方面的因素變化推動政府對遷移政策進行改革。一是城市戶籍制度不再擁有外部或隱含的福利,也就是地方政府不再根據(jù)個人的戶籍來提供就業(yè)、社會福利等各方面保障。這樣,城市人口規(guī)模擴張不會給地方政府增添額外財政負擔(dān)。二是地方政府意識到,勞動力流動不僅帶來資源重新配置,而且也是城市融資的一個重要來源。這樣,市場化發(fā)育水平相異的城市根據(jù)各自目標(biāo)來推進城市戶籍制度改革。

可見,通過戶籍制度及一系列其他阻礙人口遷移的制度因素的改革而推動的勞動力流動,不僅是經(jīng)濟發(fā)展的一個重要內(nèi)容,也是整個經(jīng)濟體制向市場機制轉(zhuǎn)變的重要進程,并且以其他領(lǐng)域改革的進展為前提。這個轉(zhuǎn)變或改革的結(jié)果便是勞動力市場的形成與發(fā)育,勞動力資源越來越多地由市場來配置。而在整個經(jīng)濟不斷市場化的過程中,人口遷移也表現(xiàn)出轉(zhuǎn)軌時期的特點。這是中國轉(zhuǎn)軌時期人口遷移的特殊性所在。本文旨在利用2000年人口普查資料來分析人口流動與市場化之間的關(guān)系。

一、轉(zhuǎn)軌時期人口遷移理論

人口和勞動力在地區(qū)間的流動,是勞動力市場在空間上從不均衡向均衡轉(zhuǎn)變的過程。發(fā)展中國家在其經(jīng)濟發(fā)展過程中,伴隨著工業(yè)化和城市化發(fā)展,大量農(nóng)村人口和勞動力從農(nóng)村流向城市,從低生產(chǎn)率的農(nóng)業(yè)部門流向生產(chǎn)率較高的工業(yè)部門。劉易斯(lewis,1954)認為,發(fā)展中國家存在著典型的二元經(jīng)濟結(jié)構(gòu),農(nóng)村存在著大量剩余勞動力和隱蔽性失業(yè),農(nóng)業(yè)中勞動力的邊際生產(chǎn)力幾乎等于零或為負值,農(nóng)村勞動力從農(nóng)業(yè)部門流出不會對農(nóng)業(yè)產(chǎn)出帶來負面影響,反而使留在農(nóng)業(yè)部門勞動力的邊際產(chǎn)出不斷提高;隨著城市中勞動力數(shù)量不斷增加,城市工資水平開始下降,直至城市部門的工資水平與農(nóng)業(yè)部門的工資水平相等,農(nóng)村勞動力向城市流動才會停止。在劉易斯的模型中,勞動力在城鄉(xiāng)之間可以自由流動,不存在顯著的制度。城市現(xiàn)代部門的較高工資水平和傳統(tǒng)農(nóng)業(yè)部門的低工資水平,是勞動力在城鄉(xiāng)之間流動的驅(qū)動力量。在托達羅(todaro,1969;harris和todaro,1970)兩部門模型分析中,農(nóng)村人口和勞動力的遷移取決于城市的工資水平和就業(yè)概率,當(dāng)城市的預(yù)期收入水平和農(nóng)村的工資水平相等時,勞動力在城鄉(xiāng)之間分配和遷移都達到均衡。

由于城市經(jīng)濟存在著現(xiàn)代正規(guī)部門和非正規(guī)部門之分,農(nóng)村勞動力向城市遷移首先進入非正規(guī)部門,然后才有可能進入正規(guī)部門就業(yè)。城市正規(guī)部門就業(yè)創(chuàng)造率越大,越有利于將更多的非正規(guī)部門勞動力轉(zhuǎn)入正規(guī)部門;城鄉(xiāng)收入差距越大,從農(nóng)村流向城市非正規(guī)部門勞動力數(shù)量越多,城市非正規(guī)部門勞動力規(guī)模也越大。由于城市正規(guī)部門的就業(yè)創(chuàng)造率取決于工業(yè)產(chǎn)出增長率及該部門的勞動生產(chǎn)率增長率,城市工業(yè)的快速增長將有利于提高正規(guī)部門的就業(yè)創(chuàng)造率,從而減少城市非正規(guī)部門的勞動力規(guī)模。但是,這個效應(yīng)有可能被城市工資增長所誘發(fā)的大量新增農(nóng)村勞動力流入所抵消。因此,城市正規(guī)部門的就業(yè)創(chuàng)造結(jié)果帶來了城市失業(yè)率的上升。

費爾茨(fields,1974)認為,托達羅模型中沒有考慮農(nóng)村勞動力在城市正規(guī)部門尋找工作的概率問題。由于非正規(guī)部門勞動力獲得正規(guī)部門就業(yè)機會的相對概率較低,流入城市的農(nóng)村勞動力大多數(shù)只能滯留于非正規(guī)部門。他們之所以能夠接受較低的工資水平,主要是在于他們預(yù)期能夠從得到的城市正規(guī)部門工作機會中獲得補償。在托達羅模型基礎(chǔ)上,費爾茨引入了搜尋工作機會的觀點,一方面強調(diào)了城市制度工資和相對就業(yè)概率對遷移過程的影響,另一方面也指出,非正式部門大量不充分就業(yè)的勞動力保證了勞動力市場實現(xiàn)均衡時的失業(yè)率低于托達羅模型得出的估計。非正式部門大量不充分就業(yè)的勞動力存在,在一定程度上緩解了城市的失業(yè)問題。

隨著勞動力流動,城鄉(xiāng)勞動力市場開始相互作用。但是,根據(jù)托達羅理論,城市失業(yè)率上升將起到減緩人口繼續(xù)向城市遷移。如果依據(jù)費爾茨的觀點,城市勞動力市場似乎對農(nóng)村勞動力流動的影響不大。相比之下,在成熟的市場經(jīng)濟中,城市的失業(yè)率是影響勞動力流動的重要因素。托普爾(topel,1986)利用美國人口普查資料研究發(fā)現(xiàn),1970~1980年,美國東部、中部和北部各州的平均失業(yè)率相對于全國水平上升了23%,同時西部和西南部各州的失業(yè)率卻顯著下降。同期,人口遷移的空間流向恰好與此相反,人口凈流入地區(qū)為西部和西南部地區(qū),東部、中部和北部均為人口凈流出地區(qū)。

中國的人口遷移不僅具有發(fā)展中國家的一般特征,而且還有經(jīng)濟體制轉(zhuǎn)型的獨特之處。如前所述,中國特有的戶籍制度及其改革過程,為人口和勞動力自由流動和擇業(yè)提供了制度基礎(chǔ),這也是研究其他國家人口遷移的理論沒有遇到過的問題。隨著時間的推移,包括戶籍制度在內(nèi)的各項市場化改革措施必然對人口與勞動力遷移產(chǎn)生顯著影響。同時,城市就業(yè)環(huán)境變化也為我們觀察城鄉(xiāng)勞動力市場的相互作用提供了條件。

首先,不僅是城鄉(xiāng)之間、地區(qū)之間的收入差距驅(qū)動人口的遷移,市場化水平在城鄉(xiāng)和地區(qū)間的差異也直接影響農(nóng)村勞動力遷移決策,從而形成特定的遷移流向。在經(jīng)濟發(fā)展的初期,資本相對稀缺而勞動力相對豐富。因此,中國經(jīng)濟的比較優(yōu)勢在勞動密集型產(chǎn)業(yè)。在20世紀80年代以前的經(jīng)濟增長模式下,由于政府采取人為扭曲資金價格的方式,在資金密集型產(chǎn)業(yè)上投資過多,抑制了具有比較優(yōu)勢的勞動密集型產(chǎn)業(yè)的發(fā)展,導(dǎo)致產(chǎn)業(yè)結(jié)構(gòu)的扭曲,資源配置效率的損失。經(jīng)濟改革以來,通過一系列制度變革,資源配置逐漸轉(zhuǎn)向勞動力較為密集的產(chǎn)業(yè),較好地發(fā)揮了中國勞動力資源豐富的比較優(yōu)勢。產(chǎn)品和生產(chǎn)要素市場的發(fā)育帶來了資源重新配置效率的改善,對經(jīng)濟增長做出了重要的貢獻(cai等,2002)。由于生產(chǎn)要素市場發(fā)育上在地區(qū)之間不平衡,這種資源重新配置的效果主要體現(xiàn)在沿海地區(qū)。2000年,92.1%進出口貿(mào)易集中在東部地區(qū),中西部地區(qū)分別為4.3%和3.6%.同年,86.5%的外商直接投資集中在東部地區(qū),中西部地區(qū)分別為8.9%和4.6%.因此,勞動力遷移在東部地區(qū)更為活躍,遷移的流向也以從中西部地區(qū)向東部地區(qū)為特征。

其次,正如在其他國家觀察到的那樣,較大的遷移距離增加了交通成本、弱化了社會網(wǎng)絡(luò)關(guān)系和目的地的就業(yè)信息,減少了遷移者的收益預(yù)期,因此,遷移距離上升降低了遷移發(fā)生概率。工作的不穩(wěn)定性和信息獲得的不確定性,不僅造成了遷移流向是一個從縣內(nèi)流向縣外,從省內(nèi)向省外的漸進過程,而且使得親友等社會網(wǎng)絡(luò)成為遷移者獲得非正規(guī)部門就業(yè)信息的主要方式。格林伍得(greenwood,1969)認為,遷移存量對人口在地區(qū)之間遷移扮演著社會網(wǎng)絡(luò)的作用。先前的遷移可以為后來者提供信息和其他方面的幫助,減少遷移風(fēng)險,從而對后期的遷移產(chǎn)生影響。蔡fǎng@①(cai,1999)研究發(fā)現(xiàn),75.8%的省內(nèi)遷移者、82.4%的跨省遷移者的就業(yè)信息獲得是通過住在城里或在城里找到工作的親戚、老鄉(xiāng)、朋友獲得的。因此,農(nóng)村勞動力向城市流動通常受到距離所反映出的社會網(wǎng)絡(luò)強弱的限制,形成分階段遷移。

第三,盡管戶籍制度繼續(xù)阻隔著農(nóng)村勞動力向城市遷移,但市場化改革使得城鄉(xiāng)勞動力市場開始融合,城市就業(yè)環(huán)境變化必然對農(nóng)村勞動力向城市流動帶來影響。隨著國有企業(yè)虧損和非國有部門擴大,越來越多的原國有企業(yè)職工開始和遷移者在非正式部門展開就業(yè)競爭。在這種情況下,農(nóng)村勞動力“是走還是留”,取決于正式部門和非正式部門的就業(yè)狀況,而且其決策通常是暫時的,而不是長期的。這與harris和todaro(1970)模型中所討論的情況(遷移者在非正式部門臨時就業(yè)、等待得到正式部門就業(yè)機會),以及sethuraman(1981)觀察到其他發(fā)展中國家的情況(大多數(shù)遷移者將他們在非正式部門就業(yè)視為永久性的)都有顯著差異。一個普遍觀察到的現(xiàn)象是,中國農(nóng)村勞動力向城市和發(fā)達地區(qū)流動,通常具有季節(jié)性特點,最多以年為單位在原住地和遷入地之間往返,呈現(xiàn)出“鐘擺式”的流動模式。正如solinger(1999)指出的那樣,城市對農(nóng)村勞動力的大量需求是推進戶籍制度改革的必要條件。在非國有經(jīng)濟、特別是外商投資較快的地區(qū),市場力量日益顯現(xiàn),遷移受到鼓勵。、空間分布特征變化

1990年以來,中國地區(qū)收入差距進一步擴大,吸引了中西部地區(qū)勞動力向東部地區(qū)流動。同時,要素市場發(fā)育及資源配置市場化程度,對地區(qū)經(jīng)濟增長越來越起著主導(dǎo)性的作用。東部地區(qū)不僅對外開放時間早,而且市場發(fā)育迅速,較高的市場化水平不斷消除了勞動力等要素跨地區(qū)間流動的制度,以至成為勞動力流動的主要吸納地區(qū)。而勞動力向東部地區(qū)流動反過來也推動了該地區(qū)的經(jīng)濟增長,改善了勞動力資源配置效率(cai等,2002)。表1顯示了人口遷移空間分布狀況的長期變化。1987~2000年,人口遷移的空間分布特征是:地區(qū)內(nèi)部遷移(其中主要是省內(nèi)遷移)比例始終高于地區(qū)間的遷移比例。但地區(qū)內(nèi)部和地區(qū)之間的遷移比例則隨著時間不斷發(fā)生變化。東部地區(qū)內(nèi)部遷移比例提高,東部地區(qū)流向中西部地區(qū)的比例下降。而中西部正好與此相反,中部和西部地區(qū)內(nèi)部遷移比例趨于下降,中部向西部、西部向中部的遷移比例也在下降,而中西部向東部地區(qū)流入比例不斷上升。

注:(1)從統(tǒng)計口徑上看,1987年遷移數(shù)量包括遷入時間在半年以上的市、鎮(zhèn)和縣之間的遷移人口;1990年遷移數(shù)量包括遷入時間在1年以上的市、縣之間的遷移人口;1995年遷移數(shù)量包括遷入時間在半年以上的市,區(qū)、縣之間的遷移人口;2000年遷移數(shù)量包括遷入時間在半年以上的鄉(xiāng)、鎮(zhèn)、街道之間的遷移人口。(2)全部遷移人口包括地區(qū)內(nèi)部和地區(qū)之間的人口遷移,不同年份在遷移時間規(guī)定和遷移范圍上的差別對地區(qū)之間分布會帶來一定影響。盡管如此,我們?nèi)钥梢员容^不同年份之間遷移流向的變化。

資料來源:《1987年全國1%人口抽樣調(diào)查資料》、《1995年全國1%人口抽樣調(diào)查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。

根據(jù)2000年第五次人口普查的10%資料顯示,全部遷移人口數(shù)量為1246萬,占總?cè)丝诘?0.6%,其中省內(nèi)遷移為7.7%、跨省遷移為2.9%.在總遷移人口中,省內(nèi)遷移的比重始終很高,為73.4%.當(dāng)我們描述跨省遷移的流向時,其主要以東部地區(qū)為遷移目的地的傾向更加明顯。表2給出了三類地區(qū)跨省遷移比例的空間交叉分布。2000年,東部地區(qū)跨省遷移近65%集中在東部其他各?。ㄊ校?,中部地區(qū)跨省遷移超過84%集中在東部地區(qū),西部地區(qū)跨省遷移超過68%集中在東部地區(qū)。從時間趨勢上看,1987~2000年,東部地區(qū)內(nèi)部跨省遷移比例上升了近15%,而中西部地區(qū)向東部地區(qū)遷移比例上升將近24%,后者比前者高出9個百分點。

從流動的出發(fā)地和目的地看,遷移可以被劃分為城市到城市的遷移、城市到農(nóng)村的遷移、農(nóng)村到農(nóng)村的遷移和農(nóng)村到城市的遷移四種主要類型。從這種類型劃分來觀察地區(qū)間遷移的流向,也有助于我們理解轉(zhuǎn)軌時期中國人口遷移的特點。從全國來看,城市到城市的遷移和農(nóng)村到城市的遷移是目前遷移的主要形式。2000年,兩者合計占總遷移人口的77.9%,而且農(nóng)村到城市遷移的比重(40.7%)大于城市到城市的遷移(37.2%)。農(nóng)村到農(nóng)村的遷移比重較低,僅占全部遷移的18.2%.而城市到農(nóng)村的遷移比例最低,不到總遷移人口的1/25.從時間趨勢看,城市到城市的遷移所占比重,在東部、中部和西部三類地區(qū)都呈現(xiàn)上升趨勢,而農(nóng)村到城市的遷移比重略呈下降趨勢。

三、遷移的決定因素:計量分析

在遷移決定因素的實證分析中,早期的遷移模型將重力遷移模型和就業(yè)為目的的遷移模型合二為一,假定遷移數(shù)量不僅與遷入地和遷出地的人口和遷移距離有關(guān),而且取決于兩個地區(qū)之間的工資和失業(yè)率的比較。通常,采用下列雙對數(shù)模型來分析這些因素對遷移流向的影響(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m為遷移率,x為影響遷移流向的各種因素,d為遷移距離,i,j分別為遷出地和遷入地。

舒爾茨(schultz,1982)認為,人口變量反映的是其他影響遷移而沒有在模型出現(xiàn)的社會經(jīng)濟變量的作用,它沒有行為學(xué)上的意義。由于遷移是人口增長的一部分,在遷移實證模型中引入人口規(guī)模會帶來計量上的共同偏差(fields,1979)。而且,由于遷移存量實際上是人口規(guī)模的一部分,如果在實證模型中同時引入這兩個變量,將帶來嚴重的多重共線問題,大大降低回歸參數(shù)估計的效率。因此,通常做法是在實證模型中不引入人口變量。

在回歸方程的函數(shù)形式選擇上,費爾茨(fields,1979)認為,遷移決策本質(zhì)上是在相互排斥的替代方案之間的一種選擇,非對稱模型比對稱模型對人口遷移具有更強的解釋能力。此外,雙對數(shù)線性回歸方程還能夠消除奇異值和異方差對估計效率的影響,滿足理論上就業(yè)機會與工資之間的乘積要求,以及提高回歸方程的擬合程度等。他選擇了滯后解釋變量辦法來消除解釋變量的內(nèi)生性問題。我們也采用了所有解釋變量數(shù)據(jù)均為1995年數(shù)據(jù)的辦法來解決遷移模型的內(nèi)生性問題。

本文數(shù)據(jù)來自2000年第五次全國人口普查長表資料(10%樣本)和微觀數(shù)據(jù)(長表1%樣本),1995年全國1%人口抽樣調(diào)查資料及國家統(tǒng)計局《中國統(tǒng)計年鑒(1996)》。在數(shù)據(jù)處理上,正式出版的第五次人口普查長表資料沒有農(nóng)村向城市跨省遷移勞動力數(shù)量及其失業(yè)率數(shù)據(jù),我們利用第五次全國人口普查的微觀數(shù)據(jù)計算了這些數(shù)據(jù)。用于回歸分析變量的統(tǒng)計值見表3.

表3用于回歸分析變量的統(tǒng)計值

注:*根據(jù)微觀數(shù)據(jù)計算。

遷移率的計算,我們采用格林伍得(greenwood,1969)的定義,用1995年11月1日至2000年10月30日從省遷到省的人口數(shù),除以1995年11月1日以前住在省的人口數(shù)。根據(jù)長表計算得到的遷移率,包括了所有年齡段跨省農(nóng)村到城市、城市到城市、農(nóng)村到農(nóng)村、城市到農(nóng)村的四種類型遷移人口;用微觀數(shù)據(jù)計算15~64歲農(nóng)村勞動力向城市的遷移率。按照這種方法計算得到的兩個遷移率的平均值都不高(見表3)。

遷移距離為省會之間鐵路公里數(shù)。中國地域遼闊,鐵路是中國跨省遷移的主要交通方式。這點可以從每年春節(jié)農(nóng)民工返鄉(xiāng)造成的鐵路擁擠狀況中得到印證。遷移距離不僅反應(yīng)了用于直接交通費用的高低,而且在一定程度上代表了遷移所帶來的心理成本大小。隨著遷移距離增加,遷移帶來的不確定性和遷移風(fēng)險也會上升,遷移成本隨之增加(schultz,1982;greenwood,1975)。這在勞動力市場不發(fā)達的情況下尤其如此。

直接用城市工工資收入和農(nóng)村人均純收入來作為工資率的變量顯然不合適。隨著收入多元化,相當(dāng)于實際收入的部分并沒有反映到名義收入之中,城鄉(xiāng)收入在可比性上也存在一定問題(solinger,1995;jefferson,1992)。奧尼爾(o''''neill,1970)建議采用消費指標(biāo)來克服收入指標(biāo)作為工資率變量上的不足。我們利用各省城鄉(xiāng)人口作為權(quán)重,對城鄉(xiāng)居民人均消費支出進行加權(quán)平均,作為各省的工資率變量,預(yù)期工資率對遷移流向存在兩種不同的效應(yīng)。其中,遷入地為正向效應(yīng),而遷出地為負向效應(yīng)。

1995年全國1%抽樣調(diào)查和第五次人口普查都對城鄉(xiāng)勞動力的就業(yè)狀況進行了統(tǒng)計。1995年調(diào)查問卷中有三項指標(biāo)用來測度勞動力在調(diào)查前一周是否處于失業(yè)狀態(tài):第一項是從未工作正在找工作,第二項是失去工作正在找工作,第三項是企業(yè)停產(chǎn)等待安置的勞動力。2000年人口普查只包括前兩項。據(jù)此可以計算得到1995年和2000年城鄉(xiāng)勞動力的失業(yè)率,分別為2.2%和3.6%.由于城鄉(xiāng)勞動力的失業(yè)率包括了農(nóng)村勞動力,這低估了城市勞動力市場的就業(yè)狀況?!吨袊?000年人口普查資料》公布了分城市、鎮(zhèn)和農(nóng)村的經(jīng)濟活動人口資料,據(jù)此計算的城市、鎮(zhèn)和農(nóng)村的失業(yè)率分別為9.4%、6.2%、1.2%.利用2000年微觀數(shù)據(jù)計算的城市本地勞動力、城市向城市遷移勞動力、農(nóng)村向城市遷移勞動力的失業(yè)率,分別為9.1%、7.9%和3.6%.如果在遷移模型中忽略了遷移存量,將導(dǎo)致高估其他解釋變量對遷移的影響(greenwood,1969)。按照格林伍得的方法,遷移存量應(yīng)該是以1995年為時點,計算出生在省且居住在省的所有人口。由于中國人口普查資料只提供了出生后一直住在本地和1995年11月1日之前遷入本地等資料,因此,我們采用1995年11月1日之前遷入本地人口指標(biāo)作為遷移存量的變量。本文中長表的遷移存量包括所有人口,微觀數(shù)據(jù)的遷移存量只包括15~64歲的人口。我們預(yù)期遷移存量對人口遷移有正向效應(yīng)。

在分析地區(qū)人均收入差異和經(jīng)濟增長中,貿(mào)易開放程度通常被看做是影響地區(qū)收入增長的重要因素(barro和sala-i-martin,1995;cai等,2002)。貿(mào)易開放程度越高,參與國際市場一體化程度也越高。但是,扭曲的貿(mào)易和發(fā)展戰(zhàn)略也同樣起到擴大出口,提高gdp中的貿(mào)易份額比重。相比之下,外商直接投資是國外投資者的選擇。從長期來看,為了獲得最大利潤和規(guī)避風(fēng)險,國外企業(yè)在其投資過程中要對各地的產(chǎn)品和要素市場發(fā)育情況、體制與政策的透明度等因素進行綜合考慮,并最終做出投資選擇。外資企業(yè)進入之后,它利用勞動力市場來解決用人需求,這與國有企業(yè)的人事制度形成鮮明對比。因此,我們選擇了外商直接投資作為市場化程度的變量,來分析它們對人口遷移的影響。改革以來,雖然所有省份的外商直接投資數(shù)量都在增加,但東部地區(qū)與中西部地區(qū)之間的差異在不斷擴大。中國人口遷移流向分布主要集中在東部地區(qū),這與東部地區(qū)對市場化改革程度較高是分不開的。

四、回歸結(jié)果與討論

方程1~3是利用第五次人口普查長表資料得到的回歸結(jié)果,方程4、5是利用第五次全國人口普查微觀數(shù)據(jù)得到的回歸結(jié)果。由于海南、重慶、與其他省會之間距離未能得到,在回歸中剔除了這3個地區(qū),長表資料中實際用于回歸的樣本數(shù)量為756個。在微觀數(shù)據(jù)中,由于有些省份的遷移率或農(nóng)村向城市遷移勞動力數(shù)量為零,取對數(shù)后,這些數(shù)據(jù)變成缺省值,所以用于回歸的樣本數(shù)量為506個。

從表4回歸結(jié)果看,利用長表資料得到的回歸方程,解釋了大約60%的所有人口跨省遷移的行為;用微觀數(shù)據(jù)得到的回歸方程,解釋了大約30%的跨省農(nóng)村勞動力向城市遷移的行為。表4的非對稱雙對數(shù)遷移模型估計結(jié)果也表明,遷入地社會經(jīng)濟變量對人口遷移的影響大于遷出地這些變量所發(fā)揮的作用。

回歸方程1~5中大多數(shù)解釋變量的回歸系數(shù)t值,如遷移距離、人均消費水平、失業(yè)率、遷移存量等,都達到了1%或5%的顯著性水平,并且作用方向上與前面的理論預(yù)期結(jié)果也基本一致。

表4中回歸方程1和2的區(qū)別是采用了不同的失業(yè)率數(shù)據(jù),前者是1995年的失業(yè)率,后者是2000年的失業(yè)率。使用1995年失業(yè)率數(shù)據(jù)雖然有助于克服內(nèi)生性問題,但方程1中遷出地失業(yè)率回歸系數(shù)的絕對值大于遷入地失業(yè)率回歸系數(shù)的絕對值,這個結(jié)果可能與現(xiàn)實情況并不吻合。

1995~2000年,中國城市就業(yè)環(huán)境發(fā)生了急劇變化。伴隨著國有企業(yè)改革和城市社會福利體制改革,企業(yè)大量富余人員被釋放出來,城市失業(yè)率迅速上升。為了解決本地城市職工就業(yè)問題,不少地方政府采取了城市就業(yè)保護政策,這勢必對以就業(yè)為目的的勞動力流動產(chǎn)生較大影響。遷移者是理性的,如果目的地的就業(yè)機會較小,遷移者將選擇不流動,以減少遷移風(fēng)險和成本。這樣,遷入地的就業(yè)機會就顯得更為重要。

表4遷移決定因素回歸結(jié)果

注:(1)采用異方差檢驗方法(breusch-pagan/cook-weisberg)發(fā)現(xiàn),表中回歸方程的依次為:7.85、1.54、1.38、2.80、4.85.我們對回歸方程1、5采用robust估計來消除異方差的影響。(2)方程1和5的括號內(nèi)為robustt值,方程2~4括號內(nèi)為t值,*代表5%顯著性水平,**代表1%顯著性水平。

考慮到2000年失業(yè)率真實地反映了就業(yè)環(huán)境的變化,我們以回歸方程2為基準(zhǔn),分析不同因素對遷移的影響,并進行比較。在其他條件不變的情況下,遷移距離上升1%,遷移率下降1.08%.受遷移距離的影響,2000年跨省遷移人口比例不到30%,絕大多數(shù)遷移人口選擇了省內(nèi)流動。遷移距離在空間位置上是固定的,但改善交通運輸條件和制定合理的交通價格有利于減少遷移者的遷移成本,促進勞動力流動。

在做遷移決策時,潛在的遷移者不僅要考慮兩地之間直接的收入差距,而且還要考慮到就業(yè)機會大小。在回歸方程2中,遷入地人均消費水平回歸系數(shù)在絕對值上是遷出地的近4倍,但遷入地失業(yè)率回歸系數(shù)在絕對值上是遷出地的3倍以上。遷入地失業(yè)率對遷移決策較大的邊際影響與遷移者面臨的選擇有關(guān)。本地勞動力市場狀況是既定的,遷移者對它別無選擇。相反,遷移者對遷入地勞動力市場是可以進行選擇的,失業(yè)率越高的地區(qū),遷入數(shù)量就會下降。

目的地的就業(yè)信息提供和幫助,對遷移決策有重要作用。遷移存量的回歸系數(shù)也證實了這一點。社會網(wǎng)絡(luò)等非正規(guī)信息渠道雖然在遷移中發(fā)揮著重要作用,但隨著人口流動規(guī)模擴大,加快勞動力市場信息體系建設(shè)就顯得非常重要。

將外商直接投資變量引入回歸方程2,就得到回歸方程3.引入這個變量之后,遷移距離和失業(yè)率等解釋變量的回歸系數(shù)及其顯著性變化不大,而人均消費水平的回歸系數(shù)及其顯著性發(fā)生較大改變。從絕對值來看,方程3中的人均消費水平回歸系數(shù)小于回歸方程2中的回歸系數(shù)估計值,遷出地人均消費水平的回歸系數(shù)顯著性有所下降,主要是人均消費水平與外商直接投資之間存在較高相關(guān)關(guān)系導(dǎo)致的結(jié)果(注:人均消費水平與外商直接投資的相關(guān)系數(shù)為0.56.)??缡∪丝谶w移比例主要分布在東部地區(qū),它與外商直接投資之間存在較強的相關(guān)關(guān)系(注:外商直接投資與遷移存量之間的相關(guān)系數(shù)為0.76.),引入外商直接投資變量之后,遷移存量的回歸系數(shù)數(shù)值下降約50%.為了觀察城市勞動力市場對農(nóng)村勞動力遷移決策的影響,我們利用微觀數(shù)據(jù)做進一步分析?;貧w方程4引入了農(nóng)村遷移勞動力的失業(yè)率,回歸結(jié)果進一步支持上述發(fā)現(xiàn),即遷入地的就業(yè)機會對遷移者來說更為重要?;貧w方程5引入了城市勞動力失業(yè)率。結(jié)果表明,城市失業(yè)率對于農(nóng)村勞動力跨省遷移率有顯著性影響,其回歸系數(shù)在絕對值上不僅大于回歸方程4中失業(yè)率的回歸系數(shù),而且大于回歸方程2中的回歸系數(shù),這說明城市勞動力市場就業(yè)形勢確實對農(nóng)村勞動力的遷移決策有重要作用。改善城市就業(yè)環(huán)境將有利于促進農(nóng)村勞動力流向城市,起到加速城市化的作用。五、結(jié)論

20世紀80年代以來在中國出現(xiàn)的大規(guī)模人口遷移現(xiàn)象,不僅具有發(fā)展中國家從落后的農(nóng)業(yè)經(jīng)濟向工業(yè)經(jīng)濟轉(zhuǎn)變的一般特征,還具有從計劃經(jīng)濟向市場經(jīng)濟轉(zhuǎn)變的特殊性。將二者結(jié)合在一起,既有助于考察中國獨特的制度特征對人口遷移的影響,又能夠通過對中國案例研究來拓展遷移理論。

經(jīng)濟發(fā)展水平和市場發(fā)育程度在地區(qū)之間的不平衡,決定了人口遷移的基本方向不僅是從農(nóng)村向城市的遷移,而且是從中西部地區(qū)向東部地區(qū)的遷移。既然中國經(jīng)濟的進一步增長仍然有賴于從生產(chǎn)要素市場發(fā)育從而勞動力流動中獲得資源重新配置效率(注:約翰森(johnson,1999)認為,在今后30年,如果遷移障礙被逐漸拆除,同時城鄉(xiāng)收入水平在人力資本可比的條件下達到幾乎相等的話,勞動力部門間轉(zhuǎn)移可以對年經(jīng)濟增長率貢獻2~3個百分點。),加快中西部地區(qū)市場制度的建設(shè),特別是清除阻礙勞動力市場發(fā)育的各種制度,可以引導(dǎo)和規(guī)范人口遷移,使其不僅具有微觀理性,而且具有更加理性的宏觀后果。市場化改革措施(如擴大外商直接投資和對外貿(mào)易等)所帶來的經(jīng)濟發(fā)展將有助于獲得“一石二鳥”的功效,也就是講,它為勞動力流動不斷營造同樣的發(fā)展環(huán)境,并在創(chuàng)造就業(yè)機會的同時,推進城鄉(xiāng)戶籍制度改革。

「作者簡介蔡昉中國社會科學(xué)院人口與勞動經(jīng)濟研究所所長、研究員;王德文中國社會科學(xué)院人口與勞動經(jīng)濟研究所,副研究員。

「參考文獻

1.中國社會科學(xué)院人口研究所(1988):《中國74城鎮(zhèn)遷移抽樣調(diào)查(1986)》,《中國人口科學(xué)》編輯部。

2.國家統(tǒng)計局(1988):《1987年全國1%人口抽樣調(diào)查資料》,中國統(tǒng)計出版社。

3.國家統(tǒng)計局(1997):《1995年全國1%人口抽樣調(diào)查資料》,中國統(tǒng)計出版社。

4.國務(wù)院人口普查辦公室(1993):《中國1990年人口普查資料》,中國統(tǒng)計出版社。

5.國務(wù)院人口普查辦公室(2002):《中國2000年人口普查資料》,中國統(tǒng)計出版社。

6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.

7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.

8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.

9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.

10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.

11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.

12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.

13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.

14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.

15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.

16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.

17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.

18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.

19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.

20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.

21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.

22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.

23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.

24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.

25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.

篇10

櫸樹(ZelkovaschneiderianaH-M),又名大葉櫸、血櫸、紅櫸、黃櫸、巖郎木等,榆科櫸屬樹種,是國家重點保護的瀕危植物之一,屬二級保護植物,有較高的觀賞價值,是重要的風(fēng)景園林觀賞樹種。目前,櫸樹苗木已被廣泛用于園林配置、城市街道綠化美化及生物多樣性方面。

櫸樹為深根性樹種,是一種落葉喬木,主、側(cè)根系都很發(fā)達,性喜光,喜溫暖氣候和肥沃濕潤條件,在酸性土、中性土、石灰?guī)r山地及輕鹽堿土上均能生長。櫸樹初期生長較緩慢,八年生以后加快,可持續(xù)生長70~80年,成年樹高達30m,胸徑1m以上。櫸樹在我國分布很廣泛,主要產(chǎn)于淮河流域和長江流域及其以南地區(qū),多生于海拔800m以下山坡。

1育苗方法

1.1扦插育苗

櫸樹資源稀少,生產(chǎn)上可采用硬枝扦插和綠枝扦插育苗。硬枝扦插的枝條取自一至二年生健壯枝條,插穗長度10~15cm,粗度0.5~1.0cm,每個插條上至少含有2個以上健壯飽滿腋芽,時間以春季扦插為好,其平均成活率可達16.7%;扦插時使用植物生長調(diào)節(jié)劑,可使插條生根率達到80%以上,當(dāng)年苗高可達50~180cm。綠枝扦插宜在6月上旬進行,自母樹年齡較小當(dāng)年生半木質(zhì)化的粗壯嫩枝上剪取帶2~3片葉的插穗,迅速用植物生長調(diào)節(jié)劑處理。做到隨采隨噴水,隨用生根劑處理,隨扦插。扦插苗床基質(zhì)以蛭石、河沙等為宜。扦插密度以插穗間枝葉互不接觸為宜。插后噴水1次,上罩塑料膜弓形小棚,再搭起1.2~1.5m高的框架,用草簾或遮蔭網(wǎng)在上方和兩側(cè)遮蔭,保持20%~30%的透光率。扦插前期要做好葉面噴霧保濕、消毒防病、通風(fēng)換氣和噴水降溫等工作;中期要以揭除薄膜和逐步移去遮蔭物煉苗為主;后期做好消除雜草、施肥等。

1.2嫁接育苗

選擇一至二年生、地徑1.5~2.0cm的白榆實生苗作砧木,以一至二年生的櫸樹枝條作接穗,在樹液流動季節(jié)進行嫁接,嫁接可分枝接和芽接2種。枝接一般在4月進行,操作時可用劈接和皮下接方法。適時嫁接、避開連陰雨天氣、接穗削面光滑平整、接穗與砧木的形成層對準(zhǔn)、綁扎適度是影響嫁接成活的關(guān)鍵因素。芽接宜在7月下旬至8月中旬進行,方塊形芽接比“J”字形芽接為優(yōu)。為提高嫁接成活率,嫁接時要將塑料薄膜帶輕輕插入接穗芽與皮部內(nèi)皮層與砧木密接,在操作技術(shù)保證的情況下,櫸樹嫁接成活率一般在80%以上,枝接當(dāng)年生長量80~160cm,地徑0.8~1.5cm左右。

1.3播種育苗

櫸樹種子采集時間常在10月中下旬,采種期3周左右,選擇樹齡30年以上,結(jié)實多且籽粒飽滿的健壯母樹,在果實由青色轉(zhuǎn)為黃褐色時進行采種,采得的種子去雜陰干,裝入布袋或麻袋貯存?zhèn)溆?。播種分秋播、冬播和春播。秋播需隨采隨播,發(fā)芽在翌年3月上中旬,種子發(fā)芽率和出苗率較高,苗木生長期長。春播宜在雨水至驚蟄時進行,最遲不得遲于3月下旬,播種量150~200kg/hm2。當(dāng)年種子翌年播種,發(fā)芽率高。為了提高種子發(fā)芽率和出苗率,可對種子進行選種、浸種、消毒、催芽、低溫存積處理等。播種后,25~30d種子發(fā)芽出土,應(yīng)防止鳥害。出苗后要及時揭草煉苗。幼苗期應(yīng)及時間苗、松土除草、灌溉追肥。此外,櫸樹苗期普遍有分叉現(xiàn)象,應(yīng)在苗期進行修剪,蓄好1個主干,以利干形通直。

1.4組織培養(yǎng)

利用大葉櫸樹未成熟種子的胚依次在誘導(dǎo)愈傷組織培養(yǎng)基、愈傷組織繼代培養(yǎng)基、芽分化培養(yǎng)基、壯苗培養(yǎng)基及生根培養(yǎng)基上培養(yǎng),可生產(chǎn)出3~5條不定根幼苗,生根率達30%,生根幼苗移植到溫室花盆中成活率在50%以上。日本在櫸樹組織培養(yǎng)方面成功較早,有許多可供參考的經(jīng)驗。

2造林與管理

造林地宜選擇在坡度30°以下,低山丘陵區(qū)土壤肥沃、保水較好的群山中下部、谷地、溪邊。采用全墾方式整地,整地規(guī)格為50cm×50cm×40cm。3月上旬左右,選取無風(fēng)陰天或小雨天氣,用櫸樹一年生實生苗栽植,栽植前用10%~15%的過磷酸鈣泥漿沾根,以提高成活率。栽植時要根舒不彎曲,嚴禁大土塊和石塊壓在根部,回填土要實,深度為苗期地面與地相接觸處印痕之上3~6cm為好。栽植密度可為1.6m×1.6m或2.0m×1.6m。另外,可根據(jù)不同的立地條件栽植不同的樹種。如山頂、山脊可栽馬尾松、櫟類,山腳、山腰栽櫸樹,形成馬尾松、櫸樹、櫟類塊狀混交林。在立地條件好的山坡中下部可栽植櫸樹與山杉木行狀混交林。苗木栽植后,前3年,每年撫育2次,分別于6月和10月進行。隨時注意培蔸、撫正,剪去干上叢生小枝,將分叉株去除弱的分支,每年