免费 无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片

信息安全畢業(yè)論文

云計算環(huán)境下的負(fù)荷特征曲線提取

時間:2022-10-05 23:50:41 信息安全畢業(yè)論文 我要投稿
  • 相關(guān)推薦

云計算環(huán)境下的負(fù)荷特征曲線提取

  臨近畢業(yè)的時候,很多童鞋們都很忙。有的忙著各種招聘考試,有的忙著投簡歷面試,有的忙著研究生的復(fù)試,還有公務(wù)員面試。但是正當(dāng)此時,大家還有一個重要的任務(wù)就是寫畢業(yè)論文!畢業(yè)論文怎么寫?下面文書幫小編提供范文一篇,僅供閱讀!

      【 摘 要 】 文章針對電網(wǎng)運(yùn)行產(chǎn)生的數(shù)據(jù)呈爆炸式增長,EMS系統(tǒng)有效信息往往淹沒在海量數(shù)據(jù)中這一問題,提出一種云計算模式下的聚類分析處理方法,基于Hadoop平臺的MapReduce計算模型與分布式文件存儲,將系統(tǒng)聚類法進(jìn)行拆分,在云環(huán)境中對多個計算模塊進(jìn)行并行分析。作為試驗性驗證,提取某大用戶近三年的負(fù)荷特征曲線,選取不同數(shù)據(jù)量、不同節(jié)點數(shù),進(jìn)行算法加速比的測試。結(jié)果表明,在云計算架構(gòu)中該算法可以有效提高計算效率,適用于電力系統(tǒng)海量數(shù)據(jù)的挖掘分析。

  1 引言

  電力負(fù)荷特征曲線表征了同類負(fù)荷曲線的整體特征,在負(fù)荷壞數(shù)據(jù)辨識與修正、電力負(fù)荷預(yù)測、負(fù)荷建模、需求側(cè)管理等領(lǐng)域有重要作用。聚類分析是一種常用的特征曲線提取方法,但是在面對電力系統(tǒng)海量數(shù)據(jù)時,現(xiàn)有算法在時間和空間復(fù)雜度上不能很好滿足需求,解決該問題的一種有效方法是將串行算法并行化處理。

  作為一種嶄新的計算模式,云計算是并行計算、分布式計算與網(wǎng)格計算的發(fā)展,在海量數(shù)據(jù)處理方面具有與生俱來的優(yōu)勢。云計算是由接入到Internet中的一系列硬件資源提供的服務(wù),它將計算任務(wù)分配到由大量計算機(jī)構(gòu)成的資源池中,使云中的應(yīng)用程序獲得并行計算支撐以及易擴(kuò)展的存儲空間,來自于不同平臺的用戶可以共享云中的資源。目前,主流的云計算架構(gòu)主要在Hadoop平臺上實現(xiàn),Apache的開源項目Hadoop實現(xiàn)了分布式文件系統(tǒng)與MapReduce計算模型。開源項目Mahout實現(xiàn)了基于MapReduce的k-means聚類計算,但是k-means方法要求以聚類個數(shù)作為參數(shù)進(jìn)行運(yùn)算,對于電力負(fù)荷數(shù)據(jù)而言,由于無法事先確定可以分為幾類,導(dǎo)致應(yīng)用存在一定的局限性。針對這一問題,以系統(tǒng)聚類法代替k-means聚類方法,避免聚類參數(shù)的不確定問題。在此基礎(chǔ)上,提出云計算環(huán)境下的系統(tǒng)聚類并行算法,提高海量數(shù)據(jù)處理的計算效率。

  2 系統(tǒng)聚類法

  系統(tǒng)聚類法是本文算法的基礎(chǔ),其完全依據(jù)距離進(jìn)行聚類,不需要事先明確聚類個數(shù),其具體有幾個步驟。

  1) 將每個初始樣品作為一類,計算類之間的距離,距離計算方法有歐氏距離、曼哈頓距離、切比雪夫距離等,形成距離矩陣D(0)。它是一個對角元素為0的對稱矩陣,設(shè)Gi為第i個聚類。

  2) 尋找D(0)中的最小元素,設(shè)其為D(KL),其中K為矩陣行號,L為列號,則將GK和GL合并成一類,記為GM,有GM = {GK,GL}。

  3) 計算GM與其他類GJ之間的距離,更新距離矩陣D(0),將GK和GL所在行和所在列合并成一個新行新列,對應(yīng)于GM,新行新列上的距離由遞推公式計算得到,其余矩陣元素值不變,得到的新距離矩陣記為D(1)。

  4) 對D(1)重復(fù)上述對D(0)的2步操作,得到距離矩陣D(2);依此迭代處理,直至所有元素合并成一類,或距離矩陣中的最小距離大于設(shè)定閾值為止。

  距離計算可以采用多種方法,不失一般性,本文采用中間距離法作為距離遞推公式。

  3 MapReduce

  在云計算的各種編程模型中,MapReduce逐漸成為主流。MapReduce是一種可用于海量數(shù)據(jù)處理的編程模型,在Hadoop平臺下,每個MapReduce工作單元被定義為一個作業(yè)(Job)。有兩類計算節(jié)點參與作業(yè)的執(zhí)行,一個jobtracker(相當(dāng)于作業(yè)調(diào)度機(jī)構(gòu))和若干個tasktracker(子任務(wù))。后者以心跳服務(wù)的形式,不斷將執(zhí)行進(jìn)度向jobtracker報告。

  輸入數(shù)據(jù)被劃分成等長度數(shù)據(jù)塊(輸入分片input split),與一個map任務(wù)對應(yīng)。map和reduce函數(shù)的輸入輸出遵從以下格式:

  map:(K1,V1)→ list(K2, V2);

  reduce:(K2,list(V2))→ list(K3,V3)。

  從map輸出到reduce輸入之前的處理過程稱為混洗(shuffle),混洗階段完成map輸出的排序(sort),分區(qū),合并(merge)等,并最終形成(K2,list(V2))形式的鍵值對供reduce函數(shù)獲取,經(jīng)處理后輸出至分布式文件系統(tǒng)中(DFS,Hadoop中稱為HDFS),整個過程如圖1所示。

  圖2所示為Hadoop平臺下,MapReduce作業(yè)的原理:客戶節(jié)點運(yùn)行MapReduce程序,計算輸入分片,并將運(yùn)行所需的資源文件(包括Jar文件,配置文件以及輸入分片)復(fù)制到HDFS中,然后向jobtracker提交作業(yè);jobtracker將收到的作業(yè)放入內(nèi)部隊列,交予作業(yè)調(diào)度器處理,作業(yè)調(diào)度器在空閑的時候獲取輸入分片,根據(jù)分片數(shù)創(chuàng)建map任務(wù),根據(jù)程序設(shè)置的reduce數(shù)量,創(chuàng)建等量的reduce任務(wù),交予tasktracker群執(zhí)行;tasktracker從HDFS獲取需要的資源,對每個任務(wù)啟動一個新的JVM進(jìn)程,通過循環(huán)定期發(fā)送心跳告知jobtracker其是否存活以及傳遞消息,reduce任務(wù)完成后,將結(jié)果寫入HDFS,清除諸如map輸出到本地磁盤的中間結(jié)果,Job client從HDFS獲取結(jié)果信息供后續(xù)處理,一次MapReduce作業(yè)完成。

  4 MapReduce框架下的系統(tǒng)聚類法

  將系統(tǒng)聚類法進(jìn)行并行化處理,可以有效提高海量數(shù)據(jù)處理的計算效率。系統(tǒng)聚類的計算過程包括數(shù)據(jù)初始化、距離矩陣初始化、迭代計算過程。迭代計算又包括距離矩陣最小元素的查詢、距離矩陣的更新(包括新值計算與矩陣降維)、聚類數(shù)據(jù)的合并。

  聚類數(shù)據(jù)和距離矩陣的初始化需要用到所有數(shù)據(jù),將其進(jìn)行并行化處理需要很大的網(wǎng)絡(luò)帶寬消耗和空間復(fù)雜度,而且其在算法中只執(zhí)行一次,對于整個算法時間消耗很小(表1(a)顯示了對于1794個24維負(fù)荷矢量的系統(tǒng)聚類,串行算法的時間消耗分布),因此仍舊采用串行方法作為此階段算法。

  在每次迭代過程中,尋找最小元素的時間復(fù)雜度為O(n2),此階段適合用MapReduce框架處理,本文中將該作業(yè)稱為JobFindMin?紤]到距離矩陣是對角元為0的對稱矩陣,只需存儲以及處理不包括對角元的上三角或下三角部分,采用以行為單位,進(jìn)行輸入分片的切分過程中,會導(dǎo)致每個分片包含的數(shù)據(jù)個數(shù)不統(tǒng)一,造成各map負(fù)載不均勻,因此將距離矩陣重新組合,以每行k個元素的形式重新生成輸入文件,此時文件中一行可能包含矩陣多行的數(shù)據(jù)或矩陣一行的一部分,因此,文件中每個元素都需要帶有行列信息。map函數(shù)的輸出鍵值對類型為,MatrixElement是實現(xiàn)了WritableComparable接口的矩陣元素三元組。對每個map設(shè)置一個combiner以保證最后輸出到網(wǎng)絡(luò)的數(shù)據(jù)個數(shù)為1,以此降低網(wǎng)絡(luò)傳輸消耗;reduce函數(shù)設(shè)置為1個,其匯總combiner輸出的最小值,進(jìn)一步計算這些數(shù)據(jù)之中的最小值,以獲取最短距離及其行列號。

  聚類數(shù)據(jù)的合并是將最小距離行列號對應(yīng)的數(shù)據(jù)集合進(jìn)行合并,合并過程只需移動相應(yīng)的指針,計算量很小(在串行算法迭代中占用的時間如表1(b)所示,僅有1%),對其仍舊采用串行算法。

  在矩陣更新階段前,根據(jù)作業(yè)JobFindMin的輸出結(jié)果(行i、列j、值v),形成只包含距離矩陣第j行和第j列數(shù)據(jù)的矩陣,本文中稱為關(guān)聯(lián)矩陣。對于可變法和重心法等需要其他額外參數(shù)的公式需要形成更多信息文件。矩陣更新是最費(fèi)時的階段,將其利用MapReduce框架處理,作業(yè)名為JobUpdate。map輸入同JobFindMin,對于每個map設(shè)置setup函數(shù),讀取關(guān)聯(lián)矩陣和其他信息文件,map函數(shù)的輸出為,對應(yīng)為距離矩陣元素的行列值和元素值。

  map函數(shù)對于每個輸入的矩陣元素行列號進(jìn)行判斷,如果其在關(guān)聯(lián)矩陣中存在,則將其拋棄(對應(yīng)于矩陣降維);如果其需要更新,則根據(jù)關(guān)聯(lián)矩陣中對應(yīng)的元素按照距離遞推公式進(jìn)行更新;否則原值寫回。reduce函數(shù)設(shè)置為1個,其輸出為,其作用僅為統(tǒng)一map的輸出并且將數(shù)據(jù)進(jìn)行格式化,封裝成矩陣三元組的形式的矩陣單元集。

  圖3所示為選擇中間距離法作為距離遞推公式時兩個作業(yè)的實現(xiàn)細(xì)節(jié),其中距離矩陣以三元組鏈表形式存儲于客戶端內(nèi)存。圖4所示為完整的算法流程圖。

  5 仿真分析

  5.1 性能測試

  采用的實驗平臺由若干臺CPU采用英特爾i5-3210M的計算機(jī)組成,Linux 32位操作系統(tǒng),Hadoop版本1.1.2,JDK版本1.7.0,采用千兆以太網(wǎng)通信。實驗中采取加速比作為主要評價指標(biāo),對于10GB、30GB的24維數(shù)據(jù),實驗結(jié)果如表2所示。

  表2結(jié)果表明,算法加速比隨節(jié)點數(shù)增加近似以線性增長,同時,數(shù)據(jù)量越大,算法性能越好,這主要是由于每次啟動一個MapReduce作業(yè),系統(tǒng)需要啟動一系列JVM,并通過網(wǎng)絡(luò)傳輸數(shù)據(jù),這需要消耗一定的時間,在節(jié)點數(shù)較少的情況下,算法并行度不高,并且相比于串行算法存在上述額外開銷;同樣,在數(shù)據(jù)量較少的情況下,串行算法本身需要的時間不多,并行化之后效率得不到顯著提升,因此,該算法適合用于對大數(shù)據(jù)量高并發(fā)的處理。

  5.2 特征曲線提取

  特征曲線關(guān)注的是曲線的形狀,對于兩條曲線A = {xi},B = {xi+ d},其距離應(yīng)為0,需要對每條曲線進(jìn)行歸一化處理,即

  x'i= (i = 1, 2, … n) (1)

  試中xi為曲線每點數(shù)據(jù),xmin為最小值,xmax為最大值,x'i為歸一化后的每點數(shù)據(jù)。

  對某類用戶近三年的負(fù)荷數(shù)據(jù)進(jìn)行聚類,設(shè)置閾值為0.8,聚類后總共得到6類曲線,如圖5所示。

  其中,最后兩類只包含一條曲線,且存在明顯的不合理點,為壞數(shù)據(jù)。第一類包含的數(shù)據(jù)個數(shù)占了數(shù)據(jù)總量的95.04%,可以認(rèn)定包含該用戶的負(fù)荷特征曲線,取均值得到的該類用戶的負(fù)荷特征曲線如圖6所示。

  圖6表明,該類用戶三年內(nèi)的用電規(guī)律沒有發(fā)生明顯變化,最小負(fù)荷量出現(xiàn)在凌晨3-5點間,最大負(fù)荷出現(xiàn)在中午10-12點間,并在14-22點時間內(nèi)保持較高用電量。

  從聚類結(jié)果本身直接獲得的信息量非常有限,其更大的用處體現(xiàn)在后續(xù)的數(shù)據(jù)綜合處理中,如作為負(fù)荷預(yù)測,需求側(cè)管理,負(fù)荷數(shù)據(jù)稽查等的數(shù)據(jù)清理與數(shù)據(jù)分類階段的實用工具。

  6 結(jié)束語

  云計算是大數(shù)據(jù)時代的產(chǎn)物,近年受到越來越廣泛的關(guān)注,在互聯(lián)網(wǎng)搜索、移動通信等領(lǐng)域,已獲得較大范圍的應(yīng)用,但在電力系統(tǒng)中的應(yīng)用,尚且處于理論研究階段。Hadoop作為一種云計算模型IaaS層,實現(xiàn)了分布式文件系統(tǒng)和并行計算模型,這是云計算技術(shù)中的兩個關(guān)鍵技術(shù)。本文提出的基于MapReduce的系統(tǒng)聚類法主要實現(xiàn)了并行計算部分,數(shù)據(jù)主體部分還是采用普通的關(guān)系數(shù)據(jù)庫存儲,是一種串行與并行相結(jié)合的算法,串行部分完成數(shù)據(jù)量需求大但運(yùn)行耗時少的操作(只需要操作指針),并行部分完成數(shù)據(jù)量需求少,運(yùn)行耗時長的操作。總體上減輕了網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)呢?fù)擔(dān),充分發(fā)揮了并行計算的優(yōu)勢。

  在大數(shù)據(jù)時代,電力系統(tǒng)EMS中的數(shù)據(jù)量呈爆炸式增長,云計算的分布式存儲模式可以很好解決這一問題,下一步工作中,將結(jié)合分布式數(shù)據(jù)庫處理技術(shù),從理論和實踐兩方面,充分發(fā)揮云技術(shù)在電力海量數(shù)據(jù)挖掘中的應(yīng)用能力。

【云計算環(huán)境下的負(fù)荷特征曲線提取】相關(guān)文章:

云計算環(huán)境下數(shù)據(jù)挖掘技術(shù)分析論文10-09

云計算環(huán)境下信息安全對策論文10-11

信息安全影響在云計算環(huán)境下的對策分析論文10-08

計算機(jī)網(wǎng)絡(luò)環(huán)境下廣播電視時代特征論文10-08

云計算環(huán)境下的電子商務(wù)安全問題和對策論文10-08

云計算背景下的計算機(jī)安全問題論文10-11

簡要分析關(guān)于計算機(jī)云備份技術(shù)的特征論文10-10

云計算模式下計算機(jī)網(wǎng)絡(luò)安全儲存研究論文10-08

云計算背景下計算機(jī)網(wǎng)絡(luò)安全問題論文10-09

云計算的安全問題10-26