云計算環(huán)境下的負荷特征曲線提取

時間：2022-10-05 23:50:41 信息安全畢業(yè)論文

　　臨近畢業(yè)的時候，很多童鞋們都很忙。有的忙著各種招聘考試，有的忙著投簡歷面試，有的忙著研究生的復(fù)試，還有公務(wù)員面試。但是正當(dāng)此時，大家還有一個重要的任務(wù)就是寫畢業(yè)論文!畢業(yè)論文怎么寫?下面文書幫小編提供范文一篇，僅供閱讀!

【摘要】 文章針對電網(wǎng)運行產(chǎn)生的數(shù)據(jù)呈爆炸式增長，EMS系統(tǒng)有效信息往往淹沒在海量數(shù)據(jù)中這一問題，提出一種云計算模式下的聚類分析處理方法，基于Hadoop平臺的MapReduce計算模型與分布式文件存儲，將系統(tǒng)聚類法進行拆分，在云環(huán)境中對多個計算模塊進行并行分析。作為試驗性驗證，提取某大用戶近三年的負荷特征曲線，選取不同數(shù)據(jù)量、不同節(jié)點數(shù)，進行算法加速比的測試。結(jié)果表明，在云計算架構(gòu)中該算法可以有效提高計算效率，適用于電力系統(tǒng)海量數(shù)據(jù)的挖掘分析。

　　1 引言

　　電力負荷特征曲線表征了同類負荷曲線的整體特征，在負荷壞數(shù)據(jù)辨識與修正、電力負荷預(yù)測、負荷建模、需求側(cè)管理等領(lǐng)域有重要作用。聚類分析是一種常用的特征曲線提取方法，但是在面對電力系統(tǒng)海量數(shù)據(jù)時，現(xiàn)有算法在時間和空間復(fù)雜度上不能很好滿足需求，解決該問題的一種有效方法是將串行算法并行化處理。

　　作為一種嶄新的計算模式，云計算是并行計算、分布式計算與網(wǎng)格計算的發(fā)展，在海量數(shù)據(jù)處理方面具有與生俱來的優(yōu)勢。云計算是由接入到Internet中的一系列硬件資源提供的服務(wù)，它將計算任務(wù)分配到由大量計算機構(gòu)成的資源池中，使云中的應(yīng)用程序獲得并行計算支撐以及易擴展的存儲空間，來自于不同平臺的用戶可以共享云中的資源。目前，主流的云計算架構(gòu)主要在Hadoop平臺上實現(xiàn)，Apache的開源項目Hadoop實現(xiàn)了分布式文件系統(tǒng)與MapReduce計算模型。開源項目Mahout實現(xiàn)了基于MapReduce的k-means聚類計算，但是k-means方法要求以聚類個數(shù)作為參數(shù)進行運算，對于電力負荷數(shù)據(jù)而言，由于無法事先確定可以分為幾類，導(dǎo)致應(yīng)用存在一定的局限性。針對這一問題，以系統(tǒng)聚類法代替k-means聚類方法，避免聚類參數(shù)的不確定問題。在此基礎(chǔ)上，提出云計算環(huán)境下的系統(tǒng)聚類并行算法，提高海量數(shù)據(jù)處理的計算效率。

　　2 系統(tǒng)聚類法

　　系統(tǒng)聚類法是本文算法的基礎(chǔ)，其完全依據(jù)距離進行聚類，不需要事先明確聚類個數(shù)，其具體有幾個步驟。

　　1) 將每個初始樣品作為一類，計算類之間的距離，距離計算方法有歐氏距離、曼哈頓距離、切比雪夫距離等，形成距離矩陣D(0)。它是一個對角元素為0的對稱矩陣，設(shè)Gi為第i個聚類。

　　2) 尋找D(0)中的最小元素，設(shè)其為D(KL)，其中K為矩陣行號，L為列號，則將GK和GL合并成一類，記為GM，有GM = {GK，GL}。

　　3) 計算GM與其他類GJ之間的距離，更新距離矩陣D(0)，將GK和GL所在行和所在列合并成一個新行新列，對應(yīng)于GM，新行新列上的距離由遞推公式計算得到，其余矩陣元素值不變，得到的新距離矩陣記為D(1)。

　　4) 對D(1)重復(fù)上述對D(0)的2步操作，得到距離矩陣D(2);依此迭代處理，直至所有元素合并成一類，或距離矩陣中的最小距離大于設(shè)定閾值為止。

　　距離計算可以采用多種方法，不失一般性，本文采用中間距離法作為距離遞推公式。

　　3 MapReduce

　　在云計算的各種編程模型中，MapReduce逐漸成為主流。MapReduce是一種可用于海量數(shù)據(jù)處理的編程模型，在Hadoop平臺下，每個MapReduce工作單元被定義為一個作業(yè)(Job)。有兩類計算節(jié)點參與作業(yè)的執(zhí)行，一個jobtracker(相當(dāng)于作業(yè)調(diào)度機構(gòu))和若干個tasktracker(子任務(wù))。后者以心跳服務(wù)的形式，不斷將執(zhí)行進度向jobtracker報告。

　　輸入數(shù)據(jù)被劃分成等長度數(shù)據(jù)塊(輸入分片input split)，與一個map任務(wù)對應(yīng)。map和reduce函數(shù)的輸入輸出遵從以下格式：

　　map：(K1，V1)→ list(K2， V2);

　　reduce：(K2，list(V2))→ list(K3，V3)。

　　從map輸出到reduce輸入之前的處理過程稱為混洗(shuffle)，混洗階段完成map輸出的排序(sort)，分區(qū)，合并(merge)等，并最終形成(K2，list(V2))形式的鍵值對供reduce函數(shù)獲取，經(jīng)處理后輸出至分布式文件系統(tǒng)中(DFS，Hadoop中稱為HDFS)，整個過程如圖1所示。

　　圖2所示為Hadoop平臺下，MapReduce作業(yè)的原理：客戶節(jié)點運行MapReduce程序，計算輸入分片，并將運行所需的資源文件(包括Jar文件，配置文件以及輸入分片)復(fù)制到HDFS中，然后向jobtracker提交作業(yè);jobtracker將收到的作業(yè)放入內(nèi)部隊列，交予作業(yè)調(diào)度器處理，作業(yè)調(diào)度器在空閑的時候獲取輸入分片，根據(jù)分片數(shù)創(chuàng)建map任務(wù)，根據(jù)程序設(shè)置的reduce數(shù)量，創(chuàng)建等量的reduce任務(wù)，交予tasktracker群執(zhí)行;tasktracker從HDFS獲取需要的資源，對每個任務(wù)啟動一個新的JVM進程，通過循環(huán)定期發(fā)送心跳告知jobtracker其是否存活以及傳遞消息，reduce任務(wù)完成后，將結(jié)果寫入HDFS，清除諸如map輸出到本地磁盤的中間結(jié)果，Job client從HDFS獲取結(jié)果信息供后續(xù)處理，一次MapReduce作業(yè)完成。

　　4 MapReduce框架下的系統(tǒng)聚類法

　　將系統(tǒng)聚類法進行并行化處理，可以有效提高海量數(shù)據(jù)處理的計算效率。系統(tǒng)聚類的計算過程包括數(shù)據(jù)初始化、距離矩陣初始化、迭代計算過程。迭代計算又包括距離矩陣最小元素的查詢、距離矩陣的更新(包括新值計算與矩陣降維)、聚類數(shù)據(jù)的合并。

　　聚類數(shù)據(jù)和距離矩陣的初始化需要用到所有數(shù)據(jù)，將其進行并行化處理需要很大的網(wǎng)絡(luò)帶寬消耗和空間復(fù)雜度，而且其在算法中只執(zhí)行一次，對于整個算法時間消耗很小(表1(a)顯示了對于1794個24維負荷矢量的系統(tǒng)聚類，串行算法的時間消耗分布)，因此仍舊采用串行方法作為此階段算法。

　　在每次迭代過程中，尋找最小元素的時間復(fù)雜度為O(n2)，此階段適合用MapReduce框架處理，本文中將該作業(yè)稱為JobFindMin。考慮到距離矩陣是對角元為0的對稱矩陣，只需存儲以及處理不包括對角元的上三角或下三角部分，采用以行為單位，進行輸入分片的切分過程中，會導(dǎo)致每個分片包含的數(shù)據(jù)個數(shù)不統(tǒng)一，造成各map負載不均勻，因此將距離矩陣重新組合，以每行k個元素的形式重新生成輸入文件，此時文件中一行可能包含矩陣多行的數(shù)據(jù)或矩陣一行的一部分，因此，文件中每個元素都需要帶有行列信息。map函數(shù)的輸出鍵值對類型為，MatrixElement是實現(xiàn)了WritableComparable接口的矩陣元素三元組。對每個map設(shè)置一個combiner以保證最后輸出到網(wǎng)絡(luò)的數(shù)據(jù)個數(shù)為1，以此降低網(wǎng)絡(luò)傳輸消耗;reduce函數(shù)設(shè)置為1個，其匯總combiner輸出的最小值，進一步計算這些數(shù)據(jù)之中的最小值，以獲取最短距離及其行列號。

　　聚類數(shù)據(jù)的合并是將最小距離行列號對應(yīng)的數(shù)據(jù)集合進行合并，合并過程只需移動相應(yīng)的指針，計算量很小(在串行算法迭代中占用的時間如表1(b)所示，僅有1%)，對其仍舊采用串行算法。

　　在矩陣更新階段前，根據(jù)作業(yè)JobFindMin的輸出結(jié)果(行i、列j、值v)，形成只包含距離矩陣第j行和第j列數(shù)據(jù)的矩陣，本文中稱為關(guān)聯(lián)矩陣。對于可變法和重心法等需要其他額外參數(shù)的公式需要形成更多信息文件。矩陣更新是最費時的階段，將其利用MapReduce框架處理，作業(yè)名為JobUpdate。map輸入同JobFindMin，對于每個map設(shè)置setup函數(shù)，讀取關(guān)聯(lián)矩陣和其他信息文件，map函數(shù)的輸出為，對應(yīng)為距離矩陣元素的行列值和元素值。

　　map函數(shù)對于每個輸入的矩陣元素行列號進行判斷，如果其在關(guān)聯(lián)矩陣中存在，則將其拋棄(對應(yīng)于矩陣降維);如果其需要更新，則根據(jù)關(guān)聯(lián)矩陣中對應(yīng)的元素按照距離遞推公式進行更新;否則原值寫回。reduce函數(shù)設(shè)置為1個，其輸出為，其作用僅為統(tǒng)一map的輸出并且將數(shù)據(jù)進行格式化，封裝成矩陣三元組的形式的矩陣單元集。

　　圖3所示為選擇中間距離法作為距離遞推公式時兩個作業(yè)的實現(xiàn)細節(jié)，其中距離矩陣以三元組鏈表形式存儲于客戶端內(nèi)存。圖4所示為完整的算法流程圖。

　　5 仿真分析

　　5.1 性能測試

　　采用的實驗平臺由若干臺CPU采用英特爾i5-3210M的計算機組成，Linux 32位操作系統(tǒng)，Hadoop版本1.1.2，JDK版本1.7.0，采用千兆以太網(wǎng)通信。實驗中采取加速比作為主要評價指標(biāo)，對于10GB、30GB的24維數(shù)據(jù)，實驗結(jié)果如表2所示。

　　表2結(jié)果表明，算法加速比隨節(jié)點數(shù)增加近似以線性增長，同時，數(shù)據(jù)量越大，算法性能越好，這主要是由于每次啟動一個MapReduce作業(yè)，系統(tǒng)需要啟動一系列JVM，并通過網(wǎng)絡(luò)傳輸數(shù)據(jù)，這需要消耗一定的時間，在節(jié)點數(shù)較少的情況下，算法并行度不高，并且相比于串行算法存在上述額外開銷;同樣，在數(shù)據(jù)量較少的情況下，串行算法本身需要的時間不多，并行化之后效率得不到顯著提升，因此，該算法適合用于對大數(shù)據(jù)量高并發(fā)的處理。

　　5.2 特征曲線提取

　　特征曲線關(guān)注的是曲線的形狀，對于兩條曲線A = {xi}，B = {xi+ d}，其距離應(yīng)為0，需要對每條曲線進行歸一化處理，即

　　x'i= (i = 1， 2， … n) (1)

　　試中xi為曲線每點數(shù)據(jù)，xmin為最小值，xmax為最大值，x'i為歸一化后的每點數(shù)據(jù)。

　　對某類用戶近三年的負荷數(shù)據(jù)進行聚類，設(shè)置閾值為0.8，聚類后總共得到6類曲線，如圖5所示。

　　其中，最后兩類只包含一條曲線，且存在明顯的不合理點，為壞數(shù)據(jù)。第一類包含的數(shù)據(jù)個數(shù)占了數(shù)據(jù)總量的95.04%，可以認(rèn)定包含該用戶的負荷特征曲線，取均值得到的該類用戶的負荷特征曲線如圖6所示。

　　圖6表明，該類用戶三年內(nèi)的用電規(guī)律沒有發(fā)生明顯變化，最小負荷量出現(xiàn)在凌晨3-5點間，最大負荷出現(xiàn)在中午10-12點間，并在14-22點時間內(nèi)保持較高用電量。

　　從聚類結(jié)果本身直接獲得的信息量非常有限，其更大的用處體現(xiàn)在后續(xù)的數(shù)據(jù)綜合處理中，如作為負荷預(yù)測，需求側(cè)管理，負荷數(shù)據(jù)稽查等的數(shù)據(jù)清理與數(shù)據(jù)分類階段的實用工具。

　　6 結(jié)束語

　　云計算是大數(shù)據(jù)時代的產(chǎn)物，近年受到越來越廣泛的關(guān)注，在互聯(lián)網(wǎng)搜索、移動通信等領(lǐng)域，已獲得較大范圍的應(yīng)用，但在電力系統(tǒng)中的應(yīng)用，尚且處于理論研究階段。Hadoop作為一種云計算模型IaaS層，實現(xiàn)了分布式文件系統(tǒng)和并行計算模型，這是云計算技術(shù)中的兩個關(guān)鍵技術(shù)。本文提出的基于MapReduce的系統(tǒng)聚類法主要實現(xiàn)了并行計算部分，數(shù)據(jù)主體部分還是采用普通的關(guān)系數(shù)據(jù)庫存儲，是一種串行與并行相結(jié)合的算法，串行部分完成數(shù)據(jù)量需求大但運行耗時少的操作(只需要操作指針)，并行部分完成數(shù)據(jù)量需求少，運行耗時長的操作。總體上減輕了網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)呢摀?dān)，充分發(fā)揮了并行計算的優(yōu)勢。

　　在大數(shù)據(jù)時代，電力系統(tǒng)EMS中的數(shù)據(jù)量呈爆炸式增長，云計算的分布式存儲模式可以很好解決這一問題，下一步工作中，將結(jié)合分布式數(shù)據(jù)庫處理技術(shù)，從理論和實踐兩方面，充分發(fā)揮云技術(shù)在電力海量數(shù)據(jù)挖掘中的應(yīng)用能力。

【云計算環(huán)境下的負荷特征曲線提取】相關(guān)文章：

云計算環(huán)境下數(shù)據(jù)挖掘技術(shù)分析論文10-09

云計算環(huán)境下信息安全對策論文10-11

信息安全影響在云計算環(huán)境下的對策分析論文10-08

計算機網(wǎng)絡(luò)環(huán)境下廣播電視時代特征論文10-08

云計算環(huán)境下的電子商務(wù)安全問題和對策論文10-08

云計算背景下的計算機安全問題論文10-11

簡要分析關(guān)于計算機云備份技術(shù)的特征論文10-10

云計算模式下計算機網(wǎng)絡(luò)安全儲存研究論文10-08

云計算背景下計算機網(wǎng)絡(luò)安全問題論文10-09

云計算的安全問題10-26

免费 无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片

云計算環(huán)境下的負荷特征曲線提取

免费无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片