面向鋼鐵生產(chǎn)過程質(zhì)量控制的動態(tài)數(shù)據(jù)挖掘方法
1.浙江大學(xué)工業(yè)控制技術(shù)國家重點實驗室,浙江杭州310027;2.上海寶信軟件股份有限公司 [摘 要]質(zhì)量控制對提高企業(yè)產(chǎn)品質(zhì)量具有重要的意義。本文從鋼鐵生產(chǎn)過程的特點出發(fā),將動態(tài)數(shù)據(jù)挖掘運用于質(zhì)量控制中,闡述了利用數(shù)據(jù)挖掘解決質(zhì)量預(yù)測問題和質(zhì)量分析問題的一般方法。以寶鋼連鑄生產(chǎn)過程為背景進行挖掘?qū)嶒灒砻鬟@種方法在實際應(yīng)中的正確性和有效性。 [關(guān)鍵詞]質(zhì)量控制;動態(tài)數(shù)據(jù)挖掘;鋼鐵生產(chǎn)過程 0 引言 生產(chǎn)過程質(zhì)量控制是利用生產(chǎn)過程的動態(tài)信息進行質(zhì)量預(yù)測和質(zhì)量控制。由于其實時性和較高的準確性,可以預(yù)估質(zhì)量問題,從而降低鋼鐵企業(yè)的生產(chǎn)成本和經(jīng)濟損失。生產(chǎn)過程質(zhì)量控制的基礎(chǔ)是對生產(chǎn)過程的質(zhì)量預(yù)測。因為只有對未來產(chǎn)品質(zhì)量參數(shù)進行估計,才能在產(chǎn)品質(zhì)量發(fā)生問題前調(diào)整生產(chǎn)過程,真正達到提高產(chǎn)品質(zhì)量的目的。進行質(zhì)量預(yù)測的手段是建立生產(chǎn)過程的質(zhì)量模型,即以各種決定產(chǎn)品質(zhì)量的變量為輸入,以產(chǎn)品各質(zhì)量指標為輸出的數(shù)學(xué)模型。但由于影響因素較多而導(dǎo)致機理建模困難等原因,質(zhì)量模型的建立比一般用于自動控制的對象建模更為困難。 數(shù)據(jù)挖掘是一類從大量數(shù)據(jù)中自動尋找規(guī)律的方法,在過去20年中得到了大量的研究。數(shù)據(jù)挖掘方法的特點是能從大量的數(shù)據(jù)中自動分析并提取未知的、潛在有用的知識,因此可用于復(fù)雜系統(tǒng)的行為建模和行為預(yù)測。傳統(tǒng)的數(shù)據(jù)挖掘應(yīng)用通常只處理靜態(tài)的數(shù)據(jù),即不包含時間信息的數(shù)據(jù)。但當將數(shù)據(jù)挖掘方法用于建立鋼鐵企業(yè)生產(chǎn)過程的質(zhì)量模型時,由于傳感器對生產(chǎn)過程不斷采樣的原因,獲得的生產(chǎn)歷史數(shù)據(jù)通常都是時間序列,即歷史數(shù)據(jù)是和時間相關(guān)的—系列值。因此通常用于處理靜態(tài)數(shù)據(jù)的數(shù)據(jù)挖掘方法不能直接應(yīng)用于鋼鐵企業(yè)生產(chǎn)過程歷史數(shù)據(jù)的挖掘。 動態(tài)數(shù)據(jù)挖掘是從海量時間序列數(shù)據(jù)中尋找規(guī)律的數(shù)據(jù)挖掘方法。將動態(tài)數(shù)據(jù)挖掘方法應(yīng)用于鋼鐵企業(yè)生產(chǎn)過程質(zhì)量控制時,主要目標有兩個:(1)通過對鋼鐵生產(chǎn)過程歷史記錄的數(shù)據(jù)挖掘,建立產(chǎn)品質(zhì)量預(yù)測模型,并運用于生產(chǎn)過程,進行實時質(zhì)量預(yù)測;(2)在產(chǎn)品質(zhì)量出現(xiàn)問題后,利用對歷史數(shù)據(jù)的挖掘分析生產(chǎn)工藝對產(chǎn)品質(zhì)量的影響,找出隱藏的生產(chǎn)規(guī)律,為鋼鐵企業(yè)改進工藝提供決策支持。 1 問題描述 ![]() 本文所研究的面向質(zhì)量控制的動態(tài)數(shù)據(jù)挖掘可表達為以下兩類問題的求解過程。 ![]() ![]() 2 面向質(zhì)量控制的動態(tài)數(shù)據(jù)挖掘方法 2.1 樣本抽取 與靜態(tài)數(shù)據(jù)的挖掘不同,對多個時間序列進行動態(tài)數(shù)據(jù)挖掘時,需要解決的第1個問題是數(shù)據(jù)的樣本抽取,即將各個傳感器采樣得到的多個時間序列數(shù)據(jù)根據(jù)其時間、空間上的相關(guān)性以及對產(chǎn)品質(zhì)量檢驗結(jié)果的影響,抽取相應(yīng)的子序列,組成數(shù)據(jù)挖掘的樣本集合。這是因為對某一質(zhì)量指標有影響的可能是不同工藝參數(shù)在不同時間段上的變化情況。 鋼鐵企業(yè)生產(chǎn)過程可以分為間歇型過程(如高爐煉鐵過程)和連續(xù)型過程(如連續(xù)退火過程)。間歇型生產(chǎn)過程的特點是:單批產(chǎn)品在同一工藝裝置中,一般要經(jīng)歷多個加工處理時段,因此通常其各個操作參數(shù)的設(shè)計值在生產(chǎn)過程的不同時段取不同的值。連續(xù)型生產(chǎn)過程的特點是:原料連續(xù)經(jīng)過生產(chǎn)線各工藝裝置處理后成為產(chǎn)品,為了保持生產(chǎn)的連續(xù)性,各工藝裝置操作參數(shù)的設(shè)計值為定值。由于上述兩類生產(chǎn)過程的不同特點,在進行數(shù)據(jù)樣本抽取時必須采用不同的處理方法。下面分別加以闡述。 2.1.1 間歇型過程 對于間歇型生產(chǎn)過程,由于單批產(chǎn)品的質(zhì)量檢驗是在該批產(chǎn)品生產(chǎn)完成后進行的,所以可以取單批產(chǎn)品在整個生產(chǎn)過程中完整的工藝參數(shù)測量值時間序列和質(zhì)量指標測量值時間序列作為動態(tài)數(shù)據(jù)挖掘所需的樣本。 ![]() 2.1.2 連續(xù)型過程 對于連續(xù)型生產(chǎn)過程,因為不同的工藝參數(shù)在不同的時段對加工的產(chǎn)品質(zhì)量發(fā)生影響,因此應(yīng)將工藝參數(shù)的測量值時間序列中,對某個質(zhì)量檢驗結(jié)果有影響的一段子序列提取出來,和質(zhì)量指標測量值一起組成樣本。 ![]() ![]() 2.2模式提取和評價 2.2.1 質(zhì)量不良原因的模式假設(shè) 通常產(chǎn)品質(zhì)量不良的原因可分為兩類,即工藝參數(shù)的設(shè)計值有錯誤;或在生產(chǎn)過程中工藝參數(shù)未能控制在設(shè)計值。本文提出的動態(tài)數(shù)據(jù)挖掘方法在用于鋼鐵企業(yè)生產(chǎn)過程質(zhì)量控制時,基于以下關(guān)鍵性假設(shè),即設(shè)產(chǎn)品質(zhì)量不良的原因可以通過生產(chǎn)過程中工藝參數(shù)的時間序列實測樣本反映出來。工藝參數(shù)的時間序列中某些特征的改變,引起生產(chǎn)質(zhì)量的變化,而這些時間序列的特征,可以用模式來描述。 例如,在連鑄生產(chǎn)工藝中,鑄坯拉速不穩(wěn)定時,容易出現(xiàn)縱向裂紋。根據(jù)此先驗知識,可以將鑄坯拉速測量值時間序列的方差作為影響鑄坯縱向裂紋質(zhì)量事故的一個模式。為了解鑄坯拉速測量值時間序列的方差與鑄坯縱向裂紋質(zhì)量事故之間的定量關(guān)系,可以采用數(shù)據(jù)挖掘方法從海量的鑄坯拉速測量值生產(chǎn)歷史數(shù)據(jù)中去尋找。 根據(jù)上述質(zhì)量不良原因的模式假設(shè),在進行質(zhì)量預(yù)測模型的建?;蛸|(zhì)量事故原因的分析時,要進行時間序列的模式提取和評價。 2.2.2 時間序列的模式提取和評價方法 時間序列的模式提取是從時間序列中抽取有價值的特征模式評價指標的過程。在經(jīng)典的時間序列分析理論中,已給出了一類模式提取的方法:根據(jù)時間序列建立ARMA模型[3]。該方法把時間序列空間映射到ARMA模型中的參數(shù)空間,也稱為時間序列的ARMA特征空間。但是ARMA特征沒有物理意義,難以根據(jù)它來改進產(chǎn)品質(zhì)量。 為了使模式評價指標具有物理意義,有三類可供選擇的方法: (1)根據(jù)理論分析和實際經(jīng)驗,構(gòu)造與產(chǎn)品質(zhì)量有關(guān)的模式類。例如根據(jù)經(jīng)驗,冷連軋過程中帶鋼溫度驟升驟降可能引起斷帶,因此將它作為帶鋼溫度時間序列的一種模式。 (2)對于沒有任何先驗知識的情況,可以窮舉構(gòu)造所有可能的有物理意義的模式。例如時間序列的均值、方差、******值、最小值、中間值、局部極值出現(xiàn)頻率、單調(diào)性、凹凸性、與標準值的偏差、時間累計量等都可以被認為是候選的模式。 (3)對于只有部分先驗知識的情況,可以結(jié)合前兩種方法。 特征模式評價指標確定后,時間序列模式評價的一般步驟如下: ![]() 從上述過程可以看出,經(jīng)過特征模式提取和評價,已經(jīng)將時間序列數(shù)據(jù)轉(zhuǎn)換成了不顯含時間因素的模式評價值序列。 2.3數(shù)據(jù)挖掘過程 綜上所述,對于生產(chǎn)過程質(zhì)量控制而言,整個動態(tài)數(shù)據(jù)挖掘過程,包括根據(jù)生產(chǎn)過程的性質(zhì)對時間序列數(shù)據(jù)進行樣本抽取、根據(jù)給定的特征模式評價指標對時間序列進行特征模式評價、根據(jù)質(zhì)量控制的要求建立質(zhì)量預(yù)測或質(zhì)量關(guān)聯(lián)模型等三個組成部分。具體步驟總結(jié)如下: (1)確定m個可測的產(chǎn)品質(zhì)量指標; (2)根據(jù)理論分析和實際經(jīng)驗,確定可能影響質(zhì)量指標的因素。根據(jù)這些因素,確定參加挖掘n個可測的工藝參數(shù)以及相應(yīng)的特征模式評價指標集合; (3)獲取工藝參數(shù)的測量值時間序列,并使用第2.1.2節(jié)中介紹的方法對時間序列進行樣本抽取,得到數(shù)據(jù)挖掘樣本; (4)使用第2.2.2節(jié)中的方法,對樣本進行模式評價,從而將數(shù)據(jù)樣本轉(zhuǎn)化為模式評價樣本; (5)對于質(zhì)量預(yù)測問題來說,使用回歸分析方法建立如式(3)所示的質(zhì)量預(yù)測模型,對于質(zhì)量分析問題來說,使用關(guān)聯(lián)分析方法建立如式(4)所示的質(zhì)量分析模型; (6)使用測試樣本集對挖掘結(jié)果進行測試; (7)輸出數(shù)據(jù)挖掘結(jié)果。 3 應(yīng)用實例 運用上述理論與方法,作者在一個冶金企業(yè)生產(chǎn)質(zhì)量分析數(shù)據(jù)挖掘平臺DMPlatform上,以某鋼廠1900直弧型板坯連鑄機生產(chǎn)過程鑄坯縱裂質(zhì)量控制為背景進行了動態(tài)數(shù)據(jù)挖掘試驗。 定義質(zhì)量指標為鑄坯縱向裂紋,考慮的數(shù)據(jù)類型為邏輯值,即只考慮鑄坯樣本有無縱向裂紋。在生產(chǎn)中通過切片硫印的方式獲取該質(zhì)量指標的檢驗值,采樣周期為1h。參與數(shù)據(jù)挖掘的工藝參數(shù)共有24個,最短的采樣周期為5s(如結(jié)晶器循環(huán)冷卻水和二冷段冷卻水的溫度),最長的采樣周期為1min(如鑄坯表面溫度)。根據(jù)已知的連鑄理論和經(jīng)驗知識,如:錳硫比增大或者硫含量降低時裂紋減少,拉速越不穩(wěn)定越容易出現(xiàn)縱向裂紋等,確定了對各個工藝參數(shù)時間序列需要提取的具有物理意義的模式。 連鑄是連續(xù)型生產(chǎn)過程,采用第2.1.2節(jié)中的方法從生產(chǎn)歷史數(shù)據(jù)中抽取樣本,共采集了60批鑄坯的生產(chǎn)歷史記錄,每批數(shù)據(jù)記錄的時間跨度為鑄坯切片質(zhì)量硫印檢驗前1h。因此24個工藝參數(shù)時間序列的******長度為43 200個采樣數(shù)據(jù),總數(shù)據(jù)量約為200萬個數(shù)據(jù)。然后對原始數(shù)據(jù)進行去除野值、數(shù)據(jù)平滑等預(yù)處理,接著根據(jù)表1對每批數(shù)據(jù)提取特征模式,最后得到60個樣本。我們將前40個樣本作為訓(xùn)練集,利用樸素Bayes分類建立質(zhì)量預(yù)測模型。將后20個樣本作為測試集,對獲得的連鑄鑄坯質(zhì)量預(yù)測模型進行了檢驗。表2為預(yù)測結(jié)果。 可見只有No8和No20兩個預(yù)測值和實際值不符合,預(yù)測成功率為90%。由于連鑄板坯縱裂的形成原因非常復(fù)雜,根據(jù)經(jīng)驗很難預(yù)測和控制,因此90%的質(zhì)量預(yù)測精度對于鑄坯質(zhì)量控制有很大的幫助。 |