面向鋼鐵生產(chǎn)過(guò)程質(zhì)量控制的動(dòng)態(tài)數(shù)據(jù)挖掘方法
1.浙江大學(xué)工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江杭州310027;2.上海寶信軟件股份有限公司 [摘 要]質(zhì)量控制對(duì)提高企業(yè)產(chǎn)品質(zhì)量具有重要的意義。本文從鋼鐵生產(chǎn)過(guò)程的特點(diǎn)出發(fā),將動(dòng)態(tài)數(shù)據(jù)挖掘運(yùn)用于質(zhì)量控制中,闡述了利用數(shù)據(jù)挖掘解決質(zhì)量預(yù)測(cè)問(wèn)題和質(zhì)量分析問(wèn)題的一般方法。以寶鋼連鑄生產(chǎn)過(guò)程為背景進(jìn)行挖掘?qū)嶒?yàn),表明這種方法在實(shí)際應(yīng)中的正確性和有效性。 [關(guān)鍵詞]質(zhì)量控制;動(dòng)態(tài)數(shù)據(jù)挖掘;鋼鐵生產(chǎn)過(guò)程 0 引言 生產(chǎn)過(guò)程質(zhì)量控制是利用生產(chǎn)過(guò)程的動(dòng)態(tài)信息進(jìn)行質(zhì)量預(yù)測(cè)和質(zhì)量控制。由于其實(shí)時(shí)性和較高的準(zhǔn)確性,可以預(yù)估質(zhì)量問(wèn)題,從而降低鋼鐵企業(yè)的生產(chǎn)成本和經(jīng)濟(jì)損失。生產(chǎn)過(guò)程質(zhì)量控制的基礎(chǔ)是對(duì)生產(chǎn)過(guò)程的質(zhì)量預(yù)測(cè)。因?yàn)橹挥袑?duì)未來(lái)產(chǎn)品質(zhì)量參數(shù)進(jìn)行估計(jì),才能在產(chǎn)品質(zhì)量發(fā)生問(wèn)題前調(diào)整生產(chǎn)過(guò)程,真正達(dá)到提高產(chǎn)品質(zhì)量的目的。進(jìn)行質(zhì)量預(yù)測(cè)的手段是建立生產(chǎn)過(guò)程的質(zhì)量模型,即以各種決定產(chǎn)品質(zhì)量的變量為輸入,以產(chǎn)品各質(zhì)量指標(biāo)為輸出的數(shù)學(xué)模型。但由于影響因素較多而導(dǎo)致機(jī)理建模困難等原因,質(zhì)量模型的建立比一般用于自動(dòng)控制的對(duì)象建模更為困難。 數(shù)據(jù)挖掘是一類從大量數(shù)據(jù)中自動(dòng)尋找規(guī)律的方法,在過(guò)去20年中得到了大量的研究。數(shù)據(jù)挖掘方法的特點(diǎn)是能從大量的數(shù)據(jù)中自動(dòng)分析并提取未知的、潛在有用的知識(shí),因此可用于復(fù)雜系統(tǒng)的行為建模和行為預(yù)測(cè)。傳統(tǒng)的數(shù)據(jù)挖掘應(yīng)用通常只處理靜態(tài)的數(shù)據(jù),即不包含時(shí)間信息的數(shù)據(jù)。但當(dāng)將數(shù)據(jù)挖掘方法用于建立鋼鐵企業(yè)生產(chǎn)過(guò)程的質(zhì)量模型時(shí),由于傳感器對(duì)生產(chǎn)過(guò)程不斷采樣的原因,獲得的生產(chǎn)歷史數(shù)據(jù)通常都是時(shí)間序列,即歷史數(shù)據(jù)是和時(shí)間相關(guān)的—系列值。因此通常用于處理靜態(tài)數(shù)據(jù)的數(shù)據(jù)挖掘方法不能直接應(yīng)用于鋼鐵企業(yè)生產(chǎn)過(guò)程歷史數(shù)據(jù)的挖掘。 動(dòng)態(tài)數(shù)據(jù)挖掘是從海量時(shí)間序列數(shù)據(jù)中尋找規(guī)律的數(shù)據(jù)挖掘方法。將動(dòng)態(tài)數(shù)據(jù)挖掘方法應(yīng)用于鋼鐵企業(yè)生產(chǎn)過(guò)程質(zhì)量控制時(shí),主要目標(biāo)有兩個(gè):(1)通過(guò)對(duì)鋼鐵生產(chǎn)過(guò)程歷史記錄的數(shù)據(jù)挖掘,建立產(chǎn)品質(zhì)量預(yù)測(cè)模型,并運(yùn)用于生產(chǎn)過(guò)程,進(jìn)行實(shí)時(shí)質(zhì)量預(yù)測(cè);(2)在產(chǎn)品質(zhì)量出現(xiàn)問(wèn)題后,利用對(duì)歷史數(shù)據(jù)的挖掘分析生產(chǎn)工藝對(duì)產(chǎn)品質(zhì)量的影響,找出隱藏的生產(chǎn)規(guī)律,為鋼鐵企業(yè)改進(jìn)工藝提供決策支持。 1 問(wèn)題描述 ![]() 本文所研究的面向質(zhì)量控制的動(dòng)態(tài)數(shù)據(jù)挖掘可表達(dá)為以下兩類問(wèn)題的求解過(guò)程。 ![]() ![]() 2 面向質(zhì)量控制的動(dòng)態(tài)數(shù)據(jù)挖掘方法 2.1 樣本抽取 與靜態(tài)數(shù)據(jù)的挖掘不同,對(duì)多個(gè)時(shí)間序列進(jìn)行動(dòng)態(tài)數(shù)據(jù)挖掘時(shí),需要解決的第1個(gè)問(wèn)題是數(shù)據(jù)的樣本抽取,即將各個(gè)傳感器采樣得到的多個(gè)時(shí)間序列數(shù)據(jù)根據(jù)其時(shí)間、空間上的相關(guān)性以及對(duì)產(chǎn)品質(zhì)量檢驗(yàn)結(jié)果的影響,抽取相應(yīng)的子序列,組成數(shù)據(jù)挖掘的樣本集合。這是因?yàn)閷?duì)某一質(zhì)量指標(biāo)有影響的可能是不同工藝參數(shù)在不同時(shí)間段上的變化情況。 鋼鐵企業(yè)生產(chǎn)過(guò)程可以分為間歇型過(guò)程(如高爐煉鐵過(guò)程)和連續(xù)型過(guò)程(如連續(xù)退火過(guò)程)。間歇型生產(chǎn)過(guò)程的特點(diǎn)是:?jiǎn)闻a(chǎn)品在同一工藝裝置中,一般要經(jīng)歷多個(gè)加工處理時(shí)段,因此通常其各個(gè)操作參數(shù)的設(shè)計(jì)值在生產(chǎn)過(guò)程的不同時(shí)段取不同的值。連續(xù)型生產(chǎn)過(guò)程的特點(diǎn)是:原料連續(xù)經(jīng)過(guò)生產(chǎn)線各工藝裝置處理后成為產(chǎn)品,為了保持生產(chǎn)的連續(xù)性,各工藝裝置操作參數(shù)的設(shè)計(jì)值為定值。由于上述兩類生產(chǎn)過(guò)程的不同特點(diǎn),在進(jìn)行數(shù)據(jù)樣本抽取時(shí)必須采用不同的處理方法。下面分別加以闡述。 2.1.1 間歇型過(guò)程 對(duì)于間歇型生產(chǎn)過(guò)程,由于單批產(chǎn)品的質(zhì)量檢驗(yàn)是在該批產(chǎn)品生產(chǎn)完成后進(jìn)行的,所以可以取單批產(chǎn)品在整個(gè)生產(chǎn)過(guò)程中完整的工藝參數(shù)測(cè)量值時(shí)間序列和質(zhì)量指標(biāo)測(cè)量值時(shí)間序列作為動(dòng)態(tài)數(shù)據(jù)挖掘所需的樣本。 ![]() 2.1.2 連續(xù)型過(guò)程 對(duì)于連續(xù)型生產(chǎn)過(guò)程,因?yàn)椴煌墓に噮?shù)在不同的時(shí)段對(duì)加工的產(chǎn)品質(zhì)量發(fā)生影響,因此應(yīng)將工藝參數(shù)的測(cè)量值時(shí)間序列中,對(duì)某個(gè)質(zhì)量檢驗(yàn)結(jié)果有影響的一段子序列提取出來(lái),和質(zhì)量指標(biāo)測(cè)量值一起組成樣本。 ![]() ![]() 2.2模式提取和評(píng)價(jià) 2.2.1 質(zhì)量不良原因的模式假設(shè) 通常產(chǎn)品質(zhì)量不良的原因可分為兩類,即工藝參數(shù)的設(shè)計(jì)值有錯(cuò)誤;或在生產(chǎn)過(guò)程中工藝參數(shù)未能控制在設(shè)計(jì)值。本文提出的動(dòng)態(tài)數(shù)據(jù)挖掘方法在用于鋼鐵企業(yè)生產(chǎn)過(guò)程質(zhì)量控制時(shí),基于以下關(guān)鍵性假設(shè),即設(shè)產(chǎn)品質(zhì)量不良的原因可以通過(guò)生產(chǎn)過(guò)程中工藝參數(shù)的時(shí)間序列實(shí)測(cè)樣本反映出來(lái)。工藝參數(shù)的時(shí)間序列中某些特征的改變,引起生產(chǎn)質(zhì)量的變化,而這些時(shí)間序列的特征,可以用模式來(lái)描述。 例如,在連鑄生產(chǎn)工藝中,鑄坯拉速不穩(wěn)定時(shí),容易出現(xiàn)縱向裂紋。根據(jù)此先驗(yàn)知識(shí),可以將鑄坯拉速測(cè)量值時(shí)間序列的方差作為影響鑄坯縱向裂紋質(zhì)量事故的一個(gè)模式。為了解鑄坯拉速測(cè)量值時(shí)間序列的方差與鑄坯縱向裂紋質(zhì)量事故之間的定量關(guān)系,可以采用數(shù)據(jù)挖掘方法從海量的鑄坯拉速測(cè)量值生產(chǎn)歷史數(shù)據(jù)中去尋找。 根據(jù)上述質(zhì)量不良原因的模式假設(shè),在進(jìn)行質(zhì)量預(yù)測(cè)模型的建?;蛸|(zhì)量事故原因的分析時(shí),要進(jìn)行時(shí)間序列的模式提取和評(píng)價(jià)。 2.2.2 時(shí)間序列的模式提取和評(píng)價(jià)方法 時(shí)間序列的模式提取是從時(shí)間序列中抽取有價(jià)值的特征模式評(píng)價(jià)指標(biāo)的過(guò)程。在經(jīng)典的時(shí)間序列分析理論中,已給出了一類模式提取的方法:根據(jù)時(shí)間序列建立ARMA模型[3]。該方法把時(shí)間序列空間映射到ARMA模型中的參數(shù)空間,也稱為時(shí)間序列的ARMA特征空間。但是ARMA特征沒(méi)有物理意義,難以根據(jù)它來(lái)改進(jìn)產(chǎn)品質(zhì)量。 為了使模式評(píng)價(jià)指標(biāo)具有物理意義,有三類可供選擇的方法: (1)根據(jù)理論分析和實(shí)際經(jīng)驗(yàn),構(gòu)造與產(chǎn)品質(zhì)量有關(guān)的模式類。例如根據(jù)經(jīng)驗(yàn),冷連軋過(guò)程中帶鋼溫度驟升驟降可能引起斷帶,因此將它作為帶鋼溫度時(shí)間序列的一種模式。 (2)對(duì)于沒(méi)有任何先驗(yàn)知識(shí)的情況,可以窮舉構(gòu)造所有可能的有物理意義的模式。例如時(shí)間序列的均值、方差、******值、最小值、中間值、局部極值出現(xiàn)頻率、單調(diào)性、凹凸性、與標(biāo)準(zhǔn)值的偏差、時(shí)間累計(jì)量等都可以被認(rèn)為是候選的模式。 (3)對(duì)于只有部分先驗(yàn)知識(shí)的情況,可以結(jié)合前兩種方法。 特征模式評(píng)價(jià)指標(biāo)確定后,時(shí)間序列模式評(píng)價(jià)的一般步驟如下: ![]() 從上述過(guò)程可以看出,經(jīng)過(guò)特征模式提取和評(píng)價(jià),已經(jīng)將時(shí)間序列數(shù)據(jù)轉(zhuǎn)換成了不顯含時(shí)間因素的模式評(píng)價(jià)值序列。 2.3數(shù)據(jù)挖掘過(guò)程 綜上所述,對(duì)于生產(chǎn)過(guò)程質(zhì)量控制而言,整個(gè)動(dòng)態(tài)數(shù)據(jù)挖掘過(guò)程,包括根據(jù)生產(chǎn)過(guò)程的性質(zhì)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行樣本抽取、根據(jù)給定的特征模式評(píng)價(jià)指標(biāo)對(duì)時(shí)間序列進(jìn)行特征模式評(píng)價(jià)、根據(jù)質(zhì)量控制的要求建立質(zhì)量預(yù)測(cè)或質(zhì)量關(guān)聯(lián)模型等三個(gè)組成部分。具體步驟總結(jié)如下: (1)確定m個(gè)可測(cè)的產(chǎn)品質(zhì)量指標(biāo); (2)根據(jù)理論分析和實(shí)際經(jīng)驗(yàn),確定可能影響質(zhì)量指標(biāo)的因素。根據(jù)這些因素,確定參加挖掘n個(gè)可測(cè)的工藝參數(shù)以及相應(yīng)的特征模式評(píng)價(jià)指標(biāo)集合; (3)獲取工藝參數(shù)的測(cè)量值時(shí)間序列,并使用第2.1.2節(jié)中介紹的方法對(duì)時(shí)間序列進(jìn)行樣本抽取,得到數(shù)據(jù)挖掘樣本; (4)使用第2.2.2節(jié)中的方法,對(duì)樣本進(jìn)行模式評(píng)價(jià),從而將數(shù)據(jù)樣本轉(zhuǎn)化為模式評(píng)價(jià)樣本; (5)對(duì)于質(zhì)量預(yù)測(cè)問(wèn)題來(lái)說(shuō),使用回歸分析方法建立如式(3)所示的質(zhì)量預(yù)測(cè)模型,對(duì)于質(zhì)量分析問(wèn)題來(lái)說(shuō),使用關(guān)聯(lián)分析方法建立如式(4)所示的質(zhì)量分析模型; (6)使用測(cè)試樣本集對(duì)挖掘結(jié)果進(jìn)行測(cè)試; (7)輸出數(shù)據(jù)挖掘結(jié)果。 3 應(yīng)用實(shí)例 運(yùn)用上述理論與方法,作者在一個(gè)冶金企業(yè)生產(chǎn)質(zhì)量分析數(shù)據(jù)挖掘平臺(tái)DMPlatform上,以某鋼廠1900直弧型板坯連鑄機(jī)生產(chǎn)過(guò)程鑄坯縱裂質(zhì)量控制為背景進(jìn)行了動(dòng)態(tài)數(shù)據(jù)挖掘試驗(yàn)。 定義質(zhì)量指標(biāo)為鑄坯縱向裂紋,考慮的數(shù)據(jù)類型為邏輯值,即只考慮鑄坯樣本有無(wú)縱向裂紋。在生產(chǎn)中通過(guò)切片硫印的方式獲取該質(zhì)量指標(biāo)的檢驗(yàn)值,采樣周期為1h。參與數(shù)據(jù)挖掘的工藝參數(shù)共有24個(gè),最短的采樣周期為5s(如結(jié)晶器循環(huán)冷卻水和二冷段冷卻水的溫度),最長(zhǎng)的采樣周期為1min(如鑄坯表面溫度)。根據(jù)已知的連鑄理論和經(jīng)驗(yàn)知識(shí),如:錳硫比增大或者硫含量降低時(shí)裂紋減少,拉速越不穩(wěn)定越容易出現(xiàn)縱向裂紋等,確定了對(duì)各個(gè)工藝參數(shù)時(shí)間序列需要提取的具有物理意義的模式。 連鑄是連續(xù)型生產(chǎn)過(guò)程,采用第2.1.2節(jié)中的方法從生產(chǎn)歷史數(shù)據(jù)中抽取樣本,共采集了60批鑄坯的生產(chǎn)歷史記錄,每批數(shù)據(jù)記錄的時(shí)間跨度為鑄坯切片質(zhì)量硫印檢驗(yàn)前1h。因此24個(gè)工藝參數(shù)時(shí)間序列的******長(zhǎng)度為43 200個(gè)采樣數(shù)據(jù),總數(shù)據(jù)量約為200萬(wàn)個(gè)數(shù)據(jù)。然后對(duì)原始數(shù)據(jù)進(jìn)行去除野值、數(shù)據(jù)平滑等預(yù)處理,接著根據(jù)表1對(duì)每批數(shù)據(jù)提取特征模式,最后得到60個(gè)樣本。我們將前40個(gè)樣本作為訓(xùn)練集,利用樸素Bayes分類建立質(zhì)量預(yù)測(cè)模型。將后20個(gè)樣本作為測(cè)試集,對(duì)獲得的連鑄鑄坯質(zhì)量預(yù)測(cè)模型進(jìn)行了檢驗(yàn)。表2為預(yù)測(cè)結(jié)果。 可見(jiàn)只有No8和No20兩個(gè)預(yù)測(cè)值和實(shí)際值不符合,預(yù)測(cè)成功率為90%。由于連鑄板坯縱裂的形成原因非常復(fù)雜,根據(jù)經(jīng)驗(yàn)很難預(yù)測(cè)和控制,因此90%的質(zhì)量預(yù)測(cè)精度對(duì)于鑄坯質(zhì)量控制有很大的幫助。 |