污水處理的大數(shù)據(jù),在小編看來,至今依然是個曲高寡和的小眾細分領(lǐng)域。想組織一個水處理的儀表自動化的國際大會也不是一件容易的事情,因為很難吸引到學術(shù)界以外的“真操實干”的既參與運營又涉足數(shù)據(jù)分析的人來參加。
今年的ICA大會2017的組織者就決定嘗試通過參與者的組織類型和應(yīng)用領(lǐng)域來設(shè)定討論話題。不過小編沒有參加這場會議,所以不知道效果如何。但因為在Twitter上偶遇這次會議的最佳poster得獎?wù)叩男畔?,所以小編在本周的“學術(shù)星期四”專欄與讀者分享一下這篇報告的統(tǒng)計結(jié)果。
ICA2017 | 圖源:www.ica2017.org
奧尼卡水處理創(chuàng)新部落
污水廠監(jiān)測方法回顧
本屆ICA大會在加拿大的魁北克市舉行,話說2021年的大會將移師北京,搞污水數(shù)據(jù)分析的盆友們有4年時間好好準備了。
魁北克市 | 圖源:canada-visa-eta.com
小編想要分享的這篇報告的題目叫“Turning passive data into knowledge - a review of wastewater treatment monitoring techniques”——將被動數(shù)據(jù)轉(zhuǎn)化成知識,關(guān)于污水處理監(jiān)測技術(shù)的綜述。署名作者包括了西班牙、美國、瑞士和瑞典四國國家的研究員和學者,其中包括了行內(nèi)大數(shù)據(jù)專家,我們奧氏部落之前也介紹過的瑞典隆德大學的榮譽教授Gustaf Olsson。這篇文章的第一作者是來自西班牙西班牙加泰羅尼亞水研究所的博士后研究員Lluis Corominas,也是這次大會的最佳墻報獲得者。
Lluis Corominas
根據(jù)ResearchGate的統(tǒng)計,他參與的項目基本都跟污水處理的數(shù)據(jù)分析相關(guān),包括了建模范例、污水處理數(shù)據(jù)收集的數(shù)據(jù)質(zhì)量、污水處理與LCA生命周期分析等。
事不宜遲,我們馬上來看看Corominas博士這篇綜述文章都有什么高見。
研究動機
污水廠的自動化與控制有賴于儀表傳感器產(chǎn)生的信號。要實現(xiàn)污水處理廠更高效的運行,需要有人對這些原始數(shù)據(jù)進行得當?shù)奶幚砗头治?。遺憾的是“說時容易做時難”,實際要對這些數(shù)據(jù)進行分析需要花費大量的金錢和時間的前期投入的,很多潛在的寶貴信息都還處于有待發(fā)掘的狀態(tài)。如何才能改變這個局面呢?這應(yīng)該正是Corominas博士寫這篇綜述的初衷所在——希望通過這篇綜述來幫助污水廠管理者和軟件程序開發(fā)員識別成熟和經(jīng)過驗證的技術(shù),并應(yīng)用到污水處理的實際生產(chǎn)。
選擇的方法
作者把污水處理的數(shù)據(jù)分析分為四個等級:
- 低級數(shù)據(jù)核對 (用于數(shù)據(jù)噪聲、延遲和通訊故障的處理,識別缺失和異常數(shù)據(jù),基于工藝知識和經(jīng)驗對數(shù)據(jù)的一致性和合理性進行檢查)
- 基礎(chǔ)信息提取 (剔除較大的測量偏差,包括過失偏差和隨機偏差,做數(shù)據(jù)校正)
- 高級信息提取 (對收集數(shù)據(jù)集的主要變量來源作可視化處理,識別運行正常和異常的時間段,對無法在線測量的變量進行預(yù)測,通過可視化圖評估工藝狀態(tài))
- 人為解釋信息提取和知識管理(為運行人員日常遇到的問題提供支持,將已有經(jīng)驗結(jié)構(gòu)化、基于案例和趨勢的論證)
統(tǒng)計的計算機算法包括:
控制圖
物料平衡
回歸模型(包括多線性和偏最小二乘法PLS)
自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)
主成分分析(PCA)
獨立成分分析(ICA)
人工神經(jīng)網(wǎng)絡(luò) (ANNs)
聚類分析、模糊分析
支持向量機(SVMs)
識別數(shù)據(jù)系列中的定性特征的算法
除此以外,環(huán)境決策支持系統(tǒng)(EDSS) 和知識管理 (ontologies) 也包括在內(nèi),但關(guān)于機器學習的算法不在考慮范圍內(nèi)。作者另外給推薦大家閱讀以下文章做拓展閱讀:
Do machine learning methods used in data mining enhance the potential of decision support systems? A review for the urban water sector
將數(shù)據(jù)挖掘的機器學習和我們城市水務(wù)部門的決策分析拉到一起來講的文章目前還為數(shù)不多,所以還是值得借鑒閱讀的。
評估統(tǒng)計
他們對所有跟上述四種數(shù)據(jù)處理類型最為相關(guān)的方法/工具進行統(tǒng)計。具體手段是用SCOPUS的數(shù)據(jù)庫進行技術(shù)名稱以及相關(guān)變量的關(guān)鍵詞搜索,每個搜索都加上關(guān)鍵詞“污水處理”。搜索范圍是2015年以前發(fā)表的論文報告。
他們一共得到了340篇papers的搜索結(jié)果。這些文章里大部分都討論了人工神經(jīng)網(wǎng)絡(luò) (20%), 主成分分析 (13%) 和 模糊分析 (12%).
結(jié)果
領(lǐng)先群體
他們的統(tǒng)計數(shù)據(jù)顯示,歐洲是這個領(lǐng)域的領(lǐng)跑者。來自歐洲的機構(gòu)和學者在這些文章的出現(xiàn)率達61%,然后是亞洲-大洋洲(34%),北美是12%,南美和非洲地區(qū)僅占不到4%。
就每個單項算法而言,歐洲的貢獻率都是最大的。亞洲-大洋洲主要貢獻于 ANN (38 篇)、模糊分析 (17篇)和 PCA (20篇)。其中有37篇文章是不同地區(qū)的跨區(qū)合作成果,占總數(shù)的12%左右。
圖1.每項技術(shù)每年的引用數(shù)
引用趨勢
上圖展示的是這些文章里每個算法/工具每年的引用次數(shù)總和。大家能從圖中看到其中一些方法和工具的引用情況在過去幾年里呈現(xiàn)出穩(wěn)定增加的趨勢。其中ANN 和 PCA 的增幅最大(2010年后的引用數(shù)都超過200),然后是模糊分析、聚類分析、獨立成分分析ICA和偏最小二乘法回歸分析 PLS(2010年后的引用數(shù)在10左右)。
作者認為,污水處理廠應(yīng)用這些技術(shù)來改善工藝表現(xiàn)可能是這些數(shù)據(jù)增長的幕后推動力??刂茍D和物料平衡分析的每年引用數(shù)較少(<50次),作者認為這是因為這方面的公開數(shù)據(jù)本身就比較有限。
知識管理方法論的論文(決策樹、規(guī)則歸納、ontologies)獲得引用最少(<20次),而且在統(tǒng)計年限里沒有增長跡象。作者推測可能是因為這方面的算法的應(yīng)用范圍就很窄很有針對性,或者他們的潛力還沒有得到挖掘。
Papers在科學家眼中的受歡迎度
哪個算法應(yīng)用率最高呢?他們用引用總數(shù)和papers數(shù)的比值做統(tǒng)計,結(jié)果發(fā)現(xiàn)獨立成分分析ICA的引用率是最高的(63), 然后是 SVM (51)、PCA 和CBR (38)。大部分其他算法的數(shù)值都在20到40之間,除了控制圖和物料平衡分析低于20。作者認為這跟算法的“新舊”程度有關(guān)。
實踐應(yīng)用情況
遺憾的是,統(tǒng)計結(jié)果顯示這些算法大多還是學術(shù)界的人在鉆研,只有9%的文章清楚提及到把這些算法用于工程實踐(例如實時控制器)。但依然很難確認究竟哪些方法用到了實踐中,因此這些數(shù)據(jù)往往沒納入科學文獻數(shù)據(jù)庫,這需要針對每個商業(yè)產(chǎn)品進行定位搜索。 作者最后對人為解釋信息提取這類數(shù)據(jù)處理的限制因素進行了推斷,包括了:
i) 缺少驗證方法
ii) 缺少操作準則
iii) 統(tǒng)計分析和工程應(yīng)用的代溝
iv) 教育課程滯后
v) 缺少合適知識總結(jié)和管理
結(jié)論
西班牙博士Corominas先生的這篇綜述告訴了我們,目前歐洲在污水處理的大數(shù)據(jù)分析方面,就單單從研究數(shù)量而言,是領(lǐng)先全球的,遺憾的是他沒有對這些papers的質(zhì)做一個衡量分析。同樣,雖然他總結(jié)了人工神經(jīng)網(wǎng)絡(luò)、主成分分析、模糊分析是目前熱門的計算機算法,但卻沒有對背后的原因作更進一步的推斷解釋。
作者也承認,他們希望他們這個非常初步性的評估能作為一個討論的起點,讓更多水處理行業(yè)的朋友關(guān)注這個細分領(lǐng)域的發(fā)展,投入到其中的培訓和學習中來。這一點小編也是非常贊成的,小編期望有更多的污水廠安裝實時監(jiān)測系統(tǒng),并把這些寶貴的被動數(shù)據(jù)變成可靠及時的信息來源,為提高污水廠運行管理效率做出貢獻。
ICA 2017大會的討論內(nèi)容
來源:奧尼卡水處理創(chuàng)新部落
特此聲明:
1. 本網(wǎng)轉(zhuǎn)載并注明自其他來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。
2. 請文章來源方確保投稿文章內(nèi)容及其附屬圖片無版權(quán)爭議問題,如發(fā)生涉及內(nèi)容、版權(quán)等問題,文章來源方自負相關(guān)法律責任。
3. 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日內(nèi)起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)益。