知識是“大”數(shù)據(jù)背后的 “小”
“大數(shù)據(jù)時代”無疑是目前最為流行的詞語之一,一大堆關于大數(shù)據(jù)的科普和專業(yè)的書如雨后春筍一般涌現(xiàn)出來,你無法拒絕它的誘惑,總想弄清楚它到底在說什么,總在擔心大數(shù)據(jù)會把我們帶到什么樣的一個不可預知的未來。然而,大數(shù)據(jù)只描述了數(shù)據(jù)的規(guī)模大,是一種對現(xiàn)在信息爆炸時代的表象認識,并沒有深入到信息時代發(fā)展的本質層面,因此,大家都在等待一個新的時代的出現(xiàn)。
這個時代就是在DIKW(Data-Information-Knowledge-Wisdom)概念中界定的K的時 代,知識的時代。知識正是大數(shù)據(jù)之“大”背后的那個“小”。比如第谷測了一輩子的行星運動軌跡,記錄的數(shù)據(jù)汗牛塞屋,后來他的學生開普勒又花了將近一輩子 的時間整理出了三大定律,這個大數(shù)據(jù)終于變得小了一點,到了牛頓時代,一個簡單的平方反比的萬有引力定律,就把所有一屋的大數(shù)據(jù)的內容全說透了。

古希臘先哲巴門尼德
約公元前515年至前5世紀中葉以后開創(chuàng)了知識論的法門
雖然知識的概念出現(xiàn)很早,但到底什么是知識呢?在科學上要清晰的定義非常難,現(xiàn)在也做不到。但其中有一種解釋,我很贊同,即知識是信息之間的關聯(lián)。關聯(lián)代表著新物質和新性質的產(chǎn)生,而不是靜態(tài)的兩個物體機械地擺在一起。比如H原子和O原子關聯(lián)在一起,產(chǎn)生的不是2個原子物理上挨得很近這么簡單,而是產(chǎn)生了一種叫H2O的新物質,它擁有它的母體、它的前輩所沒有的液態(tài)流動的性質,因為有了這個物質,孕育了所有的生命,造就了地球這個生機盎然的大千世界。
在知識挖掘中常舉的啤酒和尿布的例子,講的就是通過關聯(lián)獲得知識的例子。啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物,這就是“啤酒與尿布”故事的由來。
啤酒和尿布放在一起,代表了一種精巧的知識結構,是一種高級的人類智力活動的結果。發(fā)現(xiàn)關聯(lián)就是發(fā)現(xiàn)知識,就是發(fā)現(xiàn)新物質、發(fā)現(xiàn)新性質,就是發(fā)現(xiàn)新的運營模式,就是發(fā)現(xiàn)人們未知的新世界,隨著關聯(lián)規(guī)模和深度的增加,也就擴大了人類認識世界和認識自己的能力,從而也就擴展了人類的生存能力和把握未來的能力。
大數(shù)據(jù)的根本目標就是要像挖掘萬有引力定律一樣,挖掘數(shù)據(jù)背后的規(guī)律,讓數(shù)據(jù)由大變小,從而為我所用,創(chuàng)造出更多的經(jīng)濟、社會和科學價值。因此,我們認為知識時代才是抓住時代發(fā)展本質的描述,而所有技術層面的新生事物,都是實現(xiàn)這個時代目標的物質和技術基礎,比如搜索技術是信息時代的技術基礎,網(wǎng)絡是信息時代的物質基礎。在新的知識時代,大數(shù)據(jù)和相應的挖掘技術是技術基礎,而數(shù)據(jù)倉庫和高速網(wǎng)絡、智能終端等是物質基礎。知識工程是實現(xiàn)知識挖掘的系統(tǒng)工程,是突破人類認識能力的局限,從“大數(shù)據(jù)時代”走向“知識時代”的基礎之一。
知識工程,企業(yè)基因工程
所謂知識工程,本質上就是建立企業(yè)的基因工程,即構建企業(yè)“天生的”學習和適應能力。
首先,讓我們先從自然界看看基因的偉大之處。2012年11月14日凌晨,8歲的“那仁”登上Nature雜志官方網(wǎng)站的首頁頭條新聞。這頭來自蒙古國阿爾泰省自然保護區(qū)的雄性野駱駝,成為世界上首個向全球展示雙峰駝全基因組序列圖譜的野生駱駝。野駱駝是世界上惟一能靠喝鹽水生存的動物。它能在極其嚴酷的環(huán)境中生存下來,正是由于其背后的遺傳秘密。“野駱駝奔跑起來時速可達80公里,在遇到危險時,能連續(xù)奔跑兩三天。它們機警而膽怯,視覺、聽覺、嗅覺相當靈敏,順風時可以嗅到數(shù)公里甚至幾十公里外的氣味,判斷出很遠地方的水源。它們可以在遇到沙暴之前,隨時關閉鼻孔而不影響呼吸,來不及躲避就會平躺在地上避風。它們還會在風暴過后,用淚水沖洗沙塵以保護眼睛”。這就是這種“天生的適應能力”。

蒙古國阿爾泰省自然保護區(qū)的雄性野駱駝
再來看另一個動物——狼。狼是生物系統(tǒng)中最有智慧的動物之一。CCTV曾報道,四川一位畫家收養(yǎng)了一只小狼,養(yǎng)到3個月大的時候要放歸草原,必須鍛煉它捕殺羊的能力,羊很高大根本不理會狼的挑釁,狼很快就發(fā)現(xiàn)了羊和羊脖子上的羊繩的關系,就咬著羊繩想把羊拉出來,無奈力小拉不動,人們就拿個牛頭把羊嚇了出來,狼很快就學會了這一點。只看了一次就知道了牛頭和羊的關系,真的是聰明絕倫,難怪狼群可以不被馴服卻照樣活了下來。在技術層面,狼的聰明就在于它能很快發(fā)現(xiàn)事物之間的關聯(lián),并且充分利用這樣的關聯(lián)改變自己的行為,這是多么智慧的生靈,當然是一個有知識的行為。

狼-生物系統(tǒng)中最有智慧的動物之一
建立企業(yè)生存和發(fā)展的根基,就是要建立一種適應環(huán)境的能力和學習能力,而員工只是表現(xiàn)這種企業(yè)所有員工共有的這種企業(yè)基因的一個載體。這樣,在環(huán)境相同的時候,所有員工的表現(xiàn)基本一致,實現(xiàn)了企業(yè)行為的穩(wěn)定性和規(guī)范性,同時又具備了在變化環(huán)境下能發(fā)現(xiàn)事物之間關聯(lián)的知識發(fā)現(xiàn)的能力,由此建立企業(yè)穩(wěn)定發(fā)展的基礎。這里的關鍵是,如何實現(xiàn)在企業(yè)擁有員工之前就先擁有能力,如何承載這個能力呢?只有一個辦法,這就是必須建立一個軟件平臺,把已有的對象、以及發(fā)現(xiàn)對象之間關聯(lián)的能力,都根植在這個軟件平臺上。首先是企業(yè)的內部知識的梳理,最后進化到整個web網(wǎng)絡,整個社會由此進入到知識時代。
(北京億維訊科技有限公司譚培波)