
按語(yǔ):上周受邀參加了湖北省公安廳舉辦的公安大數(shù)據(jù)論壇,之前并沒(méi)有把上臺(tái)演講當(dāng)回多大的事,因?yàn)檫@些年講的也不算少了,說(shuō)來(lái)說(shuō)去也就那么回事了,所以,就準(zhǔn)備拿過(guò)去一篇公開(kāi)發(fā)表的論文稍微改改,上臺(tái)糊著講講也就算了。但是,在臨講的前一天,獲知有很多基層具體干事的兄弟來(lái)聽(tīng)(第二天都要參加一個(gè)全省的數(shù)據(jù)管理員培訓(xùn)班),覺(jué)得講些大路貨給他們聽(tīng)有點(diǎn)過(guò)意不去,因此就謝絕了晚上的一些應(yīng)酬安排,一個(gè)人呆在房間好好的把公安行業(yè)大數(shù)據(jù)這些年的過(guò)往想了想,本來(lái)按照套路應(yīng)該是先寫(xiě)個(gè)講稿再畫(huà)個(gè)PPT的,但是因?yàn)闀r(shí)間關(guān)系,也算是想有一個(gè)新的嘗試吧,就直接做了史上最短的六頁(yè)P(yáng)PT(一頁(yè)封面,一頁(yè)目錄,一頁(yè)封底,真正的內(nèi)容只有三頁(yè)),第二天講了二十多分鐘吧,反應(yīng)似乎還不錯(cuò),近些日子已經(jīng)有幾個(gè)兄弟說(shuō)能不能把講稿共享出來(lái),其實(shí)真沒(méi)有現(xiàn)成的講稿,只能靠回憶略微整理下。當(dāng)日演講內(nèi)容大致如下:
……非常榮幸有機(jī)會(huì)參加這個(gè)論壇,并上臺(tái)和大家分享我的一些做法和想法。前面已經(jīng)有幾位專家都講了大數(shù)據(jù)的技術(shù),還有一些解決方案,但我今天不想和大家談技術(shù),因?yàn)楣泊髷?shù)據(jù)應(yīng)用,肯定是一些成熟技術(shù)在這一行業(yè)的應(yīng)用,如果需要進(jìn)行底層技術(shù)的革新,就公安行業(yè)目前現(xiàn)狀肯定是玩不了這個(gè),剛剛小艾跟我聊天說(shuō)了一句很經(jīng)典的話:每一次公安行業(yè)的革新都是起源于技術(shù),寄希望單靠技術(shù)就能夠把工作翻個(gè)身,但是,最后的結(jié)果往往也是死于技術(shù),或者說(shuō)被所謂的技術(shù)給玩死了。因此,所以我們對(duì)此一定要很清醒,很冷靜。所以我為今天的演講定了一個(gè)題:大數(shù)據(jù)的“冷思考”?為何要說(shuō)冷思考,因?yàn)榇髷?shù)據(jù)這段時(shí)間已經(jīng)熱到了極點(diǎn),但是,炒概念的要遠(yuǎn)遠(yuǎn)多于落地能發(fā)揮實(shí)際作用的,因此,我們是不是要冷靜一點(diǎn),看看大數(shù)據(jù)到底能給我們帶來(lái)什么?今天主要跟大家交流三個(gè)方面的內(nèi)容:
一是對(duì)近些年本人參與的所謂的“大數(shù)據(jù)”的實(shí)踐進(jìn)行一個(gè)簡(jiǎn)要回顧;
二是談?wù)勎已劾锏拇髷?shù)據(jù)現(xiàn)狀;
三是針對(duì)公安行業(yè)交流一些發(fā)展方向的思考。
首先,回顧一下自己這些年所謂的“大數(shù)據(jù)”歷程。
為什么叫“所謂”,因?yàn)槲易约盒睦锖芮宄瑥?011年開(kāi)始從12億的車輛卡口數(shù)據(jù)中排查“套牌車”,到目前在想用算法來(lái)計(jì)算某類犯罪的發(fā)展趨勢(shì),所接觸的,所使用的數(shù)據(jù)準(zhǔn)確點(diǎn)講應(yīng)該是“動(dòng)態(tài)的海量結(jié)構(gòu)化數(shù)據(jù)”。至少跟我心目中“大數(shù)據(jù)”還有很大的差距。為什么要做這樣一個(gè)回顧,說(shuō)白了,怕大家認(rèn)為我是個(gè)光說(shuō)不練的江湖騙子(此處有掌聲)。
第一個(gè)案例,套牌車排查。就是在12億的卡口數(shù)據(jù)中找出了三百四十五個(gè)車牌,這些車牌符合一個(gè)特征,五分鐘之內(nèi)在相距十公里以上的卡口被電子警察都拍到了。這是我第一次用HADOOP來(lái)進(jìn)行數(shù)據(jù)預(yù)處理和分析,是在2011年初。
第二個(gè)案例,住宿登記。是在2012年的夏天,我忽然想看一看,壞人們登記住旅館有沒(méi)有規(guī)律,因此我找來(lái)了在押人員數(shù)據(jù),匯聚了大約5個(gè)多億的旅館數(shù)據(jù),同樣用了“HADOOP+ORCLE”的套路,發(fā)現(xiàn)有盜竊前科的壞人都喜歡在半夜2點(diǎn)和凌晨六七點(diǎn)去開(kāi)房,而且是19歲到23歲為主,還更傾向于床位數(shù)在50個(gè)以下的中低檔旅館,等等。
第三個(gè)案例,是特殊人員的監(jiān)控。同樣是通過(guò)車輛軌跡,判斷人員的相應(yīng)狀態(tài),因?yàn)檫@個(gè)話題比較敏感,就不詳細(xì)跟大家闡述了。
第四個(gè)案例,我把它成為“流竄車”排查,簡(jiǎn)單講就是基于存儲(chǔ)在異地的海量數(shù)據(jù),進(jìn)行分布式的交叉比對(duì),目標(biāo)是找出發(fā)案前后1小時(shí)在A市活動(dòng)的車輛,同時(shí)在4小時(shí)前后該車又在B、C等市活動(dòng),如果這些車輛的涉車人員為此類案件前科,那流竄犯罪的概率就相當(dāng)大了。
以上就是前期做的一些工作,其實(shí)回顧起來(lái)也沒(méi)有什么感到很特別值得驕傲的,如果說(shuō)這些年我們參與大數(shù)據(jù)這項(xiàng)工作還有那么一點(diǎn)點(diǎn)驕傲的話,那就是在這個(gè)過(guò)程中,包括一些爭(zhēng)論中,我們逐步形成的一些行業(yè)大數(shù)據(jù)應(yīng)用的思路、理念,甚至一些看起來(lái)都有點(diǎn)不著邊際的想法。
其次,談?wù)勎已壑械默F(xiàn)狀
本人比較喜歡古詩(shī),最近經(jīng)常和我兒子一起背唐詩(shī),我就用四句古詩(shī)來(lái)形容一下我們所面臨的現(xiàn)狀:
第一句,天街小雨潤(rùn)如酥,草色遙看近卻無(wú)。這是我用來(lái)形容目前的大數(shù)據(jù)的整個(gè)大環(huán)境的,“天街”是什么?是京城!京城的小雨非常滋潤(rùn)對(duì)不對(duì),非常美麗,國(guó)家出臺(tái)的大數(shù)據(jù)發(fā)展綱要,各個(gè)部委辦局都很積極,昨天在飛機(jī)上還在拜讀環(huán)保部的大數(shù)據(jù)方案,但是,這些只能遠(yuǎn)觀不能褻玩,落到地面,落到基層,卻只能是“近卻無(wú)”,為什么?缺少具體的實(shí)施方案,缺少具體的落地案例,應(yīng)用層沒(méi)有享受到大數(shù)據(jù)能帶來(lái)什么好處,只是聽(tīng)到一片關(guān)于大數(shù)據(jù)的呼聲。最近微信圈了都在轉(zhuǎn)一篇文章,發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,要“應(yīng)用為先”,這是李國(guó)杰院士寫(xiě)的,大家想一想,只要是搞IT,搞軟件的都知道,我們要以應(yīng)用需求為導(dǎo)向,這是個(gè)搞軟件最基本常識(shí),但是這個(gè)常識(shí)現(xiàn)在需要一個(gè)院士來(lái)呼吁,可想我們的面臨的現(xiàn)狀有多么尷尬。
第二句。白發(fā)三千丈,緣愁似個(gè)長(zhǎng)。這是我用來(lái)形容公安行業(yè)的,三千丈很長(zhǎng)很長(zhǎng),詩(shī)人用了夸張的手法,公安行業(yè)的數(shù)據(jù)也在用這個(gè)手法,經(jīng)常看到一個(gè)地市的匯報(bào)材料就在說(shuō),我們有兩百多億條數(shù)據(jù),甚至可以精確到個(gè)位,且不論到底有沒(méi)有這么多數(shù)據(jù),你先能不能告訴我這個(gè)Oracle 11g的OCP,你是用什么方法把數(shù)據(jù)的條數(shù)最后累加到百億量級(jí)的,還是過(guò)一段時(shí)間加一點(diǎn)來(lái)估算估算的(此處有笑聲)。所以,公安行業(yè)的數(shù)據(jù)現(xiàn)狀并不是非常的樂(lè)觀,所以我會(huì)看到一些有見(jiàn)識(shí)的領(lǐng)導(dǎo)在發(fā)愁,號(hào)稱是坐在數(shù)據(jù)金礦上,但是心底還是緣愁似個(gè)長(zhǎng)。
第三句。我本將心向明月,奈何明月照溝渠。這是一句很有意思的詩(shī),念到這首詩(shī)我就會(huì)想起《天下無(wú)賊》的那個(gè)橋段。這句是用來(lái)形容目前公安行業(yè)的數(shù)據(jù)管理現(xiàn)狀的,我們經(jīng)常講,信息化是三分建設(shè),七分應(yīng)用,十分管理,十二分的數(shù)據(jù)質(zhì)量。這句話就是跟后兩者有關(guān)系,上級(jí)管理部門(mén)的出發(fā)點(diǎn)肯定都是好的,建系統(tǒng),推應(yīng)用,推不動(dòng)怎么辦?最有用的一招就是出臺(tái)考核辦法,不考核大家不干,但是一考核大家就開(kāi)始亂干,目前公安機(jī)關(guān)的可信的數(shù)據(jù)有多少,我經(jīng)常會(huì)舉起一只手,非常夸張的說(shuō),不超過(guò)一只手,110報(bào)警是真的,這是老百姓打過(guò)來(lái)的,在押人員是真的,這個(gè)作假自己是也要被關(guān)進(jìn)去的,還有多少數(shù)據(jù)時(shí)真實(shí)的,我們的巡邏盤(pán)查數(shù)據(jù)真實(shí)嗎?暫住人口數(shù)據(jù)能反應(yīng)真的暫口情況嗎?還有案件數(shù)據(jù)能說(shuō)明社會(huì)面發(fā)案情況嗎?不能!所以說(shuō),明月最后大部分都照到溝渠里去了。
第四句,竹外桃花三兩枝,春江水暖鴨先知。前面三句把面臨的形勢(shì)說(shuō)的都很悲觀,第四句要漲漲士氣,在大數(shù)據(jù)應(yīng)用的方向,我們很多地方已經(jīng)開(kāi)始了積極探索的步伐,像部里的云搜索,還有那個(gè)國(guó)家啥平臺(tái),包括一些省廳,市局,都已經(jīng)在開(kāi)始試水大數(shù)據(jù)應(yīng)用,在所有的這些探索中,我最關(guān)心的就是打擊違法犯罪這一方向,群眾看公安,關(guān)鍵看破案,公安信息化,公安大數(shù)據(jù),首要是要解決破案問(wèn)題,連壞人都不去搞,都搞不定,天天喊互聯(lián)網(wǎng)+有什么用,天天喊為民服務(wù)有什么用,那是本末倒置。所以,從前面我試水的幾個(gè)案例看,也是在朝著打擊違法犯罪的方向去發(fā)展,這一切都在表明,公安行業(yè)的大數(shù)據(jù)春天已經(jīng)來(lái)臨。但是這個(gè)春天不是我們坐等能等來(lái)的,需要一批人去思考,去探索,就像劉禹錫那句詩(shī),千淘萬(wàn)漉雖辛苦,吹盡狂沙始到金……
最后,關(guān)于下一步發(fā)展方向的思考
第一,以應(yīng)用為導(dǎo)向。我們行業(yè)的大數(shù)據(jù)應(yīng)用不是搞底層研發(fā),是要解決實(shí)際問(wèn)題,大數(shù)據(jù)在公安行業(yè)現(xiàn)實(shí)的應(yīng)用場(chǎng)景到底有哪些,這是我們要好好思考的問(wèn)題。我結(jié)合前期實(shí)踐認(rèn)為,至少目前三個(gè)方向是可行的,一是規(guī)律總結(jié),二是人物刻畫(huà),三是趨勢(shì)預(yù)判。這個(gè)分類可能不是很合理,可能是有交叉的地方,但是,這三個(gè)方面是具備實(shí)踐條件的(具體案例略)
第二,關(guān)于數(shù)據(jù)以及來(lái)源問(wèn)題。這個(gè)問(wèn)題非常關(guān)鍵,大數(shù)據(jù)沒(méi)有可信的數(shù)據(jù)支撐,就會(huì)精確誤導(dǎo),靠考核,靠層級(jí)壓迫,靠搞大規(guī)模會(huì)戰(zhàn)去搞數(shù)據(jù),顯然是不能滿足大數(shù)據(jù)應(yīng)用的需要的,目前我們具備大數(shù)據(jù)的特征的數(shù)據(jù)有:
1、“人車物”軌跡,時(shí)間、空間與實(shí)體形成動(dòng)態(tài)軌跡,是一項(xiàng)很好的大數(shù)據(jù)源頭;
2、行為日志,這個(gè)與系統(tǒng)日志,數(shù)據(jù)庫(kù)日志有相同之處,但又不完全相同,舉個(gè)例子,我最近做了個(gè)基于手機(jī)的考試系統(tǒng),十道題,是可以自己在家做的,因此所有人交上來(lái)都是滿分,但是,我記錄了兩道題之間的時(shí)間,結(jié)果我發(fā)現(xiàn)第三題有80%的人都等待了一分鐘以上,而其余的題點(diǎn)的都很快,雖然所有的人第三題結(jié)果都是對(duì)的,但是我告訴負(fù)責(zé)培訓(xùn)的同志,第三題是薄弱環(huán)節(jié),很多人需要強(qiáng)化這方面的知識(shí)培訓(xùn)。這就是行為日志的作用。
3、音視頻,這個(gè)就不用多說(shuō)了。
4、傳感器,沒(méi)有傳感器的大規(guī)模應(yīng)用,就不要談啥大數(shù)據(jù),這是我很久以前就說(shuō)的觀點(diǎn)。
5、社會(huì)民眾參與。這一點(diǎn)很多人都沒(méi)有覺(jué)醒過(guò)來(lái),公安行業(yè)玩大數(shù)據(jù),不能光靠自己的力量,要學(xué)會(huì)打人民群眾的汪洋大海戰(zhàn)爭(zhēng),找到社會(huì)公眾、包括其他單位部門(mén)的利益驅(qū)動(dòng)點(diǎn),發(fā)動(dòng)大家來(lái)參與,圍繞數(shù)據(jù)做文章,特別是學(xué)會(huì)跨領(lǐng)域使用數(shù)據(jù)。(幾個(gè)案例略),關(guān)于大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來(lái)源問(wèn)題,我還是用一句詩(shī)來(lái)形容吧,大數(shù)據(jù)背景下的數(shù)據(jù),都是那種“隨風(fēng)潛入夜,潤(rùn)物細(xì)無(wú)聲”
第三,關(guān)于智庫(kù)的共建與共享。找公眾過(guò)程中,大家都會(huì)產(chǎn)生一些創(chuàng)意,我們要把這些創(chuàng)意集中以來(lái)建庫(kù)管理,要進(jìn)行歸類、分析、優(yōu)化、整合,最終形成大數(shù)據(jù)應(yīng)用的一個(gè)知識(shí)庫(kù)(智庫(kù)),這個(gè)知識(shí)庫(kù)是開(kāi)放式的,是可以去共享,大家可以去評(píng)價(jià),去推薦的。(案例略)
第四、關(guān)于工具手段支撐。最關(guān)鍵的幾個(gè),簡(jiǎn)單算法在公安行業(yè)的落地,所謂的大數(shù)據(jù)應(yīng)用一定是無(wú)數(shù)的數(shù)據(jù)加簡(jiǎn)單的算法,這是一個(gè)目前已經(jīng)證實(shí)的可行套路,大數(shù)據(jù)應(yīng)用在業(yè)務(wù)邏輯層面不要去想的太復(fù)雜。基于大數(shù)據(jù)的建模工具,這個(gè)就不多說(shuō)了,我也一直在搞這個(gè)事情,其中重點(diǎn)包括數(shù)據(jù)資源組織與預(yù)處理、分布式計(jì)算、流式計(jì)算等內(nèi)容。還有就是模型的標(biāo)準(zhǔn)化,這個(gè)也不是一句話兩句話能講清楚的,大致意思就是大數(shù)據(jù)的模型一定要做到可復(fù)制,可擴(kuò)展,可移植,這樣才有應(yīng)用的生命力。
最后,強(qiáng)調(diào)一下整體的數(shù)據(jù)管理架構(gòu)。由于時(shí)間關(guān)系,也不展開(kāi)說(shuō)了,我眼中的大數(shù)據(jù)應(yīng)用的整體架構(gòu),應(yīng)該是一個(gè)“混搭”型模式,從最底層的,數(shù)量最多的非結(jié)構(gòu)化數(shù)據(jù),到中間層的半結(jié)構(gòu)化數(shù)據(jù),再到頂層的結(jié)構(gòu)化數(shù)據(jù),分別有不同的工具、不同的方式來(lái)處理。但一條主線就是努力使更多的非結(jié)構(gòu)化數(shù)據(jù)往結(jié)構(gòu)化數(shù)據(jù)的方向走,這也是人類社會(huì)依托計(jì)算機(jī)這一工具來(lái)認(rèn)識(shí)世界、理解世界的一條必由之途。
最后,用我和業(yè)界一位大哥級(jí)人物的對(duì)話結(jié)束今天的分享。這位大哥說(shuō):當(dāng)哪一天公安行業(yè)不談到大數(shù)據(jù)的“大”字時(shí),這個(gè)行業(yè)就真正理解了大數(shù)據(jù)。我說(shuō):現(xiàn)在我是個(gè)商人,當(dāng)商人不談錢(qián)的時(shí)候,他就開(kāi)始賺大錢(qián)了。謝謝大家。