數據分析與挖掘是人工(gōng)智能(néng)發揮真正價值的核心。傳統的大數據分析,不管是傳統的聯機(jī)分析處理(OLAP)技(jì)術(shù)還(hái)是數據挖掘技(jì)術(shù),都難以應對大數據的挑戰。一(yī)是執行效率低(dī),傳統數據挖掘技(jì)術(shù)都是基于集中式的底層軟件(jiàn)架構開(kāi)發,難以并行化,在處理TB級以上(shàng)數據時效率低(dī);二是數據分析精度難以随著(zhe)數據量提升而得到(dào)改進,特别是難以應對非結構化數據。深度學習具有自(zì)行處理、分布存儲和高(gāo)度容錯(cuò)等特性,非常适合處理非線性的或者模糊、不完整、不嚴密的知識和數據。智能(néng)大數據分析技(jì)術(shù)利用深度學習算(suàn)法自(zì)動開(kāi)展多(duō)種分析計算(suàn),探究數據資源中的規律和異常點,輔助用戶更快、更準地找到(dào)需求點,從(cóng)而實現風險預測和評估。
習近平總書記深刻指出,"要推動大數據技(jì)術(shù)産業(yè)創新發展""要運用大數據提升國(guó)家治理現代化水(shuǐ)平"。李克強總理在今年(nián)的政府工(gōng)作報(bào)告中提出,要"深化大數據、人工(gōng)智能(néng)等研發應用"。公安機(jī)關必須積極推進公安大數據戰略,加快推動公安工(gōng)作由信息化向智慧化升級轉型,在促進大數據與社會(huì)治理深入融合中提升社會(huì)治理能(néng)力和水(shuǐ)平,讓打防管控的矛更利、盾更堅,切實築牢維護國(guó)家政治安全、确保社會(huì)大局穩定、促進社會(huì)公平正義、保障人民(mín)安居樂業(yè)的堅強防線。
一(yī)、公安大數據建設要點
1.PB級數據存儲管理:信息化建設在推進,數據規模随之飛(fēi)速增長(cháng),為(wèi)了滿足大規模數據的存儲和分析,大數據存儲系統應支持單一(yī)系統擴展至10PB以上(shàng)規模,以滿足未來數據爆發的存儲需要
2.多(duō)種數據類型與協議支持:公安數據形式多(duō)樣,包含文檔、圖片、視頻、栅格、矢量等,因此該系統需要能(néng)夠支持結構化、半結構化、非結構化多(duō)種數據類型,提供NFS/CIFS/JDBC/ODBC等多(duō)種接口,以便業(yè)務對多(duō)種數據進行訪問和操作;
3.高(gāo)質量的數據整合:好的數據質量是數據分析挖掘等有效應用的基本條件(jiàn),面對公安行業(yè)交互複雜(zá)而繁多(duō)的系統,勢必需要将這些多(duō)源異構的數據進行抽取、轉換及裝載,實現數據的整合、消重,提供高(gāo)質量的數據,在此基礎上(shàng)進行關聯、建模,為(wèi)實戰業(yè)務提供可用的數據;
4.高(gāo)效的數據分析能(néng)力:百億條記錄的檢索、上(shàng)千張表的碰撞、幾百個(gè)小(xiǎo)時的視頻分析、大量的移動互聯網和社交媒體數據處理等應用,無不對大數據系統的數據分析能(néng)力提出更高(gāo)的要求;
5.可管理和開(kāi)放(fàng)性:可管理、開(kāi)放(fàng)化、标準化的大數據技(jì)術(shù)體系架構,不僅可以為(wèi)公安帶來更高(gāo)的性價比、更出色的擴展性,更能(néng)為(wèi)警務建設在大數據平台上(shàng)開(kāi)展新探索、新應用解除後顧之憂;
6.安全可靠,自(zì)主可控:公安系統中很多(duō)數據關系著(zhe)國(guó)家安全和人民(mín)生(shēng)命财産安全,因此,要求該系統具備非常高(gāo)的可靠性,同時,為(wèi)進一(yī)步加強數據安全性,避免數據洩露,最好選用具備完全自(zì)主知識産權的國(guó)産設備和系統。
二、公安大數據的技(jì)術(shù)選型
大數據的實質是對數據的管理與開(kāi)發利用,與當前以信息資源開(kāi)發為(wèi)核心的公安工(gōng)作具有廣泛的共通(tōng)性,如何借助大數據技(jì)術(shù)推動公安工(gōng)作的發展和變革?技(jì)術(shù)選型非常重要。在各個(gè)企業(yè)和組織紛紛助推下(xià),大數據領域的相(xiàng)關技(jì)術(shù)呈現百花齊放(fàng)局面,涵蓋數據收集、存儲、計算(suàn)、挖掘、資源調度等,下(xià)面就(jiù)以最核心的計算(suàn)層和存儲層兩個(gè)維度介紹下(xià)有關技(jì)術(shù)路(lù)線和發展趨勢。
數據處理:
簡而言之,不管對何種應用,當數據量很大時就(jiù)無法在一(yī)台服務器(qì)上(shàng)解決計算(suàn)問題,此時分布式計算(suàn)優勢就(jiù)體現出來,而HadoopMapReduce的重要創新便是當處理一(yī)個(gè)大數據集時會(huì)将其任務分解并在運行的多(duō)個(gè)節點中處理,這種批處理框架常用于離線的複雜(zá)的非結構化數據處理,如ETL、數據挖掘等場景;與Hadoop的使用硬盤來存儲數據不同,Spark是基于内存的叠代計算(suàn)框架,适用于需要多(duō)次操作特定數據集的應用場合;而Storm則是專門(mén)針對實時數據類型的流式計算(suàn)分析框架,應用在低(dī)延遲的場景中,實現海量事(shì)件(jiàn)的實時分析、處理和決策。除此之外,為(wèi)應對不斷增長(cháng)的海量結構化數據的存儲和快速處理以及靈活的業(yè)務建模需求,數據庫系統必将引入分布式架構、MPP處理技(jì)術(shù)。
數據存儲:
上(shàng)面提到(dào)了MapReduce将任務分發到(dào)多(duō)個(gè)服務器(qì)上(shàng)處理大數據的能(néng)力。而對于分布式計算(suàn),每個(gè)服務器(qì)必須具備對數據的訪問能(néng)力,這就(jiù)是HDFS所起到(dào)的作用,HDFS有著(zhe)高(gāo)容錯(cuò)性、高(gāo)吞吐量的特點,适合大數據集的應用。與此同時,業(yè)内也有許多(duō)其他類型的文件(jiàn)系統推出,不僅能(néng)解決了傳統存儲體系結構存在的難題,又(yòu)能(néng)提高(gāo)存儲利用率和數據讀(dú)寫性能(néng),可以替代HDFS作為(wèi)Hadoop架構的底層文件(jiàn)系統/數據存儲。
不同的技(jì)術(shù)思路(lù)各有偏重,由于公安業(yè)務種類繁多(duō),大數據應用場景多(duō)樣化,除了建立各類基礎大數據資源庫之外,還(hái)需要做到(dào)事(shì)前預測警務研判、事(shì)中實時情報(bào)分析及事(shì)後案事(shì)件(jiàn)分析,及可視化查詢統計等,建議公安用戶基于智能(néng)融合的大數據架構構建上(shàng)層應用,積極引入大數據領域的先進技(jì)術(shù),推動公安工(gōng)作邁入大數據發展階段。
三、公安大數據應用領域
(一(yī))大數據與應急
借助大數據,既可以預測某一(yī)區域乃至全國(guó)的某種類型的犯罪趨勢,也可以預測某一(yī)時間某一(yī)具體地點某種類型的犯罪,還(hái)可以預測某一(yī)個(gè)體的犯罪概率。根據預測,我們可以制訂計劃,優化警力配置,提升行動效率。
(二)大數據之與社會(huì)維穩
互聯網成為(wèi)人們日常交流、表達思想和宣洩情緒的重要平台,也是相(xiàng)關内容安全保障的重要平台。網絡輿論已成為(wèi)社會(huì)輿論的重要組成部分,越來越多(duō)地引起全社會(huì)的高(gāo)度重視。搜索引擎、微博、微信、論壇、貼吧(ba)等互聯網輿論集中的區域,搜集這些數據便獲取到(dào)了以往無法掌握的社會(huì)輿論動向,熱度輿論、以及輿論領袖。一(yī)些突發事(shì)件(jiàn)和熱點、敏感問題在網上(shàng)被惡意炒作,形成強大的網上(shàng)輿論氣候,各種負面信息通(tōng)過互聯網的各種服務方式快速、廣泛傳播,嚴重影響社會(huì)穩定和政府單位形象。互聯網不僅是現實社會(huì)的虛拟映像,還(hái)是現實問題的聚焦鏡和放(fàng)大器(qì)。
通(tōng)過輿情機(jī)制,一(yī)方面可以加強互聯網信息監管,另一(yī)方面,對于及時應對網絡突發的公共事(shì)件(jiàn)和全面掌握社情民(mín)意,并對于及時發現社會(huì)蘊藏的潛在不穩定因素,提早預防起著(zhe)重要作用。
來源:警用科技(jì)