青青草视频在线观看-医院人妻闷声隔着帘子被中出-国产精品搬运-久久久噜噜噜久久熟女

基于半監(jiān)督機(jī)器學(xué)習(xí)的監(jiān)所人員風(fēng)險(xiǎn)計(jì)算

點(diǎn)擊數(shù): 1394  發(fā)布時(shí)間: 2022-03-23 09:07:59

摘要:

論文論述了利用機(jī)器學(xué)習(xí)的相關(guān)技術(shù),整合監(jiān)督相關(guān)數(shù)據(jù),提取在押人員和歷史人員的相關(guān)特征和風(fēng)險(xiǎn)評(píng)估表特征,利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù),研發(fā)和建設(shè)了一套監(jiān)所人員風(fēng)險(xiǎn)評(píng)估算法模型。

大數(shù)據(jù)是一種手段,并不能無(wú)所不包、無(wú)所不用。研究并利用大數(shù)據(jù)技術(shù)的根本目的在于用好數(shù)據(jù),通過(guò)挖掘海量數(shù)據(jù)中的隱藏價(jià)值,實(shí)現(xiàn)數(shù)據(jù)賦能業(yè)務(wù)。大數(shù)據(jù)建模本質(zhì)上是一個(gè)機(jī)器學(xué)習(xí)的過(guò)程,機(jī)器學(xué)習(xí)是一門(mén)研究怎樣使用數(shù)據(jù)思維解決問(wèn)題的學(xué)科,它的原理和人類(lèi)思維非常相似,人類(lèi)是基于經(jīng)驗(yàn)對(duì)規(guī)律進(jìn)行總結(jié)和歸納,而機(jī)器(計(jì)算機(jī))則是基于數(shù)據(jù)(即經(jīng)驗(yàn)的外在體現(xiàn)),利用算法來(lái)總結(jié)規(guī)律,并作出預(yù)測(cè)。

當(dāng)前,信息技術(shù)、網(wǎng)絡(luò)技術(shù)已經(jīng)進(jìn)入了各行各業(yè),現(xiàn)代社會(huì)治安隱患、新型犯罪活動(dòng)等也更加智能化、隱蔽化,甚至出現(xiàn)了許多高科技犯罪手法,被動(dòng)搜集信息的公安警務(wù)工作模式已經(jīng)跟不上社會(huì)發(fā)展的腳步,而將大數(shù)據(jù)智能化技術(shù)深入應(yīng)用,可以有效提高公安機(jī)關(guān)的打擊犯罪能力、保障社會(huì)安全的能力!

本篇論文刊登于《警察技術(shù)》2022年第1


本文由杭州中奧科技有限公司(北京研究院、數(shù)據(jù)智能部)、公安部第一研究所聯(lián)合編寫(xiě)。

關(guān)鍵詞:風(fēng)險(xiǎn)評(píng)估預(yù)警模型、機(jī)器學(xué)習(xí)、半監(jiān)督、支持向量機(jī)、K近鄰、隨機(jī)森林

一、背景

我國(guó)目前的監(jiān)獄人員管理現(xiàn)狀,多數(shù)還停留在以獄警巡查加攝像機(jī)監(jiān)視報(bào)警的階段,人工作業(yè)仍占絕大比重,信息化程度比較低。

為提高監(jiān)管風(fēng)險(xiǎn)識(shí)別水平,我們可以利用機(jī)器學(xué)習(xí)的相關(guān)技術(shù),整合監(jiān)管方面的相關(guān)數(shù)據(jù),提取服刑人員相關(guān)特征和風(fēng)險(xiǎn)評(píng)估表,利用大數(shù)據(jù)、數(shù)據(jù)庫(kù)處理技術(shù)、計(jì)算機(jī)軟件技術(shù)、地理信息系統(tǒng)技術(shù)、互聯(lián)網(wǎng)技術(shù)等多學(xué)科能力,研發(fā)和建設(shè)了這套獄所人員的風(fēng)險(xiǎn)評(píng)估算法模型,實(shí)現(xiàn)監(jiān)所管理信息化,檢索的智能化。


二、模型構(gòu)建相關(guān)技術(shù)



圖1 模型整體框架

2.1  模型整體框架

在傳統(tǒng)機(jī)器學(xué)習(xí)行業(yè)中,無(wú)標(biāo)簽的數(shù)據(jù)易于獲取,而有標(biāo)簽的數(shù)據(jù)收集起來(lái)通常很困難,標(biāo)注也耗時(shí)和耗力。在這種情況下,半監(jiān)督學(xué)習(xí)更適用于現(xiàn)實(shí)世界中的應(yīng)用。

在分辨監(jiān)所人員風(fēng)險(xiǎn)訓(xùn)練樣本時(shí),我們只能通過(guò)以往人員犯事記錄進(jìn)行風(fēng)險(xiǎn)標(biāo)記,對(duì)于那些沒(méi)有明顯表征,但潛在存在風(fēng)險(xiǎn)的人員我們?nèi)睙o(wú)法完全標(biāo)記為無(wú)風(fēng)險(xiǎn)白樣本。

本模型是一種基于半監(jiān)督學(xué)習(xí)框架的特征向量學(xué)習(xí)預(yù)測(cè)模型方法


圖2 半監(jiān)督學(xué)習(xí)架構(gòu)圖

2.2  模型特征提取

采用模型的特征在已知結(jié)構(gòu)化特征提取的基礎(chǔ)上增加非結(jié)構(gòu)化特征提取。結(jié)構(gòu)化特征提取在行業(yè)內(nèi)常用成熟。

一般簡(jiǎn)單的非結(jié)構(gòu)化特征提取采用正則+規(guī)則的形式,往往用在身份證號(hào),生日,手機(jī)號(hào)等規(guī)則的實(shí)體提取場(chǎng)景采用,但在本場(chǎng)景中,監(jiān)所數(shù)據(jù)中非結(jié)構(gòu)化特征大量存在于談話記錄,教育記錄,歷史檔案等復(fù)雜文本當(dāng)中,提取的體征也較身份證號(hào)這類(lèi)實(shí)體復(fù)雜。

因此我們采用基于深度學(xué)習(xí)的命名實(shí)體識(shí)別技術(shù)BERT+CRF(神經(jīng)網(wǎng)絡(luò)進(jìn)行提取。BERT使用Transformer作為獲取文本表征的手段(主要依賴(lài)了多頭的self-attention機(jī)制, 見(jiàn)圖3), 能夠獲取比BiLstm更深層次的語(yǔ)言表征。

基于谷歌預(yù)訓(xùn)練的中文BERT模型, 結(jié)合我們的命名實(shí)體識(shí)別任務(wù)(針對(duì)特定場(chǎng)景的標(biāo)注和訓(xùn)練), 在保證模型有較強(qiáng)泛能力的同時(shí), 提升特定場(chǎng)景下的模型準(zhǔn)確率。使用BERT提取文本向量特征后,與結(jié)構(gòu)化特征一起構(gòu)建人員特征寬表待進(jìn)入半監(jiān)督模型訓(xùn)練。


圖3 BERT Transform框架

三、數(shù)據(jù)的分析及處理

3.1  數(shù)據(jù)特征篩選

參考數(shù)據(jù)庫(kù)表和表內(nèi)數(shù)據(jù),提取健康、鬧監(jiān)、心理等六個(gè)模型的關(guān)鍵屬性,摘取模型訓(xùn)練所需的特征維度。

在押危險(xiǎn)人員具備區(qū)別于普通在押人員的一些特點(diǎn)和活動(dòng)規(guī)律。通過(guò)針對(duì)所需要分析的目標(biāo)人群的背景信息、案件信息、獎(jiǎng)懲信息、就醫(yī)信息、健康情況、違紀(jì)違規(guī)等數(shù)據(jù)加上人員在押生活中記錄的如談話記錄、教育記錄,案件案情,客觀評(píng)價(jià)等非結(jié)構(gòu)化文本類(lèi)信息,提取出多維度的特征標(biāo)簽形成特征寬表,通過(guò)模型訓(xùn)練結(jié)合業(yè)務(wù)角度從在押人員中挖掘出潛在的高風(fēng)險(xiǎn)人員。

3.2  數(shù)據(jù)預(yù)處理

針對(duì)特征進(jìn)行歸一化處理,z-score歸一化轉(zhuǎn)化為0-1之間的數(shù)值,使得各個(gè)特征在同一度量維度下,從而使它們之間的權(quán)重更好處理。此外,采用利用均值和標(biāo)準(zhǔn)差對(duì)數(shù)值進(jìn)行歸一化,針對(duì)年齡、同行次數(shù)等連續(xù)型特征進(jìn)行離散化,將其等頻離散化/等區(qū)間離散化處理,降低算法對(duì)于分布假設(shè)的依賴(lài)性。

針對(duì)每個(gè)數(shù)值型特征,結(jié)合特征的分布及與目標(biāo)分類(lèi)的分布情況,對(duì)于特征進(jìn)行數(shù)學(xué)變化,比如次方,三次方,取自然對(duì)數(shù)等數(shù)學(xué)變換。

3.3  特征向量數(shù)據(jù)平滑處理

進(jìn)行特征向量提取和表示時(shí),并不是每個(gè)特征值在每個(gè)維度都有數(shù)值,經(jīng)常該字段為空值或者缺失,當(dāng)詞匯在某個(gè)維度未出現(xiàn)時(shí),記錄該特征點(diǎn)時(shí)用0來(lái)表示,但是該特征對(duì)應(yīng)的特征向量就會(huì)出現(xiàn)一個(gè)斷點(diǎn),這對(duì)模型訓(xùn)練和結(jié)果分析時(shí)造成了很大困難,需要對(duì)特征進(jìn)行修正,以達(dá)到能符合后續(xù)處理的需要。本文采用滑動(dòng)平均值來(lái)處理數(shù)值斷點(diǎn)問(wèn)題。

3.4  特征向量人工標(biāo)注

于模型訓(xùn)練的特征數(shù)據(jù)需要人工進(jìn)行標(biāo)注,數(shù)據(jù)有了標(biāo)簽,機(jī)器才可以根據(jù)帶有標(biāo)簽的數(shù)據(jù)進(jìn)行模型訓(xùn)練,數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)采用是否有風(fēng)險(xiǎn)進(jìn)行標(biāo)注,即對(duì)數(shù)據(jù)的多個(gè)維度進(jìn)行人工綜合分析,并判斷該犯人是否有健康、鬧監(jiān)、心理等六個(gè)方向的風(fēng)險(xiǎn),標(biāo)注人員為具有多年看守所工作經(jīng)驗(yàn)的預(yù)警,標(biāo)注人員只需要根據(jù)犯人的特征數(shù)據(jù)表中的信息,在上述的健康、鬧監(jiān)、心理等六個(gè)方向上打上是或否的標(biāo)記,是表示該犯人具有該方向的風(fēng)險(xiǎn),而否表示該犯人無(wú)該方向的風(fēng)險(xiǎn)。

四、半監(jiān)督學(xué)習(xí)模型訓(xùn)練

4.1  不同類(lèi)別基分類(lèi)器模型選擇

在進(jìn)行健康、鬧監(jiān)、心理等六個(gè)模型訓(xùn)練時(shí),由于特征數(shù)據(jù)的維度和疏密程度不同,所以采用的機(jī)器學(xué)習(xí)框架不同。根據(jù)數(shù)據(jù)和風(fēng)險(xiǎn)評(píng)估的最終效果,選取了K近鄰算法、支持向量機(jī)模型和隨機(jī)森林模型。

4.2  實(shí)驗(yàn)結(jié)果與分析

在對(duì)健康、鬧監(jiān)、心理等6個(gè)模型進(jìn)行五輪交叉驗(yàn)證模型訓(xùn)練后,利用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算得到每個(gè)模型的準(zhǔn)確率(ACC)和召回率(REC)。綜合評(píng)估,六個(gè)模型平均的準(zhǔn)確率和召回率達(dá)到80%以上,當(dāng)在訓(xùn)練數(shù)據(jù)積累較多時(shí),特征維度較為豐富時(shí),使用非距離計(jì)算的樹(shù)形模型具有較好的泛化性。

如今信息化智能化已在遍地開(kāi)花,機(jī)器學(xué)習(xí)技術(shù)已日趨成熟,已在金融、軍事、政府、公安等各個(gè)領(lǐng)域應(yīng)用廣泛??词厮捅O(jiān)獄這類(lèi)監(jiān)管的行業(yè)更加需要信息化注入新的力量,以便于更好的為社會(huì)主義建設(shè)服務(wù)。而人工智能在監(jiān)管領(lǐng)域落地,更進(jìn)一步說(shuō)明信息化建設(shè)迫在眉睫。因此,機(jī)器學(xué)習(xí)和人工智能在監(jiān)獄行業(yè)的落地具有重要意義。

本文提出了一種基于半監(jiān)督學(xué)習(xí)的監(jiān)所獄所風(fēng)險(xiǎn)人員評(píng)估的計(jì)算方法,也總結(jié)了具體的遠(yuǎn)程,針對(duì)不同種類(lèi)特征數(shù)據(jù)不同機(jī)器學(xué)習(xí)訓(xùn)練模型的優(yōu)劣。對(duì)于在模型訓(xùn)練過(guò)程中人工標(biāo)注數(shù)據(jù)較少,特征向量中缺失值較多的情況,某些人員的特征性質(zhì)可能并沒(méi)有在數(shù)據(jù)特征層面取得較好的體現(xiàn)。在將來(lái)的研究中,需要更加細(xì)致的統(tǒng)計(jì)人員的相關(guān)特征,這樣才能更加細(xì)致的體現(xiàn)風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性。

本篇論文刊登于《警察技術(shù)》2022年第1