数据挖掘技术在案件串并和嫌疑人排查中的应用

上传人:b**** 文档编号:104930635 上传时间:2022-06-11 格式:DOC 页数:14 大小:967.50KB
返回 下载 相关 举报
数据挖掘技术在案件串并和嫌疑人排查中的应用_第1页
第1页 / 共14页
数据挖掘技术在案件串并和嫌疑人排查中的应用_第2页
第2页 / 共14页
数据挖掘技术在案件串并和嫌疑人排查中的应用_第3页
第3页 / 共14页
点击查看更多>>
资源描述
WORD数据挖掘技术在案件串并和嫌疑人排查中的应用一、序言传统的信息管理系统(MIS),主要针对的是日常的结构化问题,以提高组织的运营效率为目标,通过将大量的数据转换为有价值的信息来强化管理。随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使用信息,而是想在深层次上利用这些信息为组织的决策提供帮助。因此,为了弥补MIS的不足,为了更好进行市场预测、资源配置、人力优化和生产管理,在管理科学、运筹学、数理统计、人工智能等新方法和新技术的推动下,人们开始重视决策支持系统(DSS)的研究和应用。“9.11”事件发生以后,西方主要发达国家都高度重视数据挖掘在刑事犯罪情报分析领域的应用研究。刑事犯罪数据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以与何种状态会诱发何种犯罪行为,进行串并案分析,提供破案线索和情报,预测并预防犯罪。在中国,随着经济增长、社会变革深入、人员流动性增强,影响社会稳定的不安定因素增加。特别是2008年以后,中国大陆人均GDP突破3000美元,侵财类案件进入高发周期,流窜作案、团伙作案等新型犯罪手段层出不穷。部分公安机关开始运用商业智能(BI)的思维,利用商业智能(BI)分析工具,结合长期积累的侦查办案经验,探索建设警务决策支持系统,研究开展基于犯罪数据的分析挖掘。二、案件串并和嫌疑人排查的主要方法1、关联规则分析关联规则算法指数据中两个或多个变量取值之间暗含的某种规律性。支持度是对关联规则重要性的衡量,置信度是对关联规则准确性的衡量。以挖掘关联规则为目标的挖掘过程一般包含两个阶段,第一阶段,从资料库中找出所有的高频项目组,它们出现的频率相对于所有组而言,达到或超过所设定的最小支持度。第二阶段,从高频项目组中产生关联规则,保证应用该规则得到的结果可以达到最小的置信度。关联规则在公安情报分析中的典型应用是对犯罪行为规律的挖掘。运用关联规则可以发现犯罪分子的身份、年龄、地域等特征与其在实施犯罪行为中所使用的手段、特点、选择的地点以与侵害对象等方面的关联规律性,把具有相似特征的犯罪人员从海量数据中分拣出来,形成“高危人群”数据库,利用高危人群数据库指导帮助案件侦破。2、聚类分析聚类分析方法主要是研究对象中各点之间存在的程度不同的相似性,根据对象属性找出各点间相似程度的序列,把一些相似程度较大的点聚合为一类。在公安情报分析中,聚类分析方法应用最广泛。可以对犯罪手段、特点、作案时间等关键要素进行挖掘,帮助分析人员确定具有较高相似度的案件,刻画嫌疑人特征,并把看似不相关的案件进行合并侦查。可以挖掘发现案件的高发时段、高发地区以与高发的作案手段,指导巡逻防控和情报预警。3、协同过滤协同过滤分析方法是在用户群中找到指定用户兴趣相似的用户,综合这些相似用户对某一信息的评价,形成该指定用户对此信息的喜好程度的预测。一般分为基于项目的协同过滤和基于用户的协同过滤。在公安实战中,我们可以将案件(一串案件)发生轨迹视为“项目”,将嫌疑人活动轨迹视为“对项目的偏好”,通过计算轨迹吻合度,推荐可能的犯罪嫌疑人。4、分类与回归分类与回归分析主要用于找出描述并区分数据类的模型(或函数),以便能够使用模型预测未知的对象类。分类分析的目的是学会一个分类模型,该模型能把数据库中的项映射到给一组类别中的某一个类。在公安情报分析中,可以使用分类与回归的分析方法,将特定的人员(例如:前科人员)映射到“高危人群”中,当“高危人群”出现时,出符合“犯罪容”特征的犯罪预警。三、案件串并和嫌疑人排查业务需求1、业务背景随着“金盾工程”建设的深入开展,各级公安机关已经逐步建立了各类公共基础信息资源库、人员社会行为动态信息资料库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统在辅助各级公安机关业务人员进行案件调查工作和服务群众等方面带来了很大的帮助,在一定程度上提高了案件处理的效率和水平。但是,大部分公安机关对案件进行串并、摸排嫌疑人仍停留在利用经验积累进行人工分析的初级阶段。面对信息资源不断增长的现状,公安机关迫切需要运用数据挖掘的思想和方法,对各类数据背后所蕴涵的在的、必然的因果关系进行挖掘,提高案件串并和嫌疑人排查工作效率。2、业务应用场景由于犯罪行为动力定型的稳定性和犯罪心理的思维定式,系列犯罪案件的作案人在其不断的犯罪活动中的行为和特征具有稳定性和规律性。本文所描述的分析方法适用于具有连续作案行为特征的犯罪情报分析,例如:团伙流窜案件、涉黑涉恶案件等可防性案件,不适用于偶发的、突发的“激情”犯罪。3、建设目标使用成熟的图形化展示工具,集成串并案分析、排查嫌疑人功能,建立一个面向情报分析人员的智能分析系统。系统具备自学习功能,提供便捷、有效的串并案模型和排查模型,促进信息深度利用,提高公安机关信息化应用水平、串并案和排查嫌疑人工作效率。4、业务流程(1)建立案件特征库。分析已破案件特征,包括:案件类别、作案特点、作案时机、侵害对象、作案工具等项目,分别生成串并案模型。(2)建立犯罪人员特征库。对已破案件以与相关的犯罪人员进行分析,挖掘案件特征与犯罪人员特征的潜在关联关系,构建“高危人群”数据库。(3)运用串并案模型,针对未破案件,开展案件串并,并推荐出可能作案的高危人群。(4)构建犯罪人员活动轨迹数据库,包括:犯罪人员乘坐出租车轨迹,犯罪人员机动车经过卡口(电子警察)轨迹,犯罪人员手机经过电子围栏(基站)轨迹,犯罪人员上网、住宿、社保卡消费、公交(公共自行车)轨迹,重点人员本地金融活动轨迹,犯罪人员室外活动轨迹(基于天网工程人像比对发现)。备注:犯罪人员机动车包含其本人所有车辆、同住人和同户人所有车辆。(5)将已串并案件的案发轨迹与符合高危特征的犯罪人员活动轨迹叠加分析,计算时间和空间上的吻合度,并推荐出未破案件的可能嫌疑人。四、详细设计方案根据需求分析,实现业务应用功能总体设计思路为:对数据进行汇集、整合、建模,运用数据挖掘算法发现和揭示数据中隐含的关联关系,并使用图形方式展示。项目总体逻辑架构图如下:图1:总体逻辑架构图1、数据获取:对数据挖掘的数据源进行搜集整理。根据业务需求,搜集案件、嫌疑人、嫌疑人活动轨迹信息,获取数据源连接和访问权限,对数据结构进行分析,完成找到数据的工作。根据需求和数据源状况,确定数据更新方法、更新策略,选择ETL工具,本项目选择IBM Datastage。 14 / 14数据源名称来源ETL策略备注刑事案件信息本地业务系统立案时间、每日、增量用于挖掘案件特征刑事案件现场勘验信息本地业务系统勘验时间、每日、增量用于挖掘案件特征犯罪人员(本地)本地业务系统录入时间、每日、增量按去重,用于挖掘高危人群特征犯罪人员(全国)公安部下发每月、批量按去重,用于挖掘高危人群特征户籍人口本地业务系统录入(修改)时间、每日、增量用于确定犯罪人员同户人实有人口本地业务系统录入(修改)时间、每日、增量用于确定犯罪人员同住人出租车轨迹以与乘客照片社会资源乘车时间、每日、增量照片比对确定身份,发现轨迹卡口过车信息本地业务系统过车时间、每日、增量发现轨迹电子警察抓拍信息本地业务系统抓怕时间、每日、增量发现轨迹电子围栏和话单本地业务系统经过(通话)时间、每日、增量发现轨迹网吧上网记录本地业务系统下网时间、每日、增量发现轨迹旅馆住宿记录本地业务系统入住时间、每日、增量发现轨迹社保卡消费记录社会资源刷卡时间、每日、增量发现轨迹公交(公共自行车)刷卡记录社会资源刷卡时间、每日、增量发现轨迹重点人员本地金融活动记录公安部下发刷卡时间、每日、增量发现轨迹犯罪人员室外活动轨迹本地业务系统经过时间、每日、增量图像挖掘、图片比对确定身份,发现轨迹表1:数据源表2、预处理:为数据挖掘提供符合要求数据,包括数据清洗、转换(标准化)、装载、建模。采用数据抽取工具(ETL),对收集的数据进行抽取、清洗、转换与装载,实现数据的整合、去重,向多维数据仓库提供高质量的数据。图2:ETL过程在此基础上对数据进行关联、建模,为情报分析研判提供可用的数据。根据业务特性,确定案件、犯罪人员以与犯罪人员活动轨迹三个主题,区分维度数据表和事实数据表,建立数据仓库模型。下图为案件事实表以与相关维度表数据结构示例。图3:数据结构实例(案件表)3、数据挖掘:使用挖掘算法进行挖掘,找出有用的信息。(1)运用聚类分析方法,对某地近十年来的已破刑事案件进行分析,构建刑事案件空间向量矩阵,矩阵的行为一起刑事案件的一个空间向量,矩阵的列为作案手段、选择处所、选择时间、作案特点等特征。采用聚类操作后,如果多个案件的多个或全部属性都有相似性,就可以认为这是一串案件,并形成一套分类规则,即案件串并模板。下图展示了部分串并案模板。图4:案件串并模板示例图5:案件串并模板示例(2)运用关联规则分析方法,对某地近十年来的已破刑事案件特征(I1:作案手段、I2:作案特点、I3:案件类型、I4:选择处所)和犯罪分子特征(I5:户籍地行政区划)进行关联,构建数据库事务集合D。运用Apriori算法,扫描事务数据库,产生候选项集,设置min_sup=50,逐步迭代,产生频繁k项集Lk以与支持度计数,k2且必须要包含I5:户籍地行政区划;设置min_conf=80%,由频繁k项集Lk产生并输出强关联规则,得出高危人群数据库。表2展示了运用关联规则分析方法分析的高危人群部分数据样本。I1作案手段I2作案特点I3案件类型I4选择处所I5行政区划区划名称迷信多人作案诈骗街面340823枞阳县技术开锁单人作案盗窃车财物路面411528息县冒充军人、干部单人作案诈骗412825上蔡县撬防盗门入室作案入室盗窃工商企业430427耒阳市利用口香糖技术开锁入室作案入室盗窃居民小区431224溆浦县飞车抢夺多人作案抢夺440229翁源县插片开锁多人作案入室盗窃452728东兰县夜间攀爬翻窗多人作案入室盗窃居民小区513428凉山籍表2:高危人群样例数据(3)运用串并案模板对现行案件进行串并,并根据案件特征(作案手段、作案特点、案件类型、选择处所等)比对高危人群数据库,推荐出可能作案的高危人群。图6:运用串并案模板进行串并案件(4)建立符合可能作案的高危人群特征(户籍地)的犯罪人员活动轨迹数据库,构建案件轨迹与嫌疑人员活动轨迹的空间和时间矢量矩阵,通过计算矢量距离,推导出与案件时间、轨迹吻合度最高,且符合案件特征的可能的作案嫌疑人。表3展示了一串案件发生时,6个符合特征的嫌疑人手机位置与案件发生地点的空间矢量距离,null表示没有发现其活动信息。嫌疑人1嫌疑人2嫌疑人3嫌疑人4嫌疑人5嫌疑人6案件1325mNullNull589mNullNull案件2Null600m400m5060mNullNull案件3160m2430mNullNullNull3680m案件4400m890m280mNullNullNull表3:嫌疑人手机位置与案件发生地点的空间矢量矩阵通过对表3的数据进行分析,可以初步判定嫌疑人1、嫌疑人2、嫌疑人3具有重大嫌疑。在实际操作中,单一种类轨迹构成的矩阵可能非常稀疏,往往需要将多种轨迹信息进行叠加分析,以提高分析的准确性。4、用户界面:将数据挖掘通过可视化的方法展示给用户。(1)数据挖掘过程具有高度的交互性,在涉与多维数据挖掘的过程中,要构建灵活的用户界面和探索式的挖掘环境。在串并案模板挖掘过程中,我们采用构建立方体(Cube)的方法,允许用户运用知识背景进行下钻、切片、维度旋转、设置度量等操作。(2)数据挖掘结果展示采用可视化图形报表技术,具有用户友好界面,使得所发现的知识容易被理解。对于轨迹类信息的展示,采用GIS技术,将案件发生地点和嫌疑人活动轨迹以散点形态展示在地图上。图7:报表展示数据挖掘结果图8:数据挖掘立方体5、数据挖掘与隐私保护数据挖掘对公民隐私的触与便不可避免。公安机关掌握了大量公民个人隐私信息,侵犯公民个人隐私是从事犯罪情报分析工作不可规避的风险。从技术层面上讲,公安机关运用公民活动轨迹信息进行嫌疑人排查可以为侦查破案提供更加有效的支撑。但是,从保护隐私的角度来说,只可以使用嫌疑人员的活动轨迹进行挖掘。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!