日前,最高人民检察院印发《检察大数据行动指南(2017—2020年)》(下称《行动指南》),通过一中心、四体系的建设方案实现从试点到全面推广的4年规划,打造数据化、科学化、智能化的“智慧检务”。可以说,这是检察机关把握数据化、信息化机遇的有效举措。
司法公开步入大数据开放阶段
政府信息公开,抑或司法信息公开是上个世纪末提出的,基于当时宽带网络技术水平,信息公开只能进行政策法规、办事公开等网页式的信息发布,目的是基于互联网手段将职能机构的能力边界、办事要求等进行无边界的公开;十年之后,随着宽带技术乃至5G社会的到来,互联网宽带及大数据处理能力的提升,政府采集的数据量已经越来越多,而且用户已经不满足于直接看到分析结果,而是希望对数据进行创造性的开发,从而创造更大的价值。
以裁判文书公开为例,裁判文书从线下公开到网上公开,是对原司法公开范围的一次扩大,同时也引发了各种商业企业的介入,利用爬虫等技术获取到原始裁判文书数据,再进行后台文本结构加工,就可以针对裁判文书数据进行深度挖掘和探索,如针对某一地区某类案件的发案情况、某一地域的法官裁判情况等进行深度解读,可以更方便地了解案件处理趋势。但这种文书公开还不能算作数据开放,数据开放更强调原始数据、可机读数据的开放。
司法大数据的定义与分类
对于司法大数据的分类可依不同标准,如根据司法机关的不同分为法院数据和检察数据,或者根据主体的不同分为案件数据和管理数据。这里,我们更想强调定义应聚焦在“司法”本身,即以办案为圆心,涵盖分布在办案周围的各种数据。具体包括以下几种:
1.案件本身的数据。这是最为常见、也是最能为人理解的司法大数据种类。以刑事公诉案件为例,案件从立案、侦查、审查批捕、审查起诉到最后审判、执行,整个过程中,物理形态从证据材料到电子卷宗、系统数据、法律文书等等,但其中涉及的数据种类无外乎案件实体数据,如犯罪人主体身份数据、犯罪行为数据、犯罪结果数据等,以及根据案件流程不同产生的案件程序数据,即在办案过程中产生、沉淀的案件数据,如诉讼经过、侦查监督等。
数据存在的形式刚开始可能是一份份笔录、证言、书证、物证,最终经过办案人员整理,形成终结性的办案文书,载明上述数据的内容和明细,同时将相关数据进行结构化处理,输入或者上传至办案系统,从而在实体和线上都留存了相应数据。实体数据多以文本的形式体现;线上数据,尤其是检察院统一案件管理系统、法院智能办案辅助系统的广泛适用,更多的表现为结构化的字段以及电子文本。当这些案件数据汇集起来的时候,又可以产生趋势性或者预测性的司法判断,以案例集、数据报告等形式存储,为当下以及未来的案件提供数据支持。
2.办案主体相关数据。这方面的数据往往不被司法一线人员重视。但在员额制改革的今天,主体相关数据就显得尤为重要。例如统计年鉴中经常会涉及的政法事业编以及现在所提及的员额法官、检察官数量,都是办案主体总体上量的规模统计,但对于每名主体质的评价,也应该是司法大数据应该涵盖的范围。如可以根据每名检察官的结案数量、结案率、结案周期、卷宗册数、案由类型、文书说理占比(起诉书中“本院认为部分”字数占全部起诉书字数的比例)、保护力度(起诉书与判决书比较的偏离程度)、案件平均开庭次数、论文报告、案件第三方评价等多个维度对每个检察官的能力情况进行立体展示,甚至可以通过团队平均值来计算每名检察官的偏离度情况,可更好地识别优秀办案能手,真正发挥员额制的作用。
3.办案相关物质保障数据。与上面两项数据相比,这项数据更不容易与司法大数据进行关联,但所有的办案行为都需要借助一定的物质基础。比如提讯犯罪嫌疑人,因为看守所一般都离检察机关办案场所较远,来回的在途时间以及车辆保障就是确保案件能否按时、高效完成的重要因素,甚至有的单位车辆不足的情况下,会采取每周发车一次的做法来变相限制办案的及时性,在移送审查起诉、退回补充侦查等过程中也会遇到类似问题。因此,也需要用科学数据或者技术的方法来化解这些人为设限,比如可以通过远程提讯的方式解决在途的问题,通过电子卷宗传递的方式解决流程衔接的问题,通过对司法机关整体物质保障情况进行梳理,建立动态、实时的人员、车辆调配体系,切实保障一线办案部门的需求。
4.上述几种司法大数据进行相互关联、激活,可以产生更大的生产力。既往大数据强调的是以数据为核心,现在随着区块链技术的成熟,数据应用强调以人为核心,打破传统数据条状化所带来的单维相关率问题,在数据自由流动的前提下,以司法主体、组织等不同主体为起点,通过历史数据与实时数据的融合、线上数据与线下数据的融合、文本数据与结构化数据的融合,寻找办案之间、办案与非办案行为之间的关联关系,通过每一个数据元的激活和释放能力,让司法系统乃至司法系统之外的每一个人都根据自己的自由联想和思维逻辑表达想法,相互启发,以达到新思维的碰撞、创新。
检察机关司法大数据应用
检察机关的地位决定了其担负促进全诉讼流程数据标准化的使命。从数据的流动情况来看,法院是一个数据的最终汇集地,对前续数据没有把控能力,而检察院作为一个承上启下的环节,可以将前续数据进行疏导进入最终的监狱行刑环节,做好司法大数据应用作用会更加明显。未来司法大数据发挥作用应该是延伸整个司法办案流程,让数据流动起来。因此,各级检察机关,尤其是省一级检察机关要重视“充分利用大数据为检察院与公安、法院等政法机关之间的业务协同提供服务,探索构建政法机关之间的大数据业务协同创新体系,提供基于大数据的多样化智能辅助检察应用”。
充分发挥检察机关统一业务应用系统优势。早在2012年在最高人民检察院的统一领导下,全国检察机关统一部署了统一业务应用系统建设,四级检察机关在统一业务应用系统中实现了信息数据填录的统一标准、统一维度,在统一系统中已经沉淀了大量的案件数据。在大数据应用阶段,检察机关由于数据格式更为统一、数据标准化程度更高,对于机器学习、构建各种算法模型,都会更加方便、易行。
检察机关的司法大数据应用要确立需求主导模式。现在已经有各种智慧法院、智慧检察、人工智能类的法律大数据产品,需要对各种产品质量进行合理评估,防止游戏式的办案产品上线。真正有生命力的司法大数据产品,应该是能够切实解决一线问题、提升效率。《行动指南》中也明确了“需求主导、技术统筹”的工作原则。司法大数据应用产品应该是产学研创一体化进行的过程,通过业务需求的明确、业务规则的提炼、汇集,利用技术优势,来实现人工不能解决的一些问题,从而提升检察工作质效。以大数据等相关技术应用为重点,形成以类案推送、量刑建议、决策支持等各项应用需求为“点”,以司法办案、管理决策、服务为民等业务需求为“线”,以服务深化司法体制改革和检察改革为“面”,以实现大数据与检察工作深度融合为“体”的应用体系框架。
试点方案应当考虑效益和效果。《行动指南》中规定了“最高检和省级院主建、市县级院主用”的行动原则,从上到下的一体化构建方式是整合资源的最好途径。在具体试点方案设计上,可以进行大区制信息化试点划分,一方面避免各地试点带来的产品线混乱、重复建设问题,另一方面可以充分集中资源和力量,进行产品孵化和落地。