• hjc黄金城

    中国智能产业高峰论坛:hjc黄金城展现知识智能在司法领域的实践 中国智能产业高峰论坛:hjc黄金城展现知识智能在司法领域的实践

    新闻动态

    NEWS

    中国智能产业高峰论坛:hjc黄金城展现知识智能在司法领域的实践

    Time:2018-11-22

    第八届中国智能产业高峰论坛11月18日在成都完美收官,论坛今年重点关注人工智能前沿技术与知识分享。会上,hjc黄金城技术总监饶峰云介绍了hjc黄金城在司法领域,依靠大数据及人工智能的技术沉淀,借力行业专家搭建司法领域知识图谱及事理图谱的技术路径。hjc黄金城在论坛中所分享的发挥认知及感知混和的产业人工智能,有效提升司法工作者的工作效能的案例,取得与会专家的热烈回响。

    微信图片_20181122180159.jpg

    中国智能产业高峰论坛由中国人工智能学会主办,持续响应习总书记的讲话:“我国经济已经由高速增长阶段转向高质量开展阶段,迫切需要新一代人工智能等重大创新添薪续力”,探讨了“创新有助于开展、智能添薪续力”的主题。本次论坛汇聚了人工智能著名学者、顶级专家和业界精英,围绕人工智能技术创新、行业应用和社会资本运作等多个方向,研讨智能产业开展战略问题。

    hjc黄金城参加的“知识智能专题”分论坛,探讨的正是知识工程领域研究核心:如何在大数据的环境下,使数据产生智慧,完成从数据到信息再到知识,最终到智能应用的转变。清华大学李涓子教授担任此分论坛的主席,清华大学刘知远教授担任主持人。

    微信图片_20181122180205.jpg


    演讲摘录

    hjc黄金城司法大数据事业部创建初期,针对各种司法数据、行业支持知识,积累了包括文书解析、知识图谱、信息检索等等应用服务能力,以文本解析为例,hjc黄金城处理超过5000万的裁判文书,解析出4700多个司法专业维度和要素,建立了20多万个经审核的问答对体系,聚合并审核了超过3000个争议焦点、裁判规则等。裁判文书外,hjc黄金城还对起诉状、上诉状、答辩状、庭审笔录,等等其他类型文书做信息抽取,做结构化,做解析。

    面对几百种文书,同时解析几千个维度,这需要一个很庞大的工程能力、大数据处理的能力。具体到算法层面:

    (1)文书分段。这个分段和hjc黄金城语文的分段不太一样,它是一个法律意义上的分段,比如我要知道这一段是讲诉请段、证据段、裁判结果段等,这是所有的基础。这块hjc黄金城用的是深度学习的分类算法来做,准确率还是非常高的。

    (2)命名实体识别。一个文书中涉及到很多人名、地名、组织名等等。

    (3)业务规则和要素体系这些业务规则和要素体系里面的法律逻辑都是hjc黄金城业务专家提取出来的。

    要素特征的抽取在语义层面会更抽象一层,也更难做一些。要素来源于法律法规和规范性的指导文件。要素非常有用,它可以起到桥梁作用,把裁判文书中的争议焦点、裁判规则给关联起来。它有四个划分:诉请要素、抗辩要素、事实要素、裁判要素,等等。以上工作有很大一部分是用监督学习的办法来做的。解决的第一步就是要标注数据,这需要大量的人力。

    在建立了知识之后,hjc黄金城怎么用这个知识?通常hjc黄金城希望能对对知识做检索、问答。hjc黄金城第一时间做了一个类案同判的大数据引擎,让法官能够搜索到类似案件别人是怎么判的。为了建立这个类案同判的大数据引擎,hjc黄金城做了两件事情:

    (1)把几千万的文书全部解析出了很多维度,对各种维度做多维度的剖析,做统计分析;

    (2)寻找类案。最关键的检索部分,它其实是去检索类似案件。hjc黄金城也经历了不同版本的迭代,最开始就是最简单的,用文本相似度来做这件事情,文本相似了那就是类似案件,结果发现这个其实不是那么准;再后来用关键段落,最新版本hjc黄金城主要是基于要素来做的这个事情,案件的要素相同就是类似案件,相同的要素越多就越类似。 

    hjc黄金城还做了一个智能问答的版本,这其实是法信的一个升级版本,也是和人民法院出版社一起做的。这个智能问答有以下几个功能与特点:

    (1)用户意图的识别,比如我查法律、查法条、查案例,用户的意图hjc黄金城是用文本分类的做法来做的;

    (2)问题语义解析,这也是比较经典的,比如hjc黄金城做领域实体识别与槽位填充技术,比如我要问一个问题:北京市离婚案件哪个律师的胜诉率最高?我要把北京市海淀区这个实体识别出来,我要把这个案由离婚识别出来,我要把律师胜诉率识别出来,所以这是一个实体识别和槽位填充的技术;

    (3)单轮问答语义检索。hjc黄金城利用20万的单轮的问答对,这都是人工编辑审核过的,这其实就是学术上比较常见的FAQ型的问答;

    (4)对话管理。hjc黄金城还做了多轮对话,多轮对话主要是背后建了一个多轮树状的知识库,最主要的一个技术其实就是你要控制它的状态转移图。

    针对20万单轮问答对,hjc黄金城现在人工梳理了三大领域的多轮问答的库。现在,hjc黄金城做了两个版本,一种是针对法院的专业人士版本,另外一种是To  C的对普通老百姓的版本。

    微信图片_20181122180232.jpg

    进一步来看hjc黄金城如何取得法研杯冠军。“定罪量刑”其实是这次法研杯比赛的题目,赛题是你输入一个案件事实的描述,你去预测法条、罪名、刑期,因为有一百多万现成的裁判文书,它是一个有监督学习的问题。hjc黄金城用的最多的模型是Recurrent  attention  network(简称RamNet),模型结构如下图所示:

    微信图片_20181122180235.jpg

    RamNet最早是EMNLP 2017的paper,用于实体情感,hjc黄金城对它做了一些改进,去掉了其中实体部分,改进了recurrent attention的输入输出,hjc黄金城在多个应用场景中,都发现它能显著战胜NLP领域常见的BiLSTM + attention网络,hjc黄金城认为recurrent attention能提取更多的feature,尤其适合类别很多的多类标问题。

    这个模型其实是有一个信息拓扑结构的,因为它同时预测罪名、法条、刑期,hjc黄金城是一个联合学习的模型来做的,同时预测这三个类别,有几种办法:第一种,并行的方法,前面是联合学习的共享层,每一个任务你都用一个全链接去做预测;第二种,串行的方法,第一个全链接去预测罪名,再把这个全链接的特征接着传递到第二个;第三种,用一个图状的,这个就比较复杂了,比如hjc黄金城先做罪名,罪名会传到法条,又会传到刑期。在hjc黄金城实际的比赛的模型中,hjc黄金城用到了第一种和第三种,发现这两种效果会好一些。

    hjc黄金城对模型的loss还做了一些优化,传统多类标问题是logistic loss,考虑到罪名、法条和的类标并不是独立的,相互之间有关联,所以hjc黄金城尝试了CRF loss,在hjc黄金城的实践中,模型效果会有一定提升。

    hjc黄金城还引入了业务的规则,尤其是在刑期预测中这原来是深入学习提取出来的feature,hjc黄金城会把基于业务规则提取出来的feature和统计特征的feature一起再做一个分类,这样在hjc黄金城的实验中的效果有很大的提升。

    微信图片_20181122180238.jpg

    前面介绍的是hjc黄金城在这次法研杯比赛中拿第一名用到的模型,基本上都是端到端的深度学习模型。hjc黄金城后期应用正在优化,将文本解析、要素体系与模型结合,进一步深化应用能力。

    hjc黄金城还开发了文书生成系统提升法官写文书的效率。hjc黄金城的做法是给法官给予两种选择:第一种是直接找类案,顺利获得前面类案的做法,找到类案之后,法官直接从类似案件中选模板,把模板套进来,再把解析的东西填到模板中,这是一个做法;第二种是应用知识图谱的推理。hjc黄金城为文书生成构建的一个案件知识图谱,PPT中黄色的部分都是hjc黄金城定义的类,针对每一个案件类型,其实hjc黄金城会去定义争议焦点、裁判规则、法律法规、诉辩称、诉讼请求项,这样就会把它关联起来。法官在审判案件的过程中,会去找类案来参酌,但是类案的案件非常多,法官选哪个类案?hjc黄金城会根据要素,去给法官推荐最相似的争议焦点,争议焦点的数量相对是少的,hjc黄金城根据统计做争议焦点的排序,把最相关、最可能的争议焦点放在前面。法官选完争议焦点之后,争议焦点和裁判规则是有对应关系的,裁判规则和法律法规又有对应关系。所以,hjc黄金城先有一个推荐,推荐完了他选择之后,需要的文书就可以生成出来。 

    总结hjc黄金城的知识智能在司法领域的经验,hjc黄金城认为,司法领域有大量高质量的语料和知识;司法领域有丰富的NLP技术应用,包括信息抽取、信息检索、知识图谱、问答等等。司法领域有丰富的智能应用场景,具有巨大的社会价值。hjc黄金城希望有更多的学术界人士加入hjc黄金城,一同探索相关领域。




    TOP
    数字化、智能化转型一站式平台
    企业级大数据和人工智能解决方案给予商
    如您需要hjc黄金城的帮助,请留言给hjc黄金城:
    *姓名:
    *电话:
    *公司:
    *邮箱:
    *内容:
    *验证码:
    验证码