30岁,突然被裁员是怎样一种体验?
虽然某些公司给了员工安慰——例如N+1的赔偿。但遭遇非法裁员时,我们只有握紧法律武器才能捍卫自己的权益。
【资料图】
然而,由于法律领域存在较高知识壁垒。当普通人想使用法律武器开始维权时,往往在第一步就会卡住。
即使查到了法条,诉讼所需要的大量流程性文书也是一个难题。
如何让复杂的法律知识变得简单易懂?垂直领域的大语言模型或许是个有效的解。
最近,由北京大学信息工程学院袁粒课题组 与 北大-兔展AIGC联合实验室 联合发布的中文法律大模型产品ChatLaw,就为普通人提供了获取普惠法律服务的途径。
用户通过简单对话,即可获得较为专业的法律建议。
甚至提供专业的法律文书。
与此同时,它在网页上即可使用,没有次数限制,还能读取文件和音频,提供专业法律文书、推荐法律援助,对普通人维权相当友好。
目前,ChatLaw已经开放Demo供大家试用,并且计划将一部分模型在GitHub上开放。
ChatLaw表现如何让我们先来看看ChatLaw的表现。
先进入ChatLaw的主页面。用户可以选择对应模式,直接向模型提出具体的法律问题。
问题的表述不需要具备太强专业性,即使是朴素的自然语言,模型也能给出相关建议和案例。
当模型判断用户的描述不够具体时,它会向用户要求上传文件,并根据用户提供的信息进行事实归纳和分析。
不仅仅是归纳事实,ChatLaw还会基于事实生成具体的法律建议,甚至是法律文书。
当用户需要进一步支持时,模型还会向用户推荐周边的法律援助中心。
这样的能力甚至引发了律师的感慨。
总结下来,ChatLaw主要有两大特点:
1.智能性
2.准确性
这背后其实对应了ChatLaw的两大核心技术,“先验知识约束”和“调度模型”。
先验知识约束:避免模型幻觉语言模型能让复杂的知识变好懂。通过多轮对话,用户可以无限逼近事实,从模型里获取准确且专业的建议。
但语言模型无法回避的问题,是幻觉。
幻觉表现在模型上,是生成的内容具有偏误信息。例如对ChatGPT进行法律提问,往往会得到含糊,甚至不正确的回答。这一现象的本质是,ChatGPT数据集中并未包含中国法律,它不具备中国法律知识。
模型幻觉是无法回避的问题,尤其在最为严肃的法律领域。简单地用法律对话数据做微调,不足以支撑在真正法律场景落地。在涉及法律问题时,即使是像GPT4这样最先进的模型,也会出现幻觉和偏误。为了确保模型生成的稳健性,需要从模型训练阶段就开始介入和干预。
ChatLaw基于超过2亿的判例文书原始文本,以及340万条法律法规和地方政策,构建了大规模法律知识库。同时,通过与北大国际法学院、行业知名律师事务所进行合作,团队确保知识库能及时更新,同时保证数据的专业性和可靠性。
在训练阶段,ChatLaw团队将这些法律数据大规模注入模型,并对这些知识进行特殊处理和加强,以确保模型在后续推理中具备法律先验知识并保持稳健。同时,他们也在推理时引入多个模块,将通识模型、专业模型和知识库融为一体。通过在推理中进行约束,ChatLaw能够确保模型生成正确的法律法规,尽可能减少模型幻觉。
团队将这一整套的技术方案被定义为“先验知识约束”,并将模型训练的论文已经同步发到了arXiv上。
为了验证模型生成法律内容的准确性。他们团队特地整理了过去十年的中国国家司法考试试题,并建立了一个包含2000个问题的司法考试测试集。通过ELO机制进行检验,ChatLaw模型在测试集上成功击败GPT4,获得最高分。这充分说明了“先验知识约束”的有效性,让百亿级参数量的模型也能在专业问题上保持准确。
调度模型:提升模型智能法律咨询是高度复杂的场景。其流程标准化,但每个案件事实却是复杂多变的。这意味着,模型的智能度是至关重要的要素。为了提升模型智能度,同时增强模型的延展性。ChatLaw提出了“调度模型”的概念。用针对性微调,训练了一个专用调度模型。
ChatLaw为调度模型准备了一个极其丰富的模型&插件库。通过对用户提问进行语义理解,来对子模型和插件进行调度并重组,最终呈现出多个模态的输入和输出。
基于这套体系,ChatLaw模型将文件、音频、文字整合在一起,同时支持法律援助、法律文书、思维导图等多样化输出。这使产品具有高度的延展性。
例如,当模型判断用户的描述不够具体时,它会向用户要求上传文件,并根据用户提供的信息进行归纳和分析。
调度模型给予了产品更大的可能性。通过针对训练,调度模型可以接入市场上所有主流LLM,和符合规范的业务接口能力。这使得大规模覆盖法律工作场景成为可能。
下一步:为政企提供大模型时代下的数字化升级基于对“先验知识约束”和“调度模型”两项关键技术的沉淀,北大-兔展AIGC联合实验室已经掌握了一整套大模型时代的产品方法论,并能在多个行业和领域进行复用迁移。除本次发布的ChatLaw之外,整个团队也启动了多个行业模型的训练。在未来两个月,团队会在多个领域推出ChatKnowledge系列。包括政务、金融等多个领域的大模型产品,让垂直领域复杂的知识变好懂,覆盖更多用户需求。
除了通过支持多模态的多轮对话让复杂知识变简单,北大-兔展AIGC联合实验室将于近期继续发布cv多模态大模型,用ai生成辅助说明图片和视频,结合数字人,实现让金融、法律、政务、医药的垂直领域实现普通人对知识的触手可得。
ChatLaw不是终点。以大模型驱动的技术变革,必然会深刻改变各个行业的协作与沟通范式。大模型与产业深度如何融合将会是未来的关键。在新时代下,重要的是通过大模型能力重塑业务工作流,为企业、政府、乃至普通人创造价值。
未来两年,团队要做中国版Cohere,专注大模型企业服务。基于法律、政务、金融3个领域,不断完善行业级大模型。并基于企业知识,接入企业业务能力,定制化、私有化为企业部署大模型应用,向行业内的先进组织提供大模型时代下的全套解决方案。
研发团队兔展智能在AIGC内容引擎和营销云这一领域经过多年沉淀已成为国内核心平台,并联手北大深研院,建立了AIGC联合实验室这一充满科研活力的研发机构。实验室聚焦大模型、CV、多模态等AIGC关键技术,在多个领域具备突破性技术成果。实验室聚拢了一批新生代青年科研力量,如袁粒老师和张健老师的研究团队。团队多名骨干均为00后,成员伯华、家熙更是负责起了整个Chat-Knowledge产品的顶层架构和模型训练。
结论ChatLaw作为一款为普通人提供法律咨询的AI产品,凭借其智能性和准确性在市场中脱颖而出。通过知识注入和Plugin技术原理的支持,ChatLaw能够为用户提供高质量的法律指导、法律文书和法律建议。团队还计划将其应用于更多行业,为企业提供数字化升级解决方案。ChatLaw的问世为普通人维权提供了新的可能,使法律知识的获取更加便捷,为维护自身权益提供了有力的工具。
相关内容:
关键词: