火星链 火星链
Ctrl+D收藏火星链
首页 > 波场 > 正文

NER:NLP 的命名实体识别 Jieba

作者:

时间:1900/1/1 0:00:00

本文主要来介绍NLP中的命名实体识别。命名实体识别与中文分词、词性标注一样,也是NLP的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等多种NLP技术不可或缺的一部分。其目的是:识别语料中的人名、地名、组织机构名等命名实体。

随着命名实体数量的不断增加,一般不可能在词典中全部列出,由于命名实体的构成方法具有规律性,通常把对这些词的识别在任务中进行独立处理,称之为命名实体识别。NER一般分为3大类和7小类。

1.中文命名实体识别的难点

各类命名实体的数量众多。命名实体的构成规律复杂。比如人名的构成规则各有不同,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;再比如机构名的组成方式,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。嵌套情况复杂。一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。长度不确定。与其他类型的命名实体相比,长度和边界难以确定,使得机构名更难识别。中国人名一般二到四字,常用地名一般二到四字,但是机构名长度变化范围极大,少的只有两个字简称,多的达到几十个字的全称。2命名实体识别方式

Coinbase Cloud与Chainlink Labs合作推出NFT地板价喂价服务:9月29日消息,Coinbase Cloud和Chainlink Labs合作推出NFT地板价喂价服务,允许开发人员实时访问NFT价格以创建新的DeFi应用程序,如NFT借贷市场和NFT指数。该功能将首先支持Bored Ape Yacht Club、CryptoPunks、CloneX和World of Women这些蓝筹NFT。(Decrypt)[2022/9/29 22:39:23]

中文分词中,主要有基于规则方法、基于统计方法和基于二者的混合方法。命名实体识别主要也包含这三种方法。

基于规则的命名实体识别:规则加词典是早期命名实体识别中最行之有效的方式。依赖手工规则,结合命名实体库,对每条规则进行权重赋值,然后通过实体与规则的相符情况来进行类型判断。基于统计的命名实体识别:与分词类似,目前主流的基于统计的命名实体识别方法有:隐马尔可夫模型、最大熵模型、条件随机场等。其主要思想是:基于人工标注的语料,将命名实体识别任务作为序列标注问题来解决。基于混合的命名实体识别:NLP并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法,结合规则和统计方法。序列标注方式是目前命名实体识别中的主流方法,下面重点介绍基于CRF条件随机场的方法。

SkaleNetwork已与ETHGlobal合作,以支持ETHOnline黑客马拉松:9月1日,据Smart Crypto News发推表示,以太坊原生模块化区块链网络SkaleNetwork与以太坊生态系统开发者社区ETHGlobal达成战略合作关系,将共同支持2022年9月2 -28日举行的ETHOnline黑客马拉松活动。[2022/9/1 13:01:52]

3基于CRF的命名实体识别

条件随机场的主要思想来源于HMM,也是一种用来标记和切分序列化数据的统计模型。不同的是,条件随机场是在给定观察的标记序列下,计算整个标记序列的联合概率,而HMM是在给定当前状态下,定义下一个状态的分布。

条件随机场的定义为:假设X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是联合随机变量,若随机变量Y构成一个无向图G=(V,E)表示的马尔可夫模型,则其条件概率分布P(Y|X)称为条件随机场,即:

IMX将于11小时后完成Coinlist公募轮最后一次解锁:4月8日消息,以太坊ZK-rollup二层ImmutableX通证IMX将于11小时后完成Coinlist公募轮最后一次解锁,释放量为6,664,000枚,释放后的流通量约为2.42亿枚。Coinlist公募轮价格为$0.1或$0.15。[2022/4/8 14:13:07]

P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)

其中w~v表示无向图G=(V,E)中与结点v有边连接的所有节点,w≠v表示结点v以外的所有节点。

例如:对句子“我来到陶家村”进行标注,正确标注后的结果为:我/O来/O到/O陶/B家/M村/E。采用线性链CRF来进行解决,那么是其一种标注序列,也是是其一种标注选择,类似的可选择的标注序列有很多,在NER任务中就是在这么多的可选标注序列中,找出最靠谱的作为句子的标注。

Polygon在主网集成Chainlink的VRF:据官方消息,Polygon(原Matic)在主网集成Chainlink的VRF(可验证随机函数),作为需要安全和公平随机性开发人员的推荐解决方案。这样可以使游戏dApp在Polygon的Lay 2聚合器上经济高效地扩展和丰富游戏场景。[2021/2/23 17:45:24]

那么我们要解决的问题就是要判断标注序列是否靠谱。就刚才的两种标注方法,显然第一种比第二种更为准确,因为第二种将“陶”和“家”都作为地名首字标成了“B”,一个地名两个首字符,显然不合理。假如给每个标注序列打分,分值代表标注序列的靠谱程度,越高代表越靠谱,那么可以定一个规则,若在标注中出现连续两个“B”结构的标注序列,则给它低分。连续“B”结构打低分就对应一条特征函数。在CRF中,定义一个特征函数集合,然后使用这个特征函数集合为标注序列进行打分,据此选出最靠谱的标注序列,该序列的分值是通过特征函数集合得出的。

声音 | Mt.Gox前CEO:CoinLab是债权人赔偿进展的重大障碍:据cointelegraph报道,Mt.Gox前首席执行官Mark Karpeles在接受采访时表示,他认为Mt. Gox的法庭案件全部解决还需要几年。现在的实际进展取决于一个特定的债权人,即一家名为CoinLab的公司,Gox曾试图与其合作以处理美国用户。事实证明,CoinLab没有获得正确的许可,CoinLab试图起诉GOX,GOX则在美国反诉了CoinLab。与此同时,GOX破产了,因此诉讼成了索赔。但是,随着最近的请愿,他们发起了新的高达160亿美元的索赔,这阻止了一切进展。Karpeles表示,债权人将获得的还款金额已经确定,唯一可能会改变该金额的是CoinLab被批准获得更多赔偿,但这是不太可能的。Karpeles称,唯一剩下的就是需要清除CoinLab的指控,然后向法院提交原始计划。实际上,CoinLab是向前发展的重大障碍。[2019/6/18]

在CRF中有两种特征函数,分别为:转移函数tk(yi-1,yi,i)和状态函数sl(yi,X,i)。tk(yi-1,yi,i)依赖于当前和前一个位置,表示从标注序列中位置i-1的标记yi-1转移到位置i上的标记yi的概率。sl(yi,X,i)依赖当前位置,表示标记序列在位置i上为标记yi的概率。通常特征函数取值为1或0,表示符不符合该条规则约束。

4日期识别代码示例

应用场景:

现有一个智能外呼系统,由机器人拨打电话给客户,通知客户新股中签情况,客户与机器人进行对话。对话机器人根据用户的语音进行解析,发觉用户的需求,比如:新股中签的时间,新股买入的时间等。通过asr技术将用户的语音转换成中文文本,然后由于asr的识别准确度问题,许多日期类的数据并不是严格的数字,比如会出现“十一月12日”“2019年11月”“20191112”“后天下午”等形式。

现在的需求是识别出每个请求文本中可能的日期信息,并将其转换成统一的格式进行输出。比如:“我打算今天或明天买入新股”,那么通过日期解析后,应该输出为“2019-11-12”和“2019-11-13”。

通过结果分析可以看到,text1text2text3text4结果还是相对较好的,对于text5这种规则覆盖之外的场景,方法效果大大降低。

作者:KevinTao

知乎号:Kevin陶民泽

备注:转载请注明出处。

如发现错误,欢迎留言指正。

标签:CRFNLPNERCRF币CRF价格NLP价格NLP币NER价格NER币

波场热门资讯
数字货币:谷歌宣布实现量子霸权!数字货币从此将毫无价值吗?

昨日,谷歌通过在杂志发布论文对外展示了他们最新的计算机技术。他们研制了一个叫“西卡莫”的量子计算机处理器,能在200秒内完成传统超级计算机花1万年左右的时间才能完成的运算任务.

1900/1/1 0:00:00
数字货币:受中美贸易影响,黄金比特币出现大跳水,未来或跌至5500美元/枚

受中美贸易合谈的影响,全球股市利好不断,美指不断创新高,避险投资项目:黄金、比特币近期都出现大跳水。在未来一个星期也是以看空为主。国家发行自己的数字货币,大力整顿或关停矿机行业.

1900/1/1 0:00:00
比特币:比特币3.5年来首个黄金十字周排行榜

比特币周线图显示,50年期和100年期移动平均线出现黄金交叉。这一广受关注但滞后的指标可能无法吸引买家,因为目前更广泛的市场环境是看跌的.

1900/1/1 0:00:00
以太坊:10月25日起,新中国成立70周年纪念币开启第二批次兑换

新中国成立70周年双色铜合金纪念币,图片源自央行官网。 O3 Swap将于10月15日上线Arbitrum:10月14日消息,跨链聚合协议O3 Swap计划于10月15日上线Arbitrum,随.

1900/1/1 0:00:00
PAS:桃李面包(603866.SH)拟对南昌桃李增资600万元

来源:格隆汇 格隆汇11月14日丨桃李面包(603866.SH)公布,公司拟以人民币600万元对全资子公司南昌桃李面包有限公司(以下简称“南昌桃李”)进行增资,增资完成后.

1900/1/1 0:00:00
区块链:区块链不是发币炒币 它实际的作用比你想象的要大

中新网北京12月4日电(彭婧如)区块链在中国正迎来前所未有的政策利好,掀起新的发展热潮,但一度沉寂的虚拟货币炒作热度却再度抬头,甚至有人竟敢假借中国人民银行名义发币炒币.

1900/1/1 0:00:00