火星链 火星链
Ctrl+D收藏火星链

CPD:什么是数据异常检测?

作者:

时间:1900/1/1 0:00:00

上面的图像是由一个人工智能绘制的,当时我们让它为“异常检测”这个词创作艺术品。

据《华盛顿邮报》报道,2009年至2010年间,英国有1.7万名男性报告怀孕。这些英国男性寻求与怀孕相关的护理,如产科检查和产妇护理服务。然而,这并不是因为现代医学的突破!有人在国家的医疗系统中输入了错误的医疗代码。简单地说,数据记录得很糟糕,而且没有质量检查来发现错误!

这很难归咎于英国的医疗服务。质量,顾名思义,是主观的。为各种可能的错误数据创建质量检查是一项巨大的壮举。即使是数据最成熟的公司也很难预料到每一个错误。然而,如果有一种方法可以使用AI/ML,这些解决方案可以独立地从我们的数据集中学习。他们可以发现这样的错误,而不需要我们明确地说,“如果入境的是男性,那么就不要提供孕产护理。”

事实上,有。

CPDA数据分析师都知道这叫做异常检测。

什么是数据质量检查?

在我们进入异常检测的奇迹之前,我们必须了解什么是数据质量检查(以及它是如何工作的)。

大咖零距离 | 牛市来了 还可以在什么点位上车:2月12日16:00,金色盘面邀请区块链KOL安迪做客金色财经《大咖零距离》直播间,将分享《牛市来了,还可以在什么点位上车?》,敬请关注,欲进群观看直播扫描海报二维码报名即可![2020/2/12]

数据质量检查指定了数据维度的标准,即数据的完整性、有效性、及时性、唯一性、准确性和一致性。数据要么不符合这些标准,要么满足这些标准,这揭示了有关其质量的信息(是高质量还是低质量)。您可以在这里了解更多关于数据质量及其重要性的信息。

数据质量规则将指定用户定义为高质量数据的内容。例如,医院可能将老年患者定义为年龄超过60岁。一个简单的数据质量规则可以有以下形式:

规则:老年患者年龄>60岁

实际上,每家医院可能都有不同的老年患者定义标准。因此,他们可能以不同的方式定义这些规则。通过这种方式,公司可以定义各种规则来识别有问题的数据。然后将这些规则添加到“规则库”中,并在数据质量监控期间用于识别低质量条目。

一旦您的公司填充了这个规则库,您将开发一个您希望数据遵守的标准或“常规行为”。不符合这些标准的数据是无效的、不完整的、不准确的。

例如,在我们上面的高级患者规则中,如果一个申请人的年龄是35岁,而用户将其标记为“高级患者”,则此数据点将无效。

声音 | Nigel Green:加密货币市场的波动与其他金融市场没什么不同:deVere Group首席执行官兼创始人Nigel Green表示:“所有金融市场都有高峰和低谷,加密货币市场没有、也不应该有任何不同,每当市场下跌或加密货币出现一轮波动时,那些讨厌加密货币的人就会宣称数字货币完蛋了——结果它们又经历了一轮上涨。在大多数其他金融市场,这些人不会做出如此极端和毫无根据的声明。”(彭博社)[2019/11/28]

什么是异常检测?

然而,还有一种方法可以在不需要编写DQ规则的情况下找到与通常行为不同的数据点。这叫做异常检测。它使用ML/AI来扫描数据,而不是DQ规则,以发现数据集特有的模式和期望值。一旦它了解了您的数据系统是如何工作的,它就可以自动找到不符合规范(或不符合这些模式)的数据,并标记条目以提醒相关方。不符合这些标准的值被称为“异常值”。

一旦收到关于异常的警报,您将发现关于异常检测服务为什么将该条目标记为异常的信息。例如,假设一家医院在2月份记录了10,000名患者,医疗保健系统收到一个警报,将此条目标记为异常。它可以通过数据集中的上下文解释:这家医院通常每月有大约1000名患者。这种突然的跳跃是出乎意料的(或者显示为传达此信息的图形)。

分析 | 比特币现在处于什么位置?:据Huobi数据显示,BTC现报9348美元,日内跌幅1.81%。针对当前走势,金色盘面特邀分析师老张的投资课表示:针对当前走势老张认为目前比特币的多头依然是强势的,但是短期有回调的需求是正常的,而且下方有MA60日均线的支撑,也就是9000美金位置,消息面的话是一直在发酵,技术面大级别的周线MACD即将形成水上金叉,K线运行在均线系统之上,所以只要币价回调到9000美金我们可以放心大胆的去做,而且上方空间非常大,总结现在比特币的位置处于9000美金附近震荡消化上方套牢盘,为下一步的拉升做准备,我们可以看成是一个积蓄力量的过程。

合约可以考虑9100附近轻仓做多,激进者9830美金做空,同时带好止盈止损。

因为现在大家处于牛市的初期所以老张不太建议做合约,币价上窜下跳还是会以爆合约为主,所以合约就不做过多的分析。

老张给大家建议接下来的战略布局第一梯队以:BTC ETH BCH为主,XRP可以放在第二梯队,瑞波将会是年底的一匹黑马,大家可以多关注。[2019/10/28]

然后,您可以获取这些信息,并确定它是一个异常数据点还是一个正常数据点。也许是因为新冠肺炎,那家医院的病人激增了。根据您的响应方式,一些异常检测算法可以从这种反馈中学习,并在未来更加准确地检测异常。

声音 | BB:为什么Facebook不构建在区块链上?:Block.one CEO Brendan Blumer今日转发Facebook CEO马克.扎克伯格关于“言论自由” 看法的推特,并评论称:马克理解人们自由表达看法的重要性,但是为什么Facebook不构建在区块链上呢?难道是有太多东西不能公开透明化? (MEET.ONE)[2019/10/17]

在我们上面介绍医院的例子中,假设所有申请怀孕相关服务的人都被贴上了“PREG”的标签。如果绝大多数使用这些服务的患者在性别栏中有“F”(女性),异常检测就会立即注意到“M”(男性)患者是否接受了“PREG”标签。你不需要写规则“PREG必须是F”来防止这种错误发生。

不同类型的异常

不同的业务角色有不同的方法来定义数据中的异常。

营销团队可能会收到异常数量的网络研讨会注册,从一个公司的域名收到比平时更多的入站请求,或者从一个国家收到太多的请求(超过正常)。这些异常会影响他们的工作表现,并被标记为关键。

数据工程师可能对两个不同系统中关于同一实体(如客户)的冲突信息更感兴趣。

数据科学家可能会看到2月份某个随机周四的平均销售数据。然而,周四是公共假日,预计销售额将增长两倍。这肯定也是一个关键的异常!

现场 | ITAM GAMES CCO:无论什么协议,一定是内容为王:金色财经现场报道,4月30日,ITAM GAMES CCO 边振炯(音)在由金色财经和cointime主办的金色沙龙第五期现场发表演讲时表示,现在区块链领域有很多不同的协议,有人说总有一种协议会成为王者,或者是以太坊,或者是EOS。但是,他认为无论什么协议,一定是内容为王,同时分发是王后,也非常重要。[2019/4/30]

因此,您可以说异常定义和异常检测是相当主观的。需要记住的重要部分是异常检测服务必须能够检测所有形式的异常。在Ataccama,我们喜欢根据异常与数据的接近程度来定义异常。从高层(远离实际数据,关于数据本身的更一般的信息)到低层(数据列中的异常,逐行,特定值/数据点),我们可以在三个类别中定义异常:元数据、事务数据和记录数据。

元数据异常

元数据是使用度量来描述实际底层数据的数据。例如,数据质量元数据指的是关于数据资源(数据库、数据湖等)质量的信息。元数据允许您以对用例有独特意义的方式组织和理解数据,同时保持数据的一致性和准确性。

这一级别的异常处理“一般”数据,是最接近数据本身的异常。这些是关于数据的异常,而不是数据中的异常(然而,它们仍然可以表示数据中的问题)。当数据质量出现意外下降时,就会出现这种情况;当一个数据集/点通常以一种方式标记,但已经以另一种方式标记;或者在提取关于您所存储的数据的数据时,缺少一定数量的记录、记录太少或记录太多,以及发生任何其他意外情况。

事务性数据异常

从元数据转向更接近特定数据的地方,我们到达了中间层——事务性数据。我们称之为中间层,因为您正在处理来自实际数据的值,但通过聚合的镜头(即,每五天或每五分钟一次)。交易数据通常包含某种形式的货币交易,因为分析此类数据的能力非常有用。例如,如果您有每五分钟的销售汇总,您可以使用它来确定最繁忙的时间,是否值得在晚上8点后营业等等。

在这一水平上出现的异常情况可能是在一年中销售较慢的某周出现了意外的销售增长,购物假期的销售额与一周中正常日子的销售额相似,或者一个分支机构的业绩在繁忙的月份下降得异常低,等等。

记录级别的异常

在记录级别,异常检测标记数据集中可疑的特定值。如果其中一个数据点缺失、不完整、不一致或不正确,则可以将这些值标记为异常。

我们的介绍是记录级异常的一个很好的例子。数据集中的一个值(性别)是意外的,并且与系统中的其他值不协调。这只是一行信息,是包含患者年龄、既往病史、身高、体重等更大信息集的一部分。

记录级别的异常检测逐行探索每个表和列中的数据集,寻找任何不一致之处。它可以揭示数据收集、聚合或处理中的问题。

异常检测类型

现在我们了解了不同类型的异常,我们可以进入不同的方法来检测它们。一种方法侧重于将时间作为数据的主要上下文,而另一种方法侧重于在正常行为的上下文中发现异常。这两种类型的异常检测被称为时间相关和时间无关。

时变异常检测

依赖于时间的数据会随着时间的推移而演变(考虑一下我们的事务性数据示例),因此了解何时捕获值、何时输入值、多个条目以何种顺序到达等非常重要。通常,用户将这些数据分组(聚合)在一起(例如,每小时或每天),并在组级别上寻找异常或趋势,根据上下文发现异常值。

例如,当您有每日数据(即每天记录一次)时,您可以预期一些季节性。换句话说,周一的期望值可能与周二不同。因此,不同的值在不同的日子可能是异常的。此外,这些数据经常在较长时期内发生变化。这可以用数据的趋势或数据的漂移变化来表示。所有这些模式都需要时变异常检测算法来捕获。

非时变异常检测

任何没有时间维度的数据都可以被认为是“时间无关的”。换句话说,数据是什么时候创建的,输入到系统中,数据到达的顺序等等都不重要。只有实际值才重要。因此,算法只需要了解期望值是什么,或者更好的是,将它们放入“正态聚类”中。

这些异常与主数据(相对于事务数据)更相关:客户记录、产品数据、参考数据和其他“静态数据”。

结论

总之,异常检测算法允许您发现数据中不需要或意外的值,而无需指定规则和标准。它对您的数据集进行快照,并通过将新数据与过去关于相同或类似数据集发现的模式进行比较来识别异常。

至于对异常检测工具可以做什么的期望:

无论这些异常发生在较高的级别(如元数据)还是接近实际数据本身(如记录级别异常),您的异常检测服务都需要能够发现它们。

要应用于所有类型的数据,既需要时变异常检测,也需要时变异常检测。

您的服务还必须能够处理不同的数据类型,易于使用和适应,并在将值标记为异常时提供可用的解释。

异常检测领域持续增长和发展。AI/ML正在数据管理领域得到更广泛的采用和实现。我们可以预期异常检测将变得越来越主动,而不是被动。这些工具将能够在数据进入下游系统之前发现有问题的数据,从而造成损害。

异常检测很有价值,因为它通常会揭示数据之外的潜在问题,例如物联网设备中的缺陷机器、网络中的黑客企图、数据合并中的基础设施故障或不准确的医疗检查。这些问题通常很难预测,因此很难编写DQ规则。因此,基于AI/ml的异常检测是发现这些异常的最佳方法。

标签:PREREGCPDPRE价格PRE币REG价格REG币CPD币CPD价格

欧易交易所热门资讯
NFT:梦醒2022,期盼2023

作者|Azuma、十文、秦晓峰、LoopyLu、胖虎编辑|郝方舟、Mandy出品|Odaily星球日报2022,V神、CZ、SBF陆续登上《财富》杂志封面.

1900/1/1 0:00:00
ETH:一文了解基于 LayerZero 的全链货币市场 Tapioca Dao

TapiocaDAO将允许用户跨12个以上的EVM和非EVM区块链来进行借贷。其核心产品是Singularity和YieldBox:Singularity是一个独立的风险借贷市场.

1900/1/1 0:00:00
LAND:考古学与象征主义-安提凯希拉装置-2023年库克银币

“安提凯希拉装置”部分镀金硬币是“考古学与象征主义”系列的第10期。利用增强的超高浮雕Smartminting??技术将Antikythera机制置于全新的视角.

1900/1/1 0:00:00
BASE:普陀区在新春首个工作日启动“半马苏河”施工图|爱申活暖心春

苏州河普陀段岸线长达21公里,有“半马苏河”之称。在上海市推进“一江一河”发展过程中,普陀承担了岸线贯通任务的“半壁江山”,克服重重困难,凝聚“靠谱”区域化党建单位和基层各类力量参与,将“断点”.

1900/1/1 0:00:00
tron:传SEC欲取消美零售客户加密货币质押服务?Coinbase(COIN.US)CEO:这是一条可怕的道路

  智通财经APP获悉,Coinbase(COIN.US)联合创始人兼首席执行官BrianArmstrong在社交平台表示,听到传闻称.

1900/1/1 0:00:00
比特币:比特币和以太坊在鲍威尔之后对加密市场有一个丰收的交易时段

由于美联储主席杰罗姆鲍威尔在华盛顿经济俱乐部演讲中的外交语气,周二比特币与强劲的全球股票市场一起大涨.

1900/1/1 0:00:00