火星链 火星链
Ctrl+D收藏火星链

比特币:这个数字,几乎所有实验室都在用,却让整个科学界陷入危机

作者:

时间:1900/1/1 0:00:00

近100年来,几乎所有科学家在分析实验数据时,都会用到p值这个工具:只有p小于0.05,才意味着实验结果具有统计显著性,才能在学术期刊上正式发表。但是,统计显著性的概念以及支撑它的p值具有相当大的局限性。而正是这样的缺陷,让整个科学界都处于危机中。

1925年,英国遗传学家兼统计学家罗纳德·菲舍尔出版了《研究者的统计方法》一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使菲舍尔成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。

菲舍尔建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,菲舍尔的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了“显著”的数学定义。

菲舍尔的遗憾

近一个世纪之后,在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是菲舍尔也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。

P值经常被曲解,统计的显著性不等于实际的显著性。此外,为了让数据更漂亮,很多研究人员有意无意地将p值向上或向下调整。美国加利福尼亚大学洛杉矶分校的名誉教授、统计学家和流行病学家桑德·格林兰德说:“你可以用统计学方法来证明任何事情。”他是呼吁统计学改革的科学家之一。只依靠达到统计显著性的研究经常会得出不准确的科学结论,这种判断标准可以把真的事情判断为假的,也可以把假的事情判断成真的。在菲舍尔退休,移居澳大利亚后,有人问他,在漫长的职业生涯中他是否有任何遗憾,他明确回答道:“当初不该提出0.05。”

Axie Infinity联合创始人:Facebook会压制我们建造元宇宙这个美丽的事物:12 月 6 日消息,Axie Infinity 开发公司 Sky Mavis 联合创始人兼业务增长主管 Jeffrey Zirlin 发表了 Facebook(Meta)进军元宇宙市场的看法,并在迈阿密 NFT BZL 会议上加密游戏分场发言时,Jeffrey Zirlin 说道:我认为,我们正在为互联网的未来而战,我们开始看到草根互联网社区在现实世界中也拥有令人难以置信的力量。Facebook 会试图压制我们建造元宇宙这个美丽的事物,因为这会威胁到他们的商业模式、他们的生活方式和他们的哲学。[2021/12/6 12:54:43]

统计学家罗纳德·菲舍尔。图片来源:维基百科

在过去十年里,关于统计重要性的争论以不寻常的强度爆发。援引两篇论文的观点:一篇文章称统计分析的薄弱基础导致了“科学最肮脏的秘密”;另一篇则提到,在检验某些假设时,存在“许多深层次的缺陷”。在争议声中,实验经济学、生物医学研究,特别是心理学被卷入了一场科学实验可重复性的危机之中。在这场危机中,科学家发现相当一部分研究是不可重复的。

一个臭名昭著的例子是“姿态能量”的概念,某篇论文声称,自信的肢体语言不仅会改变你的态度,还会改变你的激素分泌,后来这篇文章还被作者自我否定了。美国哥伦比亚大学的统计学家安德鲁·格尔曼在他博客写道:“一篇可疑的关于气候经济学影响力的论文,多年之后发表了勘误声明,最终被修正的错误结论几乎与原论文的数据点一样多,这可不是开玩笑!但勘误声明中这些更正都不足以让作者改变结论。”格尔曼还说道:“嘿,只做理论上的工作就可以了,但不需要用数据分散我们的注意力。”

诺贝尔经济学奖得主:从未买过比特币,但也许我应活跃在这个市场:诺贝尔经济学奖得主 Robert Shiller 表示,我从未买过比特币,但也许我应该活跃于那个市场。那是一个非常心理的市场, 这是令人印象深刻的技术。但是,比特币最终的价值来源是如此含糊,以至于其价值更多与叙述有关,而不是现实。我曾考虑购买它们来体验这种效果, 实际上,很多人都这样做。但我从未买过比特币, 也许我应该活跃于那个市场。”(CNBC)[2021/5/25 22:41:25]

统计显著性的概念虽然不是引起问题的唯一因素,但很明显,它是引起问题的一个关键要素。在过去的三年里,数以百计的研究人员呼吁统计学改革,他们在著名期刊上发表文章,重新定义统计显著性,或干脆放弃统计显著这个概念。美国统计协会在2016年就这一问题发表了一份强有力且不同寻常的声明,主张“进入一个没有p<0.05的世界”。美国统计协会执行董事罗纳德·瓦瑟斯坦这样说:“科学家总是说,我有小于0.05的p值,这很好。但这种粗糙的判断方法,使得科学因此停止了。”

问题是,事态会不会有什么变化。美国南加利福尼亚大学的行为经济学家丹尼尔·本杰明表示:“这已经不是新鲜事了。我们需要清醒地认识到,这一次将与以往一样,大家说要变革统计学,最终却不了了之。”很多人在变革统计学的具体措施上有分歧,正如美国经济学家斯蒂芬·齐利亚克所写的那样:“令人吃惊的是,还有不少研究者坚持使用统计显著性检验、统计结论解释和统计分析报告这三个例行公事的传统套路。”

声音 | 犇睿资本合伙人林维浩:看好资产通证化这个赛道:1月9日,在Odaily星球日报主办的2020「FAT」高峰论坛暨颁奖典礼上,犇睿资本合伙人林维浩在「市场起伏,资本如何预判」圆桌讨论中发表观点。他表示,全球政策法规层关闭了一些红利和套利机会,在加密资产及区块链领域发展早期投资机构需要下沉用行动力及各类资源赋能优质资产及团队并协助商业落地。在许多价值还未能标准化的量化前,保持理智并注意多维度动态。在谈到2020年比较看好的赛道时,林维浩表示目前还是愿意参与围绕交易和金融的标的物以获取可测算的收益,并对证券通证或通证化资产方向的基础设施保持关注。但他认为目前过多团队缺少差异化的涌入比如Defi及金融衍生产品开发等,并表示很多东西时机未到不推崇跟风。[2020/1/10]

可重复性危机

科学的目的是描述自然界中的真实情况。科学家使用统计模型来推断真相,比如确定一种治疗方法是否比另一种更有效。每个统计模型的分析结果,取决于科学家如何收集数据,如何分析数据,以及研究人员如何有选择性地展示他们的结果。

以统计方法为中心,实验结果的检验被称为零假设显著性检验,这个过程会产生一个p值。P值只是对事情有一个模糊的描述。“当我们进行实验时,我们想知道的是——我们的假设是真的吗?”本杰明说,“但是,显著性检验回答了一个令人费解的替代问题,那就是,如果我的假设是错误的,我的数据有多大的概率导致错误的结论?”

当然了,p值也有奏效的时候。一个极端但有用的例子是寻找希格斯玻色子。希格斯玻色子是物理学家于20世纪60年代首次在理论上提出的粒子。零假设是希格斯玻色子不存在;对立假设是它必须存在。欧洲核子研究中心的物理学家用大型强子对撞机进行了多次实验,得到了极其小的p值,以至于如果假设不存在希格斯玻色子的话,其结果发生的可能性就只有350万分之一。这么小的p值意味着,没有希格斯玻色子的粒子物理标准模型几乎不可能是正确的。

声音 | 区块链专家程晓明:可通过嘉楠耘智在美上市,观察中国政府对这个行业的态度:11月21日下午,中国社会科学院博士、区块链专家程晓明博士在参加活动时表示,大家此时关注公司上市的事儿,其实不完全是因为这个公司本身,更多的是关注证券市场对区块链相关公司的态度,对区块链这个行业发展的态度,尤其是中国证监会证券监管机关的态度,然后由此要观察中国政府对这个行业的态度。如果是一个普通行业的企业,别说去美国上市,就算去月球上市,恐怕也没有这么大的关注。[2019/11/21]

但是,物理学的这种精确度在其他学科是无法达到的。当做人的心理学实验的时候,p值永远不会达到300万分之一。P值为0.05时,在许多重复实验中,每20次实验中就有1次实验错误地否认了正确的假设。这就是为什么统计学家很早以前就增加了“置信区间”这个概念,作为一种让科学家估计误差或不确定性的方法。置信区间在数学上与p值息息相关。P值在0到1之间变动。如果把1减去0.05,得到的0.95就是95%的首选置信区间。但是,但是,置信区间只是一个比较好地概括实验结果的方法,可以体现多种效应量。格林兰德说:“置信区间也没有任何东西能激发人们的信心。”随着时间的推移,置信区间和p值一样,给人们提供了一种确定性的错觉。

P值本身不一定是问题的本质所在。期刊编辑、科研资助机构和监管机构宣称,p值的分析在论文中是一个非常有用的工具。因此,令人担忧的情况正在发生,统计显著性的重要性被夸大或过分强调了。2015年,可重复性危机项目开展了一项实验,对100篇重要的社会心理学论文进行了重复性检验,结果发现只有36.1%的论文的结论可以被重复出来。2018年,社会科学可重复性项目评估了《自然》与《科学》在2010年至2015年间发表的21项社会科学实验研究的可重复性。他们发现,与原研究相比,其中只有13项研究中的重复实验产生了显著结果。

声音 | 慢雾科技余弦:安全是这个加密货币领域生态的关键基础设施之一:慢雾科技联合创始人余弦在微博上称,加密货币领域的大小会议,常见的一个话题是“如何看待未来或未来应该看什么”,除了价值提升、应用落地这些大话题及拆分出来的一堆小话题,安全很少被特别展开提及,我想表达的是:未来,攻防对抗会持续加剧(不会减弱),安全是这个生态的关键基础设施之一,在这个基础设施之上,安全衍生品可以创造更大价值,到用户层面安全尽量做到很有安全感且自然而然的无感。[2019/10/8]

图片来源:slate

从0.05到0.005

很多学科的科学家已经达成了共识:对p值的误解,以及过分强调统计显著性,才是真正的问题,尽管有些人对滥用p值的严重性持较温和的态度。美国康涅狄格大学的社会心理学家布莱尔·约翰逊说:“从长远来看,科学界经常是这样子的,钟摆会在两个极端之间摇摆,你必须接受这一点。”他说,这一轮p值危机的好处是,可以提醒科学家谨慎对待实验结果。

但是,要想真正取得进展,科学家必须就解决方案达成共识,这是很困难的。尽管如此,有用的建议还是很多的。这些建议包括改变统计方法,或者改变统计分析的使用方式等。最突出的观点已经在一系列论文中提出,这些论文始于2016年的美国统计协会声明,其中20多位统计学家就改革的若干原则达成了一致意见。随后,该协会所属的一本期刊还专门制作了特刊,就这一事件发表了一系列文章。

2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”

另一些人则认为,重新定义统计显著性没有好处,因为真正的问题是阈值始终存在。今年3月份,瑞士巴塞尔大学的流行病学家、动物学家瓦伦丁·阿姆莱因与美国西北大学的统计学家、市场营销专家布莱克利·麦克沙恩在《自然》杂志上发表了一篇评论文章,主张放弃统计学显著性的概念。他们建议将p值作为一个连续变量,并将置信区间重命名为“相容性区间”,以反映它们彰显的实际意义:评估数据的相容性,而不是置信度。

显然,有更好的统计方法可以用。格尔曼经常批评其他人的统计方法,他在工作中根本没有使用零假设显著性检验。他更喜欢贝叶斯方法,这是一种基于初始信念的、更为直接的统计方法,在这种方法中,研究人员接受最初的信念,添加新的证据并更新信念。格林兰德正在推广使用一种叫做稀奇程度的新数学量,可以调整p值以产生信息位。为了检验原假设,0.05的p值仅有4.3比特的信息熵(假设有一枚均匀的硬币,抛硬币出现正面设为0、出现反面设为1,则抛一个硬币事件的信息熵就是1个比特。独立地抛256次硬币的信息熵就是256个比特。那么求解方程0.5x=0.05,解得0.05的概率约为抛掷x=-log20.05=4.3次,于是0.05的p值约为空值的4.3比特的信息熵。

所谓信息熵就是某个概率分布所包含的信息量的多少,这是信息论的基础知识。在信息论中,如果你对一件事情的发生百分之百确定,那么这件事情对你来说的信息熵等于0比特。反过来说,如果你对一件事情是不确定的,那么这件事情对你来说是包含信息熵的。格林兰德认为,如果研究人员不得不在每一个p值旁边加上一个稀奇程度,那么他们将被置于更高的标准之下。强调效应量,即发现差异的大小,也将有所帮助。

图片来源:pixabay

拥抱不确定性

统计显著性满足了研究人员对确定性的需求。格尔曼说:“这里的原罪是研究人员在得不到确定性的时候却想要确定性。”或许,现在是时候让我们接受不确定性了。

科学界正在发生微小的变化。《新英格兰医学杂志》的发言人詹妮弗·蔡斯说:“我们同意,p值有时被过度使用或被曲解了。对于治疗来说,如果我们认定p<0.05,治疗的结果是有效的;如果p>0.05,治疗是无效的。那么这就是医学的简化主义,它并不总能反映客观事实。”蔡斯同时强调,《新英格兰医学杂志》的研究报告现在已经很少使用p值了,更多是采用置信区间而不是使用p值这个概念。

根据美国食品及药品管理局的生物统计学部门的负责人约翰·斯科特的说法,关于p值的应用,临床试验的要求还没有发生任何变化。

麦克沙恩说:“最关键的是,p值不应成为看门人。我们应该采取更全面、更细化和更容易评价的指标。”其实,这个观点在历史上就有人赞同,甚至在与菲舍尔同时代的人中,也有人支持这一观点。比如在1928年,另外两位统计学大师杰尔兹·内曼和艾根·佩尔松在撰写统计分析报告时写到:“统计检验本身并没有给出最终的结论,而只是作为一个参考工具帮助人们做出最终的决策。”

撰文:莉迪娅·登沃斯

翻译:张慧铭

参考链接:

EvaluatingtheReplicabilityofSocialScienceExperimentsinNatureandSciencebetween2010and2015.ColinF.Camereretal.inNatureHumanBehaviour,Vol.2,pages637–644;September2018.

MovingtoaWorldbeyond“p<0.05.”RonaldL.Wasserstein,AllenL.SchirmandNicoleA.LazarinAmericanStatistician,Vol.73,Supplement1,pages1–19;2019

来源:环球科学

编辑:lwk

标签:区块链比特币CEB元宇宙魔兽币是有使用区块链技术吗比特币svbCEBC元宇宙数字虚拟人图片

币赢交易所热门资讯
比特币:山寨币流血不止,比特币独享牛市,我们该如何理性投资?

为什么? 为了方便,我们就拿火币的HT举例——最近这个币种的市值挺进了Coinmarketcap市值前十,可以说是平台币中最具代表性的币种之一了.

1900/1/1 0:00:00
区块链:「头条」币圈集体跑路:资金盘崩盘,交易所关停,逃亡东南亚……

作者|棘轮比萨文章来源|一本区块链资金盘被立案调查,交易所全员被抓,币圈再迎抓捕潮。在监管的重拳下,一大批资金盘项目仓促跑路,庞氏局,终于崩塌。许多交易所宣布,不再对中国用户提供服务.

1900/1/1 0:00:00
比特币:Bakkt比特币托管服务获批,现在可供所有机构客户使用

Bakkt在获得纽约监管机构的批准后,加入了机构级比特币托管服务提供商的行列。与此同时,洲际交易所(ICE)子公司推出的比特币期货产品也继续刷新纪录.

1900/1/1 0:00:00
DOT:2020年天津市春季高考综合能力科目考试大纲

天津市高职院校春季招收中职毕业生考试综合能力科目考试大纲 一、考试性质 天津市高职院校春季考试招生是普通高等学校招生的重要组成部分,是推进我市高职院校分类考试招生改革的重要举措.

1900/1/1 0:00:00
BTC:八宝饭财经早讯:外汇局要求扩大区块链平台试点

八宝饭财经早讯2019年12月16日星期一八宝饭财经早讯,区块链营养早餐八宝粥已经送达,外汇局要求扩大区块链平台试点,神马矿机创始人杨作兴疑似被捕;BTC持续在7110美元附近窄幅震荡.

1900/1/1 0:00:00
CHI:中国书画:这张画,参加了张大千生前最重要的画展

黄天才在《张大千的后半生》一书中写到:“傅申曾经说过:‘张大千一生是展览最多、画册最多、画价最贵的中国画家.

1900/1/1 0:00:00