半数顶级论文摘要存在倾向性描述，心理学精神病学研究成重灾区

QbitAI量子位

最新更新时间：2019-08-10

阅读数：

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

“超过一半的心理学和精神病学的顶级论文摘要里存在倾向性描述”。

这项美国俄克拉荷马州立大学Samuel Jellison等人的最新研究显示，在调查了6种相关顶级期刊、分析了长达近6年的研究论文后，他们发现：

大多数临床研究中，其描述的结果难以判别，摘要含糊其辞，且没有明显的证据支撑他们的结果。

Jellison等认为，这些实验结果都是可以被随便解释的，而研究人员都在向着利于自己的方向有倾向性地去解读。

连顶级期刊上的研究都夸大研究，倾向性陈述？

到底怎么回事，先看看研究过程。

主要看统计学意义

俄克拉荷马州立大学研究人员的论据，都在这篇论文Evaluation of spin in abstracts of papers in psychiatry and psychology journals里。

Jellison等先选取了6种精神病学和心理学期刊，这些期刊2018年影响因子在5以上，并且两种期刊影响因子过10以上。

这6种期刊分别为：

JAMA Psychiatry（美国医学会杂志：精神病学分册，影响因子：15.916）
American Journal of Psychiatry（美国精神病学杂志：影响因子：13.391）
Journal of Child Psychology and Psychiatry（儿童心理学和精神病学杂志，影响因子：6.129）
Psychological Medicine（心理医学，影响因子6.159）
British Journal of Psychiatry (英国精神病学杂志，影响因子：5.867）
Journal of the American Academy of Child & Adolescent Psychiatry（美国儿童青少年精神医学会期刊，影响因子：7.26）

选定调研对象后，他们规划了一个时间期限，即从2012年1月开始，2017年12月为止，将近6年内的相关文章。

他们将这些论文放到生物医学论文搜索引擎PubMed中，并导出至在线文献管理软件Rayyan，以便根据标题和摘要等进行筛选。

这些选中的研究以临床实验为主，用以判断其是否存在倾向性陈述。问题来了，如何判断这些论文中是否夸大成果了？

研究人员认为，如果论文作者从统计角度出发，存在夸大描述的论文有一个特征，尽管主要结论与统计差异不显著，但仍会强调实验和治疗结果是有益，并且转移读者对统计上不显著结论的注意力。

评价临床研究的疗效通常有两个指标，即主要终点（primary endpoint ）和次要终点（secondary endpoint ）。

前者是指能够客观量化、可验证的研究指标，通常是研究人员最看重的决定成败的研究。

后者是次要研究目的相关的评价指标，通常是指研究的支撑论据。一个临床试验可以设计多个次要指标。

了解了临床研究主要的考核方式后，来看论文中具体提到的几个评判标准。

如果满足了标题和摘要中满足了以下情况之一，则被判定为“倾向性描述”：

一是论文摘要和题目中关注统计学上显著的次要终点上，忽略统计学上不显著的主要终点。
二是关注统计学上显著的主要终点，忽略统计学上不显著的主要终点。
三是关注统计学上不显著终点的非劣性/等效性试验。
四是使用“trend toward significance”这类趋势和意义短语。
五是关注主要终点的统计显著的亚组分析。
六是选择性关注主要终点的组内统计显著性比较。

通过这几项标准，研究人员发现，在已发表的论文中，超过一半论文的摘要中可以发现倾向性描述的证据，占比65%；其中标题部分出现倾向性描述的占比2%，结果描述中占比21%，最终讨论中49%的论文出现了倾向性描述。

资金驱动“美化”结果？

研究人员表示，这种倾向性描述大多出现在对特定药物/行为疗法的研究中，大多采用安慰剂干预或常规护理。

研究人员分析了倾向性描述与行业融资的关系，想看看到底是不是因为商业化或者资金驱使研究人员进行倾向性描述。

还真不是。结果表明，相关行业的产业化资金状况与倾向性描述的可能性无关，65项临床试验中，只有10项研究接收了一些产业界的研究资金。

研究人员认为，作为一名研究者，有道德及义务对结果诚实负责，见成果清晰地指出。在论文中倾向性描述某些结论，只会误导那些试图给患者提供治疗方案的医生。大多数医生在大多数情况下只阅读论文摘要。

网友：这篇论文本身可能也存在倾向性描述

这份研究发出后，在HackerNews论坛上引发了网友的讨论。

有些网友吐槽说，这项研究本身就存在着倾向性表述，通过一些类似“指控”言论吸引人的注意。

也有网友认为，摘要中存在倾向性描述与摘要本身的性质有关。

摘要字数通常在150到250个单词之间，但对于研究来说，特别是临床实验，往往是很复杂的事情。将细微差别融入到短短的摘要中通常是不可能的。坦白说，最清晰、简洁的语言通常会夸大结果。

也有人表示理解，表示心理学和精神病学与计算机和物理研究不同，本身结论就更偏向与解释和舆论，而不是无可辩驳的证据，所以这样的结果看起来并不奇怪。

这样的观点支持者不在少数，不少人指出这些研究不以统计模型为目标进行研究。

也有人认为，研究人员面临的出版压力也是导致这个现象的原因之一。必须要发布这个研究，而评判文章质量的好坏更多依赖于对结果的讨论而不是结果本身，因此作者才有意“报喜不报忧”。

你怎么看？

传送门

Sciencebeta报道：
https://sciencebeta.com/spin-psychiatry-journals/

论文地址：
https://ebm.bmj.com/lookup/doi/10.1136/bmjebm-2019-111176

HackerNews讨论区：
https://news.ycombinator.com/item?id=20620171

— 完 —

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧！

QbitAI量子位

最新精华更多

半数顶级论文摘要存在倾向性描述，心理学精神病学研究成重灾区

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

主要看统计学意义

资金驱动“美化”结果？

网友：这篇论文本身可能也存在倾向性描述

传送门

最新有关QbitAI量子位的文章

QbitAI量子位

最新精华更多

半数顶级论文摘要存在倾向性描述，心理学精神病学研究成重灾区

铜灵 发自 凹非寺量子位 出品 | 公众号 QbitAI

主要看统计学意义

资金驱动“美化”结果？

网友：这篇论文本身可能也存在倾向性描述

传送门

最新有关QbitAI量子位的文章

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI