《自然》科学期刊:人工智能的心理洞察,比较LLMs和人类的心理理论
在“奇怪故事”测试中,GPT-4在此测试中显着优于人类(Z??=0.13,P??=1.04×10??5,r??=0.60,95%CI0.46–0.72)。GPT-3.5的表现与人类没有显着差异(Z??=??0.06,P??=0.110,r??=0.24,95%CI0.03–0.44,BF100.47),而LLaMA2-70B的得分显着低于人类(Z??=...
《基因彩票》第九章:用先天来理解后天|科学|表型|心理学|遗传学|...
心理学家约瑟夫·西蒙斯和他的同事在探讨导致大规模生产虚假研究结果的方法论实践(被称为“P值篡改”)时写道:“每个人都知道[P值篡改]是错误的,但他们认为这只是像乱穿马路一样的小错。”但实际上,“这是抢银行一样的重罪”。注JosephP.Simmons,LeifD.Nelson,andUriSimonsohn,“False-PositiveCitation...
加速科学进步:通过贝叶斯对抗性合作
这是因为3的对数证据对应于20:1的证据比率(比较经典推断中0.05的名义p值)。有人可能会问,是否可以将这里描述的理论比较程序应用于从自由能原理继承的理论(Friston,2010)。的确,这个问题是我们的评审员提出来的。这是一个很有启发性的问题,原因有二:首先,因为有一个正在进行的敌对合作正是为了做到这一点;也就...
心理学“可重复性危机”,该如何破解?
*译者注:文件抽屉问题(file-drawerproblem),反映的是发表偏倚(publicationbias),即发表研究过于强调阳性结果(如心理学中p<0.05),大量阴性结果或小样本研究难以发表,这些不显著的研究结果仿佛抽屉中的文件,不见天日。目前,为了纠正这些问题,一些改革正在进行。研究者们已经开始提倡使用其它统计方法。比如,本杰明(Benj...
【产麻新谭】产妇硬脊膜穿破后头痛的远期心理和生理结局:一项回顾...
对于统计数据,使用了Bonferroni修正法。因此,对于两个主要结果(PPD和创伤后应激障碍),P值小于0.025被认为是显著的,而对于七个次要结果(使用抗抑郁药物、开始母乳喂养、母乳喂养持续时间、计划未来使用硬膜外麻醉、当前头痛、当前背痛、OSwestry评分),P值小于0.007被认为是显著的。所有的检验都是双尾的。
800名科学家联名主张废除p值!斯坦福教授:没有p值,期刊将充斥“无...
2.陈述:让我们明确什么是必须停止的事情:我们不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论;或者,仅仅因为置信区间包含0就得出这样的结论(www.e993.com)2024年11月1日。该陈述的误导性在于:在大多数科学领域,我们需要得出结论,然后传达我们对结论的不确定性。对于如何得出结论,明确的、预先规定的规则是必要的。
新时代船员心理健康与工作绩效关系的实证研究
由上可知,在所有的分组中,仅有受教育水平呈现出了显著的特点,其对应的F统计量数值为2.87,P值为0.04,小于0.05的显著性水平,说明在不同的受教育水平分组中,各个组间的心理健康总分具有显著的差异。观察不同分组群体的心理健康总分可知,受教育水平为“本科以上”的群体得分最低,说明其面临心理健康问题的风险较小,这...
【p值之争】斯坦福大学陆教授有话说
例如,基于Lazzeroni等的工作[6,7],对一项已报告单侧p值为2.5%的检验进行相同的重复,p值的95%置信区间可以从0%到79%。然而,该置信区间的宽度可以通过增加重复实验的样本大小而缩小。一个常见的与可重复性无关的p值的误用是,临床医生和其他人没有受过统计训练的应该人解释不当。p值测量的...
2014年心理学考研真题参考答案及解析
勤思考研名师第一时间发布2014年心理学考研真题参考答案及解析。为2014年的考生提供第一手的资料。一、单项选择题(每题2分,共65题)1.近年来,认知心理学与神经科学结合产生的新科学是A.认知科学B。神经心理学C。认知神经科学D。心理生理学
《直觉与理由》:实验语言哲学的转向与未来
因此,实验哲学有两个特点,一个是人民性,我们的哲学立场应该来自于大众。第二是科学性,你要通过科学去验证,你要像心理学家一样,你要做抽样,要做样本分析,要有P值检验。这样一个学科,本身就是跨学科,是跨在哲学和心理学,或者哲学和认知科学之间的,实验哲学是一个跨学科产物。它研究人在面对世界的时候的系统性...