深度访谈|AI 如何改变预测科学?看看统计学家怎么说
我们在这一领域所做的事情之一就是说:“好吧,我们要训练一些非常奇特的模型——它们真的是黑箱。我的意思是,它们非常复杂,我不知道它们到底有什么用,但它们会产生亲和力分数,即化合物对目标疾病的亲和力。”我说:“我能相信这个吗?”于是,在没有任何统计模型的情况下,仅仅通过观察算法在没有经过训练的分子上...
数学悖论系列之八(统计学悖论)
概率的频率理论是统计学中的一个基本概念,它将概率定义为事件发生的长期相对频率。这个理论假设,如果一个实验被重复了很多次,那么一个事件发生的次数与总的实验次数之比将会收敛到一个固定的值,这个值就是那个事件发生的概率。这种方法在结果不确定的情况下特别有用,提供了一个基于经验数据量化可能性的实用框架。频...
区间的定义和应用场景是什么?它在数学和统计学中有何重要性?
在统计学中,区间常用于估计总体参数。例如,通过样本数据计算出置信区间,以估计总体均值的可能范围。这有助于研究人员对总体特征有更准确的把握。在数学中,求解不等式时,常常需要将解集表示为区间的形式。例如,不等式2x-5<7的解为x<6,可以表示为(-∞,6)。下面通过一个表格来更清晰地展示...
数据分析中,哪些统计学是必须掌握的?认证CDA对从业有帮助吗?
2.职业发展:CDA认证可以作为个人职业发展的一个加分项,有助于在求职或晋升过程中脱颖而出。一些企业在招聘时会优先考虑持有CDA证书的候选人。3.技能提升:CDA认证考试要求考生掌握数据分析的基础和统计分析基础,能够使用各种数据分析工具,如Excel、SQL、BI等,以及掌握数据采集、处理、分析等能力。4.行业认可:C...
基于卫生统计学的疾病传播模型与实证研究
摘要:疾病传播模型在卫生统计学中发挥着关键作用,它们通过数学和统计原理模拟疾病的传播过程,为疾病的预防和控制提供科学依据。本文深入探讨了模型的理论基础、应用现状,并识别出模型构建和应用中的问题与挑战。提出改进模型的策略,包括提高数据质量、选择合适的模型、精确估计参数和采用有效的验证方法。实证研究方法的改进...
华中科技大学2025考研招生考试大纲:统计学
二.统计学1.了解常见的概率抽样方法和非概率抽样方法;2.了解问卷设计;3.掌握统计量的概念,掌握常见统计量;样本均值、样本方差、样本标准差、样本k阶原点矩、样本k阶中心矩、样本中位数、样本极差、样本相关系数、样本偏度、峰度、变异系数、经验分布函数、次序统计量;...
统计学新星董昊博士:非参数方法推动机器学习突破性进展
北京航空航天大学数学系华罗庚班毕业生董昊博士在2022年六月份完成了在加州大学圣塔芭芭拉分校(UCSB)的博士学业,他在非参数统计和机器学习领域的创新研究引起了学界广泛关注。董昊博士的学术之路从北航起步,以优异成绩毕业后,又在德克萨斯A&M大学取得应用数学硕士学位。在UCSB攻读应用统计学博士期间,他专注于开发新的非参数...
概率、统计学在机器学习中应用:20个Python示例
概率、统计学在机器学习中应用:20个Python示例大数据文摘受权转载自机器学习算法与Python实战在数据科学和机器学习领域,概率论和统计学扮演着至关重要的角色。Python作为一种强大而灵活的编程语言,提供了丰富的库和工具来实现这些概念。本文将通过20个Python实例,展示如何在实际应用中运用概率论和统计学知识。
双重机器学习及其在经济统计中的应用
在传统经济、统计模型中,往往可以区分出核心参数和冗余参数(nuisanceparameters),其目的是为了获得核心参数的无偏估计,而冗余参数往往是高维或者非结构化、非线性的。传统的思路是对于冗余参数部分,可以使用机器学习方法,然而冗余参数的偏差也会导致核心参数存在偏差,这一做法往往不能获得无偏、渐近正态的参数估计。
彼得·霍莫基等|大型语言模型及其在法律中的可能用途
一是普遍使用神经网络(neuralnetworks)和数据驱动(data-driven)或归纳学习(inductivelearning)而不是显式编程(explicitprogramming)的方法;二是使用基于情景化嵌入(contextualisedembeddings)的统计学语言模型,作为在给定情景中表示单词的一种精确方式;三是使用特殊的神经网络架构,这些架构在海量数据的训练中表现出惊人...