统计模型的选择并不简单。认为每个数据集都有自己的适应性模型是错误的。如果您是统计模型的新手,那么在探索下面的网格之前,这个简单的介绍可能是有用的。
每个建模工具都回答特定的问题。例如,与特定糖尿病有关的糖血症可以用定性变量(例如性别)来解释。在这种情况下,可以使用ANOVA模型。我们也可以使用年龄数据(定量变量)来观察是否有线性增加或减少的血糖趋势,根据患者的年龄,使用相同的数据。在这种情况下,我们使用线性回归。
统计模型的选择也可以由依赖和解释变量之间的关系的形状来指导。对这些关系的图形化探索可能非常有用。有时这些形状可能是弯曲的,因此多项式或非线性模型可能比线性模型更合适。
模型的选择也可以与你正在调查的特定问题密切相关。例如,michaelis - menten酶动力学的Vmax和Km参数的估计意味着考虑到特定的michaelis - menten方程,将反应速率(因变量)与底物浓度(解释变量)联系起来,以一种非线性的方式。
如果研究的目的只是为了预测大量的变量,那么可以考虑参数模型以外的解决方案。举例来说,偏最小二乘回归是一个特定的工具,它可以从无限多个可能相关的解释变量中预测一个因变量。在化学计量学中,使用偏最小二乘回归非常流行,在这种情况下,输出常常被大量波长的波长所预测。
模型中应该包含哪些参数?
一旦您选择了合适的建模工具,在许多情况下,您可能会问您应该在模型中包含多少参数。您所包含的参数数量越高,模型对数据的适应能力就越好(例如,降低残差,这意味着更高的R2统计量)。那么,模型中参数的数量应该最大化吗?不是真的。一个符合数据的模型太过代表特定样本的使用,而对整个种群的泛化将不那么准确。
模型质量是衡量数据的公平性与最小数量的参数之间的平衡,可以使用诸如Akaike的信息标准(AIC)或贝叶斯信息标准(BIC或SBC)等指标来评估。当将几个参数模型相互比较时,具有最低索引的模型在集合中具有最好的质量,在绝对上下文中,对这些指标的解释是没有意义的,换句话说,只考虑了一个模型。
网格
下面的网格将帮助您选择一个可能适合您的情况的统计模型(类型和依赖和解释变量的数量)。网格还包括一个列,在每种情况下都有一个示例。
参数模型的有效性条件在网格后的段落中列出。
显示的解决方案是统计中最常用的工具。它们都在XLSTAT中可用。这个列表并不是详尽无遗的。存在许多其他的解决方案。
条件的有效性
我们提出的有效性条件是经验法则。在文学上没有精确的规则。我们强烈建议你参考你的领域的具体建议。
条件的有效性
个人是独立的。
方差是均匀的。
残差遵循正态分布。
至少20人(推荐)。
无多重共线性(如果目的是估算模型参数)。
没有比个人更多的解释变量了。
多变量残差的常态。
方差在每个因变量内是齐次的。各因变量之间的相关性是齐次的。