用统计回归模型判断葡萄酒的味道

MinitabUsersGroup • 文章来源: Minitab • 2022-09-21 19:38 • 统计学

概述：

如何描述葡萄酒的味道，通常就像一首诗：“酒香浓郁，回味悠长，酒精含量高，但不酸也不辣口，味道鲜美，又夹带一丝黑樱桃味……” 鲜花和水果一般都是用来做修饰，旨在帮助饮用者了解一杯葡萄酒中的风味。这首诗反映出一些人认为将水果转化为葡萄酒是一种艺术形式。然而味道都归结为影响葡萄酒口感的化合物。在作为生活艺术的葡萄酒的爱情描述的背后，有科学。统计回归可以提供帮助。

什么风味的葡萄酒？

当然，葡萄酒中含有许多在水果和香料中发现的天然化合物，因此将其用作描述修饰语是可以理解的。例如，特定的化合物将始终如一地告知我们对甜，酸或苦味的品尝体验。

然后就是优质葡萄酒的必需品：优质葡萄，勤奋的酿酒方法和桶装陈酿。每个酿酒阶段都会对风味产生不同的影响。

由于在该过程的这些阶段中出现的葡萄酒中存在不同的化学物质，因此发生风味变化。当然，葡萄酒中的所有口味都来自葡萄和酿酒过程，操纵这些阶段可以使葡萄酒具有更好的风味。

品尝葡萄酒可能听起来空灵，但味道都涉及到化学化合物，影响葡萄酒的味道。在作为生活艺术的葡萄酒的爱情描述的背后，有科学。酸主要添加酸味，酒精化合物也会影响味道，乙醇会增加苦味，甜味和酸味等。如果想要能够使用某些化合物对风味影响的知识，他们必须了解哪种相会自然地产生该化合物。

从糟糕的葡萄酒中鉴别出好酒

不可避免的是，葡萄酒的口味因人而异，并且葡萄酒品尝者有许多不同的特征，但我们知道一些葡萄酒显然很明显比其他的更好，大多数人有可能会把差的酒认为是好酒。

当您需要了解这样的情况时，可变性和噪声起着重要作用，统计模型非常有效地从看似完全混乱的数据中识别关键输入。

本文详细介绍了品酒数据和强大的建模技术如何深入了解对一组经验丰富的葡萄酒品尝者来说非常重要的变量。

分析表明，如果您选择正确的分析，即使是口味偏好，也可以通过统计进行评估。

我们有兴趣使用统计数据来了解具有更多硫酸盐或更多氯化物的葡萄酒是否会更好。基于这种理解，有可能酿造出更好的葡萄酒。我们将考虑许多潜在的预测因素，如酸度，二氧化硫和酒精百分比。

味觉测试

一组酿酒师品尝了几种白葡萄酒和红葡萄酒，并为每种葡萄酒提供了质量良好（1）或差（0）的二值评估。我们的目标是确定这些变量中的哪一个对葡萄酒质量有显着影响。

使用回归分析二值味觉数据

由于此数据集的复杂性和可变性，简单图表不足以确定哪些变量可能很重要。回归分析让我们看到多个因素如何影响结果，因此它是查看葡萄酒品尝变量的理想方法。

然而，我们的小组只是将每种葡萄酒评定为高品质或低质量。这意味着我们有二值和非连续响应数据，因此我们需要谨慎行事 – 使用标准回归或ANOVA分析二值响应通常不是一个好主意。

由于二值数据遵循二项分布而不是正态的钟形分布，因此标准回归可能导致概率预测为负或大于100％。我们可能会得到一个不必要的复杂模型，其中一些虚假的交互作用会看起来很重要。此外，二值数据的方差不是恒定的。

幸运的是，有一个简单的解决方案，因为我们有二值响应数据，我们只需要使用适当的工具：二值Logistic回归。

完整模型回归分析

回归分析的标准做法是从“完整模型”开始，其中包括您收集数据的所有潜在重要因素。在这种情况下，我们通过包括所有变量和这些变量与葡萄酒类型之间的所有交互作用来开始分析。

要包含交互，请在Minitab中转到统计>回归>二值Logistic回归>拟合二值Logistic模型>模型>添加交互。

引入交互时，标准化模型中的连续预测变量以避免扰乱，效果也很有用（统计>回归>回归>拟合回归模型>编码）。

我们使用逐步方法逐步自动构建最佳模型，并从大量候选项中识别出有用的子集。为此，请转至：统计>回归>二值Logistic回归>拟合二值Logistic模型>逐步。

用于基于该逐步方法识别最佳模型的标准是Akaike信息标准（AIC）。AIC估计给定模型丢失的信息的相对量，该统计量用于比较不同的模型。AIC越小，模型拟合得越好。AIC包括惩罚，该惩罚随着估计参数的数量而增加以阻止过度拟合。

最终，这个迭代过程将我们引向下面的模型。

品尝美酒的因素

有12项，这个模型似乎很难理解和解释，但它确实为我们提供了一个线索，让我们可以深入研究这些数据，以便更好地了解哪些因子对品尝美酒的贡献最大。

编码（标准化）系数有助于了解哪些变量最重要：

“Density”具有最大的影响（-3.504），然后“Residual Sugar ”*“Wines”（2.75）具有第二大影响，然后是“Fixed acidity”（1.33）和“Fixed acidity”*“Density”（ 1.213）。

上面的交互图表明，“Residual Sugar”对红葡萄酒质量几乎没有影响，但它在白葡萄酒中起着重要作用。

现在我们有了葡萄酒的模型，我们可以看到数据告诉我们影响我们小组排名的葡萄酒特征。例如，这个主效应图总结了“fixed acidity”，“Density”和制作好酒的概率之间的关系。较高的“fixed acidity”和较低的“Density”往往会改善葡萄酒的质量。

结论

因此，当您需要了解至少在表面上无视数据分析或候选变量数量很大的情况时，为什么不通过使用二值Logistic回归等技术进行更深入的挖掘呢？

您可以使用与我们对此品酒数据所做的相似的方法来分析营销或销售数据，更好地了解客户偏好，并深入了解重要因素 – 即使像品味偏好一样，它们似乎很难测量。

作为结论，由于Minitab 21的功能 – 基于Akaike信息标准（AIC）的逐步方法，我们能够确定最佳模型。

本文由 Minitab 投稿至数据分析网并经编辑发表，内容观点不代表本站立场，如转载请联系原作者，本文链接：https://www.afenxi.com/122320.html 。

数据分析统计模型 Logistic Minitab 回归模型

赞 (1)

MinitabUsersGroup专栏

如何在残差四合一图中显示P值？

上一篇 2022-09-19 14:26

常见的概率分布类型

下一篇 2025-01-07 16:53

意见反馈

返回顶部