鹅不食草

注册

 

发新话题 回复该主题

让人眼花缭乱的多项逻辑回归,原来是这么用 [复制链接]

1#
白癜风医院为您一查到底 http://www.hhlsq.com/m/

?说人话的统计学?

在前面的一期“说人话的统计学”专栏《逻辑回归能摆平二分类因变量,那……不止二分类呢?》里,我们在理论层面讨论了多项逻辑回归,将逻辑回归推广到因变量大于两个类别的情况。光说不练可不是我们说人话系列的风格,这一集,我们来看看如何用它回答具体的问题。

最近,蓝精灵们沉迷网络,越来越宅,变成了懒精灵,格格巫嗅到了商机,赶紧在蓝精灵村落的很多地方安放了自动售货机。考虑到蓝精灵们都是吃货,格格巫的自动售货机主打食品,共提供四种选择:蓝莓,蘑菇,披萨还有面包。由于这款自动售货机刚刚推出,操作一次只能买一个商品。

自动售货机的生意进行得很顺利,但是格格巫对于运营却毫不懈怠,每天盯着交易记录,琢磨着怎样才进一步提高自动售货机的销量。思来想去之后,格格巫觉得如果能知道预测每一天不同时间段蓝精灵们买哪个商品较多,就可以有针对性地多存一些,说不定还可以进行一些捆绑销售增加销量,想到这里,格格巫不禁陶醉于自己天才的想法。

然而,格格巫对着屏幕上的数字琢磨来琢磨去,也看不出来有什么规律,无奈之下只好找蓝精灵聪聪帮忙。聪聪考虑到这事儿也是为了让村里人生活更方便,就答应帮忙了,正好还可以练习一下最近刚学到的多项逻辑回归方法。

首先,聪聪得决定用哪些收据来做分析,他发现自动售货机保存了每一次交易的时间和种类,再考虑到天气对蓝精灵们想吃什么影响也很大,聪聪也查找了交易当天的平均气温,并记录下来。为了简化分析,聪聪把时间可以分为白天和晚上两个时间段。统计了各个自动售货机的销售记录,得到了下面形式的数据:

表1:蓝精灵自动售货机交易数据,这里只显示了前十行的数据,数据总量有行。

聪聪决定用多项逻辑回归来研究交易时间和气温对购买特定食品概率的相关关系,也就是说,模型的自变量是交易时间和交易当天的气温,因变量是购买不同食品的概率。为了方便模型的计算,我们把晚上时间段作为0,白天作为1来处理,当然反过来将晚上做为1也是可以的,只是在回归系数的含义会稍有不同。模型用数学公式可以表示为:

在上一集里,我们强调了多项逻辑回归必须得选择因变量的一个类别最为参考类别。在这个例子里面,我们选择了面包作为参考类别。那是不是选任何一个类别作为参考类别都是等价的呢?

这取决于你

分享 转发
TOP
发新话题 回复该主题