第3章电影产业数据基础分析与挖掘 3.1电影产业数据类型及特点 电影产业线上和线下不同终端,产业链不同环节每天都在产生不同类型的各种数据。数据类型按生命周期分,包括电影投融资数据、电影生产制作数据、电影宣发数据、电影放映数据及电影衍生品数据等; 按数据生成形式可分为图片、语音、文字及视频等类型; 按平台分可以分为互联网、电视端和手持终端的电影相关数据等; 按数据特点,分为结构数据、非结构数据及半结构数据等; 从应用角度,有来自视频网站、社交网络和搜索引擎的收看数据、媒体热议数据、搜索数据、社交网站提及数据、视频网站用户数据、在线购票数据及影院观众消费数据等。对电影产业相关数据进行梳理,可以为电影产业的数据汇聚和挖掘提供方向指导,本章对电影产业基础数据进行分类整理,在此基础上进行基础数据挖掘。 1. 按电影生产周期划分 电影产业链各环节相关数据信息如图3.1所示,具体如下所述。 图3.1电影产业链各环节相关数据信息 电影投融资相关数据: 投资方、日期、投资事件、投资总额、回款周期、投资收益、融资方、金额及轮次等数据。 电影制作相关数据: 电影制作数据包括电影设计和规划、出品、承制、顾问、制片人、剧本、剧本作者、导演、监制、编剧、片长、演员、场务、场记、场地管理、布景、灯光、造型、服装、化妆、道具、拍摄地点、摄影导演、艺术导演、分镜插画家、音效指导、音效设计、武术指导、特技人员、作曲、剪辑、配乐、配音、设计字幕、电影剪接、预告片、宣传及影片拷贝等数据。 电影宣传相关数据: 软文宣传、社交宣传、视频宣传和话题宣传等相关数据。其中软文宣传包括新闻、论坛和点评数据; 社交宣传包括微信、微博、贴吧、知乎和SNS等宣传数据; 视频宣传包括影片花絮、发布会、宣传会、明星视频和视频首页推荐等数据; 话题宣传包括演员海选、广告、明星探班、微博热搜和微博推荐等数据。 电影发行相关数据: 发行商、发行渠道、发行海报、广告宣传、国际发行及参加电影节活动等数据。 电影放映相关数据: 放映单位、排片、放映时间、场次、票房(日票房、周票房、累计票房等)及电影放映不同平台等相关数据。 电影衍生品相关数据: 玩具、音像制品、图书、电子游戏、纪念品、邮票、服饰、海报及主题公园等数据。 2. 按平台划分 不同平台电影相关数据如图3.2所示,具体如下所述。 图3.2不同平台电影相关数据 互联网端: 网站、影片名称、上映时间、上映地区、电影类型、片长、播放方式、发行公司、导演、编剧、演职员、剧情、预售票房、实时票房、今日票房、票房占比、累计票房、排片占比、上映天数、上座率、平均票价、场均人次、口碑、媒体关注度、网络关注度、获奖次数、评分、评分人数、影评(长影评、短影评)、想看人数、粉丝数、视频、图片、新闻、标签。 电视端: 直播频道和点播频道的收视率、电视端电影播放信息、收视用户收视行为数据,包括收视率、收视人数、收视时长等基础指标信息以及到达率、忠诚度等派生数据信息。 手机端: APP、影片名称、播放量、热度、评分、上映时间、地区、时长、导演、主演、播放量、简介、看点、电影类型、花絮、预告片及评价等相关数据。 通过融资数据信息的汇聚对齐也可以解决中国金融领域和电影市场的信息不对称问题。通过电影投资数据计量分析,可以宏观指导和监测电影市场的结构; 基于投资方信息和融资数据汇聚分类,为各投资方的综合实力、盈利模式等进行评估。 基于电影制作数据可以进行电影信息的标签标注,进而进行电影广域的画像和分类,使电影机构、电影人才和设备等实现最佳匹配,组建契合的制作班底。 基于电影营销数据的在线搜索、关注和评论等数据信息,基于数据挖掘、统计建模和机器学习等手段进行电影营销能力分析预测,可以为电影营销策略的制定提供智能决策。 基于电影放映终端的数据,可以进行影院排片的最优方案设计,电影票房预测并挖掘受众的喜好,指导后续类型电影的制作等。 基于不同终端的数据分析,可以系统评估电影各营销渠道,不同终端的用户群及喜好,扩大宣传、销售渠道以及电影的影响力等。 3. 按数据类型划分 图3.3电影产业数据类型 从大数据类型角度,数据可以分为结构数据、半结构数据、“准”结构数据和非结构数据,如图3.3所示。结构数据包括预定义数据类型、格式和结构的数据; 半结构数据具有可识别的模式并可以解析的文本数据文件; “准”结构数据为不同平台和接口不一致的数据和格式的电影在线点击数据等,非结构数据包括文本、图像、视音频等数据。电影产业数据以结构数据以及 非结构数据中的文本数据和视音频数据呈现为主。 结构数据: 上映时间、片长、预售票房、实时票房、今日票房、票房占比、累计票房、排片占比、上映天数、上座率、平均票价、场均人次、口碑、媒体关注度、网络关注度、获奖次数、评分、评分人数、想看人数、粉丝数、热度等。 文本数据: 网站、影片名称、上映地区、电影类型、播放方式、发行公司、导演、编剧、演职员、剧情、影评(长影评、短影评)、新闻、标签等。 音频数据: 预告片、花絮等。 3.2数据基础分析指标 描述性指标分析主要是对电影产业数据进行基础性描述,主要用于描述变量的基本特征。通过对电影产业数据的基础性描述, 可以对变量变化的综合特征进行全面的了解[1]。数据的基础性表示可以分为数据的集中趋势分析、离散程度分析 及分布形态分析等,具体如图3.4所示。 图3.4描述性统计指标 3.2.1集中趋势指标 1. 平均数 平均数[1]可以分为算术平均数、调和平均数和几何平均数3种。 1) 算术平均数 算术平均数是最常用的数据集中趋势指标,表示数据集合的集中趋势。它是将总体标志总量除以总体单位总量而得到的均值。算术平均数的基本式是 算术平均数=总体标志总量/总体单位总量 算术平均数有简单算术平均数和加权算术平均数两种。 (1) 简单算术平均数是将总体各单位每一个标志值加总得到的标志总量除以单位总量求出的平均指标。对于数据集合 {X1,X2,…,Xn},简单算术平均数计算方法为 = X1+X2+…+Xnn= ∑ni=1Xin (3.1) (2) 加权算术平均数首先用各组的标志值乘以相应的各组单位数求出各组标志总量,并加总求得总体标志总量,而后再将总体标志总量和总体单位总量对比。对于数据集合 {X1,X2,…,Xn},加权算术平均数计算方法为 = f1X1+f2X2+…+ fnXnf1+f2+…+fn= ∑ni=1fiXifi (3.2) 其中f表示各组的权数。 2) 调和平均数 调和平均数又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。调和平均数是平均数的一种。但统计调和平均数,与数学调和平均数不同,它是变量倒数的算术平均数的倒数。由于它是根据变量的倒数计算的,所以又称倒数平均数。调和平均数也有简单调和平均数和加权调和平均数两种。 (1) 简单调和平均数是算术平均数的变形。对于数据集合{X1,X2,…,Xn},简单调和平均数计算方法为 Hn= 1 1n ∑ni=1 1Xi = n ∑ni=1 1Xi (3.3) (2) 加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是相同的,仅有形式上的区别,即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。对于数据集合{X1,X2,…,Xn},加权调和平均数计算方法为 Hn= 1 1n ∑ni=1 1Xi = n ∑ni=1 1Xi (3.4) 其中f表示各组的权数。 3) 几何平均数 几何平均数是对各变量值的连乘积项开数次方。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。几何平均数也分为简单几何平均数和加权几何平均数两种形式。 (1) 对于数据集合{X1,X2,…,Xn},简单几何平均数计算方法为 Gn= n X1X2X3…Xn (3.5) (2) 对于数据集合{X1,X2,…,Xn},加权几何平均数计算方法为 Gn=∑ni=1 fi Xf11Xf22 Xf33…Xfnn (3.6) 其中f表示各组的权数。 2. 中位数 对于数据集合{X1,X2,…,Xn},将所有的数值按照降序或升序排序。首先确定中位数的位置,用式 n+12确定; 然后根据中位数位置确定中位数。有两种情况: 当n为奇数项时,则中位数为中间位置的数值; 当n为偶数项时,则中位数是位于中间位置的两个数值的算数平均值。 3. 众数 数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。 3.2.2离散趋势指标 离散趋势指标可以与集中趋势指标互补,展示数据集合的离散情况。在同类离散指标的比较中,离散指标的数值越小,说明数据集合的波动程度越小; 离散指标的数值越大,说明数据集合的波动程度越大[2]。 描述数据离散趋势的指标分为: 极差、方差、标准差、变异系数、分位数、异众比率等。 1. 方差与标准差 方差是总体各单位变量值与其算术平均数的离差平方的算术平均数,用σ2表示,方差的平方根就是标准差σ。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,往往更多地使用标准差。 方差和标准差的计算有两种形式: 简单平均式和加权平均式。 (1) 对于数据集合{X1,X2,…,Xn},简单平均式计算方差和标准差方法如下 σ2= ∑ni=1(Xi-)2 n(3.7) σ= ∑ni=1 (Xi-)2 n (3.8) (2) 对于数据集合{X1,X2,…,Xn},加权平均式计算方差和标准差方法如下 σ2= ∑ni=1fi(Xi-)2 ∑ni=1fi (3.9) σ= ∑ni=1fi(Xi-)2 ∑ni=1fi (3.10) 2. 最大值 最大值是指数据集合中取值最大的数据。 3. 最小值 最小值是指数据集合中取值最小的数据。 4. 极差 极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离(范围)。对于数据集合 {Xmin,X2,…,Xmax},计算极差的方法为 R=Xmax-Xmin(3.11) 5. 变异系数 变异系数又称离散系数,主要用于比较不同样本数据的离散程度。变异系数大,说明数据的离散程度也大; 变异系数小,说明数据的离散程度也小。对于数据集合{X1,X2,…,Xn},变异系数计算方法为 Vσ=σ(3.12) 6. 分位数 分位数又称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。 四分位数,即把所有数值由小到大排列并分成四等份,处于3个分割点位置的数值就时四分位数。 (1) 第一四分位数,又称为较小四分位数,等于该样本所有数值由小到大排列后第25%位置的数字; (2) 第二四份位数,又称为中位数,等于该样本所有数值由小到大排列后第50%位置的数字; (3) 第三四份位数,又称为较大四份位数,等于该样本所有数值由小到大排列后第75%的数字。 7. 四分位差 四分位差为第一四份位数和第三四份位数的差值,这个差值区间包含了整个数据集合50%的数据值。 8. 异众比率 异众比率[3]指的是总体中非众数次数与总体全部次数之比。即,异众比率指非众数组的频数占总频数的比例。对于数据集合{X1,X2,…,Xn},异众比率计算方法为 Vr= ∑ni=1fi-fm ∑ni=1fi (3.13) 其中,∑ni=1fi为变量值总频数; fm为众数组的频数; m表示数组的数量。 3.2.3分布形态指标 1. 偏度 偏度也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度表征概率分布密度曲线相对于平均值不对称程度的特征数。 偏度是由统计学家皮尔逊(Pearson)于1895年首次提出,是数据分布偏斜程度的测度。对于数据集合 {X1,X2,…,Xn},偏态系数计算方法为 SK= ∑ni=1fi(Xi-)3 σ3 ∑ni=1fi (3.14) 偏度具有如下特点: (1) 偏度=0为对称分布; (2) 偏度>0为右偏分布; (3) 偏度<0为左偏分布; (4) 偏度大于1或小于-1,被称为高度偏态分布; (5) 偏度在0.5~1或-1~-0.5之间,被认为是中等偏态分布; (6) 偏度越接近0,偏斜程度就越低。 2. 峰度 峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。峰度衡量实数随机变量概率分布的峰态。 峰度是由统计学家Pearson于1905年首次提出,用于衡量数据分布扁平程度的测度。对于数据集合 {X1,X2,…,Xn} ,偏态系数计算方法为 K= ∑ni=1fi(Xi-)4 σ4 ∑ni=1fi (3.15) 峰态系数具有如下特点: (1) 峰态系数=3,分布曲线为正态分布; (2) 峰态系数<3,分布曲线为平峰分布; (3) 峰态系数>3,分布曲线为尖峰分布。 3.3正态性分析 3.3.1正态分布定义 1. 正态分布定义 正态分布是一种常见的概率分布。最早由数学家棣莫弗(De Moiver)在求二项分布的近似式中得到的; 19世纪前叶由数学家高斯(Gauss)加以推广,所以通常也称为高斯分布[4]。 若连续型随机变量X的概率密度为 f(x)=1σ2π e-(x-μ)22σ2,-∞0,则称X服从参数为μ和σ的正态分布,记为X~N(μ,σ2)。 当X~N(μ,σ2)时,则X的分布函数为 F(x)=1σ2π ∫x-∞ e-(t-μ)22σ2dt, -∞0时,有 (-x)=1-(x) (3.20) 2. 一般正态分布的标准化 不是所有的随机变量都服从标准正态分布,对于一般的正态分布,该如何求出与相应变量的事件的概率,下面给出一个定理。 定理[5]: 若 X~N(μ,σ2),则Z=X-μσ~N(0,1)。 对于标准正态分布的分布函数, (x)=12π ∫x-∞ e-x22dt, -∞0.05。若两者结果间的差异5次以下是由抽样误差造成的,则“无效假设”不成立,可认为两组间的差异为显著,常记为p≤0.05。如果p≤0.01,则认为两组间的差异为非常显著。 显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。 常把一个要检验的假设记作H0,称为原假设(或零假设),与H0对立的假设记作H1,称为备择假设。 (1) 在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α; (2) 在原假设不真时,决定不放弃原假设,称为第二类错误,其出现的概率通常记作β。 通常只限定犯第一类错误的最大概率α,不考虑犯第二类错误的概率β。这样的假设检验又称为显著性检验,概率α称为显著性水平。 最常用的α值为0.01、0.05、0.10等。一般情况下,根据研究的问题,如果放弃真假设损失大,为减少这类错误,α取值小些; 反之,α取值大些[8]。 3.4.2显著性检验 显著性检验的方法很多,主要的有t检验、 F检验、μ检验和χ2检验等。它们的区别在于构造的统计量不同。应用最为普遍的为t检验。 t检验适用于计量资料、正态分布、方差具有齐性的两组间小样本比较,包括配对资料间、样本与均数间及两样本均数间比较。三者的计算式不能混淆。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 在进行t检验时,如果其目的在于检验两个总体均数是否相等,即为双侧检验; 如果假设是两个总体均数的大于或者小于的相对关系,则为单侧检验。 t检验分为单总体检验和双总体检验。单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布; 双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一种是独立样本t检验, 另一种是配对样本t检验。 检验需要注意以下事项。 (1) 选用的检验方法必须符合其适用条件(注意: t检验的前提是资料服从正态分布)。理论上,即使样本量很小时,也可以进行t检验。只要每组中变量呈正态分布,两组方差不会明显不同。如上所述,可以通过观察数据的分布或进行正态性检验估计数据的正态假设。方差齐性的假设可进行F检验,如果不满足这些条件,可以采用校正的t检验,或者换用非参数检验代替t检验进行两组间均值的比较。 (2) 区分单侧检验和双侧检验。单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第一类错误的可能性大。t检验中的P值是接受两均值存在差异这个假设可能犯错的概率。在统计学上,当两组观察对象总体中的确不存在差别时,这个概率与我们拒绝了该假设有关。一些学者认为如果差异具有特定的方向性,只要考虑单侧概率分布,将所得到t检验的P值分为两半。另一些学者则认为无论何种情况下都要报告标准的双侧t检验概率。 (3) 假设检验的结论不能绝对化。当一个统计量的值落在临界域内,这个统计量是统计上显著的,这时拒绝虚拟假设。当一个统计量的值落在接受域中,这个检验是统计上不显著的,这是不拒绝虚拟假设H0。因为,其不显著结果的原因有可能是样本数量不够拒绝H0,有可能犯第一类错误。 (4) 正确理解P值与差别有无统计学意义。P越小,不是说明实际差别越大,而是说越有理由拒绝H0,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同。 (5) 假设检验和可信区间的关系结论具有一致性差异: 提供的信息不同,区间估计给出总体均值的取值范围,但不给出确切的概率值,假设检验可以给出H0成立与否的概率。 (6) 涉及多组间比较时,慎用t检验。 科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后的各组间的比较,(如性别、药物类型与剂量),此时,需要用方差分析进行数据分析,方差分析被认为是t检验的推广。在较为复杂的设计时,方差分析具有许多t检验所不具备的优点。 3.5案例分析 研究对象: 分析2016年国产电影的票房和网络评价情况。 数据指标情况: 2016年201部国产电影8个指标(票房、类型、评分、评分人数、看过人数、想看人数、评分等级)。其中,电影类型包括爱情片、动画片、动作片、纪录片、惊悚片、剧情片、科幻片、恐怖片、历史片、奇幻片、喜剧片、悬疑片分12类; 电影评分范围是0~10分。0~6分表示评分等级为低等,用“1”表示; 6分以上到8分表示评分等级为中等,用“2”表示; 8分以上到10分评分等级为高级,用“3”表示。 研究内容: 各指标描述性分析、频数分析、正态性检验、属性数据分析等。 3.5.1基础描述性指标分析 从表3.1描述性分析结果可以看出: 2016年201部国产电影票房的平均数为21263.67万元,最高达到339213万元,最低仅为586万元,标准差为37608.529,表明电影票房之间差异程度较大; 国产电影类型最多为剧情片,说明2016年国内上映的电影类型偏好于剧情片; 网络评分均值、中位数、众数均在6分左右,表明2016年201部国产电影质量基本保持在一般水平。 表3.1票房和网络评价指标描述性统计分析 票房/万元类型评分评分人数/人看过人数/人想看人数/人评分等级 有效201200201201198198201 遗漏0100330 平均数21263.676.935.874150971.7854262.778501.331.58 中位数6163.006.005.900020850.0022911.504263.001.00 众数586a65.70505a3802134a1 标准差37608.5293.3471.5396573231.03978235.32312268.0170.637 变异系数1414401463.88911.2052.3715362785123.8226120765731.618150504246.9830.405 偏度4.1290.044-0.2032.4792.5613.4860.647 峰度26.404-1.230-0.5817.2187.98818.9220.552 最小值58612.4011213001 最大值339213129.304399464798841030793 第一四分位数1553.205.004.80005781.006112.251385.751.00 第二四份位数6163.006.005.900020850.0022911.504263.001.00 第三四份位数25523.0511.007.100062351.0068969.7510110.252.00 a. 存在多种模式,显示最小的值。 3.5.2数据可视化图形分析 图3.5~图3.10分别为2016年201部国产电影票房、类型、网络评分、评分人数、看过人数及想看人数的频数分析直方图和正态曲线。由此可以看出,2016年201部国产电影票房、评分人数、看过人数及想看人数呈比较明显的偏态分布且均为右偏分布; 电影网络评分则呈正态分布,即中等评分数量居多,但高评分和低评分数量较少。 图3.5电影票房直方图 图3.6电影类型直方图 图3.7电影网络评分直方图 2016年201部国产电影类型比较集中,偏好动作片、喜剧片和科幻片,并且影片低、中等级评价居多,可以说明观众对电影的质量并不满意,影片在内容上还需要进一步完善,如图3.11所示。 由图3.12可以看出,2016年201部国产电影中,高评分等级的影片评分人数、看过人数以及想看人数均高于低、中等级,说明好的口碑对票房会产生积极的影响。 由图3.13可以看出,2016年201部国产电影中,动作片和剧情片评价人数、看过人数和想看人数数值较大,说明动作和剧情类型影片在2016年获得较高票房且存在更多潜在用户。 图3.8电影网络评分人数直方图 图3.9电影网络评分看过人数直方图 图3.102016年国产电影网络评分直方图 图3.11分类型分等级电影票房分布图 图3.12分等级电影评分、看过、想看人数箱线图 图3.13部分类型电影关注人数对比图 图3.13(续) 图3.14~图3.15是2016年201部国产电影票房以及评分词云图。其中,2016年国产电影票房最高为周星驰导演的《美人鱼》; 电影评分最高则为纪录长片《我在故宫修文物》。 图3.14票房词云图 图3.15评分词云图 3.5.3正态性检验 对票房、评分、看过人数、评分人数以及想看人数进行正态性检验,可以进一步分析电影受众的观影行为分布状况,此外也可以对正态性的相关特性进行后续的建模分析等。 图3.16和表3.2分别给出正态性检验的结果。可以看出,只有评分服从正态分布。“统计量”表示检验统计量的值,“df”表示检验的自由度,“显著性”表示检验的显著性水平。从表3.2的“正态性检验”中KolmogorowSmirnov统计量和ShapiroWilk统计量可以看出,评分的显著性水平大于0.05,接受原假设,即评分服从正态分布。而票房(万)、评分人数、看过人数、想看人数及评分等级等国产电影指标的显著性水平小于0.05,不接受原假设,即票房(万)、评分人数、看过人数、想看人数、评分等级不服从正态分布。这表明一些统计模型需要排除或变换评分人数、看过人数等非正态分布指标。 图3.16正态性检验QQ图 表3.2国产电影指标正态性检验 KolmogorowSmirnovaShapiroWilk 统计量df显著性统计量df显著性 票房/万元0.2951980.0000.5551980.000 评分0.0551980.2000.9861980.056 评分人数/人0.2451980.0000.6861980.000 看过人数/人0.2441980.0000.6861980.000 想看人数/人0.2441980.0000.6491980.000 3.5.4属性数据分析 对电影类型和评分等级做列联分析,皮尔逊卡方统计量、最大似然比统计量 对应的Sig.值 等均小于显著性水平0.05,表明不同类型的电影与电影评分之间存在相关关系,即观众对不同类型电影的评价有潜在的关系倾向,具体见表3.3。 表3.3卡方检验 ValuedfAsymp. sig. (2sided) Pearson ChiSquare37.201a220.022 Likelihood Ratio35.222220.037 LinearbyLinear Association4.71610.030 N of Valid Cases200 a. 28 cells (77.8%)have expected count less than 5. The minimum expected count is 0.08. 为进一步分析类型电影在票房、评分、评分人数、看过人数及想看人数的差异,对12类电影的5个属性进行方差分析[9],具体见表3.4。其中,票房、评分人数和看过人数的Sig值分别为0.089,0.235,0.294,均大于0.05,评分和评分等级的Sig值分别为0.018和0.019,均小于0.05。方差分析结果说明: 类型电影在票房、评分人数和看过人数方面无显著差异,即观众对电影的购买和关注行为与电影类型无关,任何类型电影只要质量过硬,都会赢得更多观众的喜爱。与此同时,类型电影在评分和评分等级方面存在显著差异,说明目前观众在不同类型的电影满意度方面还存在显著差异,进一步表明某些类型的电影还需要从受众反馈等角度改进内容和质量。 表3.4方差分析 Sum of SquaresdfMean SquareFsig. 票房/万元 Between Groups2.485E10112.259E91.6480.089 Within Groups2.577E111881.371E9 Total2.826E11199 评分 Between Groups53.379114.8532.1690.018 Within Groups420.5441882.237 Total473.923199 评分人数/人 Between Groups7.501E10116.819E91.2870.235 Within Groups9.963E111885.299E9 Total1.071E12199 看过人数/人 Between Groups7.979E10117.253E91.1930.294 Within Groups1.125E121856.079E9 Total1.204E12196 想看人数/人 Between Groups3.840E9113.491E82.5050.006 Within Groups2.577E101851.393E8 Total2.961E10196 评分等级 Between Groups9.006110.8192.1420.019 Within Groups71.8691880.382 Total80.875199 图3.17类型电影与评分等级对应分析 列联分析和方差分析 本章涉及列联分析、方差分析和对应分析未对方法做具体介绍,具体公式和原理详见参考文献.表明不同类型的电影在评价等方面存在差异,对应分析的输出结果直观给出各类电影与评价等级关系,具体见图3.17。结果表明: 纪录片虽为小众电影,确是观众评价最高的电影,科幻、动作、动画和剧情类的总体评价中等; 评价最差的当属历史、悬疑、恐怖、惊悚、喜剧和爱情类,说国产电影在这些类型方面还有很大的提升空间,与好莱坞动作大片等方面还有显著差异。 参考文献 [1]陈胜可. SPSS统计分析从入门到精通[M].北京: 清华大学出版社,2013. [2]数据的描述性统计[EB/OL].https://blog.csdn.net/renirvana/article/details/96742581. [3]贾俊平,何晓群,金勇进.统计学[M].北京: 中国人民大学出版社,2003. [4]崔智泉.浅谈高斯分布的原理和应用[J].中国校外教育,2018(16): 6364. [5]盛骤,谢式千,潘承毅.概率论与数理统计[M].北京: 高等教育出版社,2008. [6]聂廷芳,李志华.标准正态分布在工程材料计划中的应用[J].课程教育研究,2018(18): 217218. [7]显著性检验[EB/OL].https://www.cnblogs.com/guoxiang/p/5775886.htm. [8]茆诗松,程依明,濮晓龙,等.概率论与数理统计教程[M].北京: 高等教育出版社.2011. [9]何晓群.多元统计分析[M].北京: 中国人民大学出版社.2015.