定量化管理决策概述 ■了解管理的特征与职能,以及定量化管理决策在管理中的重要作用; ■掌握定量化管理决策的分析过程和原则; ■掌握管理决策的主要分类方法。 11管理科学概述 111管理的定义 管理是人类最重要的活动之一。在人类历史上,自从有了人类进行有组织的活动,就开始有了管理活动。人类为了利用有限的资源,来最大化满足自身的欲望,通过管理活动整合人类的资源,实现共同协作,取得“1+1 >2”的效果。人们通过管理活动可谋求个人无法获得或实现的生存与发展的机会、条件和目标。尽管今日,人类掌握了大量的科学技术,在谋求自己的生存与发展方面已有很大的能力,但这并不意味着人群组织可以解散、管理可以变为个人管理自己时间和事务的一件事,相反,人们今天的社会化程度更高,管理活动更加复杂。事实上,工业化带来的分工可提高生产效率的概念已深入现今人类社会的各个领域,现代社会的任何一项重大活动和成就都离不开管理活动。筹划未来、协调社会成员的行为以面对新问题的挑战已成为人类社会进步的必要环节,人们对管理活动的依赖也就更加深入,管理活动已成为人们进行社会生产、生活的基本活动之一。 “科学管理之父”泰勒(FWTaylor)认为,管理就是指挥他人用其最好的工作方法去工作,所以他在其名著《科学管理原理》中讨论和研究了两个管理问题:①员工如何寻找和掌握最好的工作方法以提高效率;②管理者如何激励员工努力地工作以获得最大的工作业绩。诺贝尔经济学奖获得者赫伯特·西蒙(Herbert Alexander Simon)教授对管理的概念有一句名言:“管理即制定决策。”在西蒙看来,管理者所做的一切工作归根结底是在面对现实与未来、面对环境与员工时不断地进行各种决策,直到获取满意的结果,实现令人满意的目标。 数据、模型与决策 第1章定量化管理决策概述 泰勒和西蒙都为管理学的发展做出了巨大贡献,几乎所有的管理学教科书都要提及他们的观点和看法,但还有一位对现代管理理论体系有重大影响的是法国人亨利·法约尔(Henry Fayol)。法约尔在其名著《工业管理和一般管理》中给出了管理的概念。法约尔认为,管理是所有的人类组织(不论是家庭、企业或政府)都有的一种活动,这种活动由五项要素组成:计划、组织、指挥、协调和控制,如图11所示。其中,计划是指预测未来并制订行动方案;组织是指将系统的各个要素、各个环节从时间和空间上建立结构和秩序;指挥是指为组织制定战略目标,明确行动方向;协调是指让组织成员团结一致,使组织中的所有活动和努力得到统一和谐;控制是指确保组织中进行的一切活动符合所制订的计划和目标。基于法约尔的管理概念,管理可以视为对组织的有限资源进行有效系统整合,以达成组织既定目标与责任的动态创造性活动。 图11管理的五大职能 从企业职能和管理对象的角度,管理的主要内容如图12所示。首先,企业管理需要基于经营目标进行战略发展与规划管理。在企业战略规划的指导下,企业管理又可分为核心管理职能和支撑管理职能。其中,核心管理职能包括采购与供应链管理、研发与技术管理、生产计划管理、市场营销管理;支撑管理职能包括财务管理、人力资源管理、信息及知识管理。 图12企业管理的主要内容 112管理的特征 1职能性 管理的职能可分为以下五个方面。 (1)计划与控制职能。计划与控制是管理系统工程的基本职能,即对系统未来目标的制订,并通过管理人员来控制整体方案和行动过程。 (2)监督与评价职能。监督与评价职能是按照计划标准,搜集被管理系统中有关活动的信息,衡量计划的完成情况和纠正计划执行中的偏差以及系统绩效的优劣,以确保计划目标的实现。 (3)协调职能。协调职能在于保证系统与系统环境以及系统内部各分系统或要素之间,能够维持合理的相互关系,或者通过调整,使之达到综合平衡。系统越复杂,就越需要有相应的机构进行协调,做到以最合理的人力、物力、财力的耗费,实现系统的整体目标。 (4)领导与决策职能。领导职能是管理者为员工树立目标,指挥并激励下级以有效实现组织目标。决策职能主要是通过环境预测及分析,在众多备选方案中选择最佳行动方案的过程。 (5)服务职能。为企业系统的功能提供各种必要的信息服务和资源服务,保证企业系统中增值环节的顺畅进行,如人力资源管理、后勤保障管理等。 上述五大职能是相互联系、相互制约的。其中,计划是管理的首要职能,监督、评价、控制、协调和决策等职能都是围绕计划展开的。 2经济性 效率(efficiency),是指管理活动的投入和产出的比值关系,是使组织资源的利用成本达到最小化。它反映了资源利用的程度。 效果(effectiveness),是指组织活动实现预定目标的程度。它反映了目标实现的程度。 效率和效果之间存在明显差别,效率涉及的是活动的过程、方式,效果涉及的是活动的结果。当一个组织实现了组织的目标,就说明是有效果的。但有效果的组织完全可能出现效率低下的情形;反之,高效率的组织也可能是无效果的。效益是有效产出与投入之比,效益反映的是资源的有效利用与目标实现的程度,既涉及活动的过程,又涉及活动的结果。 作为一个组织,管理工作不仅仅是追求效率,更重要的是要从整个组织的角度来考虑组织的整体效果以及对社会的贡献。因此,管理工作追求高效率和好效果,即追求效益。 3环境性 管理环境是指对组织绩效起着潜在影响的外部机构或市场。管理的环境可分为一般环境和竞争环境。 一般环境包括:经济环境、政治环境、社会环境、技术环境。其中,经济环境指社会整体的经济发展形势、景气情况对组织的影响因素,如经济发展趋势、物价水平、财政金融政策等。政治环境指社会政治形势、各种政治事件所构成的对组织的影响因素,如国家政局的稳定性、国际关系、重大国际事件的发生与发展等。社会环境指传统风俗、道德观念、价值取向、知识水平等因素的总和。技术环境是指科技水平的提高、新工艺和新技术的发明和应用等构成的因素。 竞争环境包括:供应者、顾客、竞争者、政府机构、利益集团。其中,供应者是向组织提供资源的单位。组织的运转需要资源,由于资源是广义的,故供应者应包括:供应商(原材料)、银行(资金)、学校(人员),组织应力求以低成本来保证持续、稳定的供应。顾客是组织要满足其某种需要的服务对象。组织能否成功,关键在于能否让顾客满意。竞争者是能够提供相同或可以替代产品的组织,相互成为竞争对手。竞争主要表现在市场、资源上。政府机构是指国家工商及各行业监管部门,其制定的政策、法律、法规对企业的竞争力也有较大影响。利益集团是指社会上代表某一部分人的特殊利益的群众组织,如工会、消费者协会、环境保护组织等。 4科学性 管理的科学性是指管理作为一个活动过程,其间存在着一系列基本的客观规律。人们通过从实践中收集、归纳、检测数据,提出假设,验证假设,从中可抽象总结出一系列反映管理活动过程中客观规律的管理理论和一般方法。人们利用这些理论和方法来指导自己的管理实践,又以管理活动的结果来衡量管理过程中所使用的理论和方法是否正确,是否行之有效,从而可使管理的科学理论和方法在实践中得到不断验证和丰富。因此,管理是一门科学,它以反映管理客观规律的管理理论和方法为指导,有一套分析问题、解决问题的科学方法论。 5动态性 管理的动态性特征主要表现在这类活动需要在不断变化的环境中对变动的组织进行管理,需要面对资源配置过程中的各种不确定性。管理的载体是组织,组织包括企事业单位、国家机关、政治党派、社会团体以及宗教组织等,由于各个组织所处的客观环境与具体的工作环境不同,各个组织的目标与从事的行业不同,从而导致了每个组织中资源配置的不同性,这种不同性就是动态特性的一种派生,因此,不存在一个标准的处处成功的管理模式。近年来,为应对管理动态性而提出管理的柔性——组织对于内部要素和外部要素不确定性的适应能力,已越来越受到关注。 6创造性 既然管理是一种动态活动,针对每一个具体的对象没有一种唯一的、完全有章可循的模式可以参照,那么,欲达到既定的组织目标与责任就需要有一定的创造性。随着科技的迅速发展和市场环境的不断变换,现代企业对管理的创造性要求越来越高。管理者需要针对各种新变化,不断创造出新的战略模式、组织模式、设计模式、生产模式和运营模式。 12定量化管理决策 121定量化决策与决策四要素 学术界对决策有许多不同的定义。诺贝尔经济学奖获得者西蒙(Herbert ASimon)认为“管理就是决策”,这就是说管理的核心就是决策;学者Gregory在《决策分析》中提及,决策是对决策者将采取的行动方案的选择过程。狭义的决策就是做决定,单纯强调做决定的最终步骤;广义的决策则将管理过程的行为都纳入决策范畴,涉及从数据调研、问题定义到最终做决定的所有步骤,贯穿于整个管理过程中。 本书中的定量化管理决策是指在广义的决策概念下,更强调采用数据和数学的定量化方法,即基于数据的收集、处理和分析,建立定量化的管理决策模型,再通过各种决策准则和方法在众多备选方案中选择最恰当的行动方案。因此,实现定量化管理决策的三个重点就是数据、模型和决策,这也是本书的主要内容,如图13所示。 为实现定量化决策,需要明确决策的基本要素才能对管理决策问题进行清晰定义。具体说来,决策的基本要素有以下四个。 (1)决策者及其决策目标:进行决策的个人、团体、组织。在进行决策分析时,应首先明确决策者,才能明确决策目标、决策方案、环境状态等要素。决策目标是决策者希望达到的状态或目的。一般而言,在管理决策中决策者追求的是利益最大化或成本最小化。 (2)决策方案:可供决策者选择的行动方案。在决策过程中,需要根据决策问题建立两个或两个以上的备选方案,由决策者进行选择。 (3)环境状态:决策分析必须考虑决策所处的环境状态。在内部决策场景下,环境状态指影响决策结果但决策者无法控制的自然状态,如决策分析。在多方决策场景下,环境状态指影响决策结果但决策者无法控制的其他决策者的状态,如博弈分析。通常用概率表示各种环境状态发生的可能性。 图13数据模型与决策的主要内容 (4)决策准则:决策者进行决策判定的标准和依据,具体体现为决策者对各个决策方案进行评价的量化指标。每一种决策备选方案及环境状态的组合都会具备相应的指标值(益损值)。 122定量化决策分析的过程和原则 定量化决策分析就是为帮助决策者在多变的环境条件下进行正确决策而提供的一套推理方法、逻辑步骤和具体技术,以及利用这些技术和方法选择满意的行动方案的过程。定量化决策分析的过程可概括为如图14所示的几个步骤。 图14定量化决策的过程 步骤1:定义问题及整理数据。任何一个决策问题的提出都来自于管理的需求。因此,对决策问题进行定义,首先,要明确管理需求,进而明确该问题涉及的决策者以及决策者要达到的管理目标。其次,根据决策四要素,问题定义还包括识别出与问题相关的管理现状、管理“瓶颈”、环境状态、效益指标等要素。这些要素的识别需要进行大量的数据整理工作,如数据的收集、清洗、分析、预测、挖掘等。数据的整理会用到大量统计学方法、数据管理系统和数据分析软件(如SPSS),以帮助我们从大量的信息中准确提取出所需要的数据。本书“数据”部分的内容,就是为这一决策步骤提供理论和方法的指导。 步骤2:构建定量化决策模型。模型是对现实系统或本质规律的抽象表达。管理决策模型是用数学语言或一套抽象符号系统对决策问题进行的一系列描述,如线性规划模型、整数规划模型、排队论模型、博弈论模型、网络计划模型等。决策模型的输入是决策问题的定义及整理的数据,输出是一套可以支持定量化计算或分析的模型。基于决策模型,才有可能利用各种数学定量化方法进行计算,并将计算结果提供给决策者进行参考。因此,在完成了问题定义和数据整理之后,下一步就是决策模型的构建。根据不同类型的决策问题,可以构建出各种不同的决策模型。例如,为实现组织内部稀缺资源的有效利用,通常会采用线性规划模型来描述决策问题;为实现组织之间的竞争与合作,通常会采用博弈模型来描述决策问题。建模的过程是一个创造的过程,也是一个循序渐进的过程。其创造性表现在所建立的模型必须贴切地描述决策的需求、目标和问题现状,不能生搬硬套;其渐进性表现在建模时难以一蹴而就,通常需要反复思考、评审、调整,才能接近问题的本质。 步骤3:对决策模型进行定量求解。目前已发展出求解定量化决策模型的丰富算法,并且大多数算法可以通过计算机程序来实现。因此,决策模型的求解可以从复杂的数学算法学习中解放出来,将重点放在对算法适用性的了解以及对求解软件的掌握上,以使注意力更多地关注决策问题本身。在这一步骤,需要了解各种算法的工作原理是什么、适用模型有哪些,算法输入、输出的意义是什么,算法有哪些重要参数以及如何调整这些参数。大多数模型可以采用标准的软件包,如Excel Solver等。某些特殊的模型,还需要自行开发计算机程序,如求解大规模优化问题的各种智能算法程序,因此需要决策小组具备一定的编程能力。 步骤4:测试及修正模型与算法。虽然决策模型经过求解之后已经可以输出一系列的求解结果,但这时的求解结果还不能立刻用于决策实施。还需要对模型进行测试和修正,确保所建立的模型充分、准确地描述了决策问题,并确保算法输出结果的正确性。由于建模的局限性,模型中可能存在如下问题。 (1)对决策需求认识不够。 (2)对决策变量和决策目标的设置不全面。 (3)对约束条件的忽略,以及对数据估算的不准确。 因此,需要结合输出的结果来测试和修正所建立的模型。模型测试所采取的方法包括以下几种。 (1)变化某些模型参数,观察模型的运行结果是否符合管理规律。 (2)用已知输入、输出的案例去测试验证模型。 (3)遍历在建模时提出的假设条件,确认这些假设对决策结果没有明显的影响。 (4)请管理专家或决策者对模型的运行结果进行评价和确认等。 如果模型不能很好地描述和解释现有系统,则需要回到步骤2甚至步骤1重新进行调整。如果问题在于求解算法的问题,如模型运算时间过长、运算过程容易出错等,则需要回到步骤3进行算法的调整。 步骤5:基于模型进行决策分析,形成决策方案。决策模型和求解算法的正确性通过验证后,则可以正式使用模型和算法进行决策分析。一般来说,决策分析不会是单次的分析,而是一系列的分析,主要包括以下步骤。 (1)对当前的模型进行求解,得到符合当前环境条件的决策方案。 (2)在实现模型定量化或简化建模过程中,模型会不可避免地基于一些假设。因此,基于模型得到的最优结果,在现实的管理问题中未必适用,还需要根据实际情况对模型的结果进行适当调整,使其成为“满意解”。 (3)对可能引起决策方案变动的要素进行敏感性分析(What-if分析),得到在各种环境条件下,决策方案应如何调整的管理建议。 (4)对模型的运行结果进行进一步利用,如对数据趋势的分析或更深层次、更综合的指标挖掘,以支持更高层面的决策。 步骤6:决策实施与反馈优化:管理决策必须通过实施才能够带来管理效益。新的决策方案在实施过程中,不可避免会遇到各种阻力。为了使实施顺利执行,应该注意以下问题。 (1)使决策者全程参与决策过程,确保决策模型和方案代表决策者的利益,从而在决策方案推行时取得决策者的支持。 (2)向新方案推行的各个层级说明新方案的必要性和优越性,统一认识,得到大多数组织层级的认可。 (3)循序渐进,分步实施,从最能够产生利益的环节或流程入手,或者试运行一段时间,用实际效果带动整体方案的推进。 (4)认真、全面收集各组织层级的反馈意见,对于不合理之处,适当修正决策方案。 (5)决策方案实施之后,应密切监控敏感参数。当环境条件变化时,及时根据敏感性分析的结果调整方案,保证系统随时处于优化的状态。 (6)决策优化是一个长期循环上升的过程,因此平时应注意收集新的管理需求,以便在必要的时候进行新一轮的管理决策。 定量化管理决策具有系统化、定量化、动态化等特点,因此应遵循如下原则: (1)最优化原则:在系统环境条件下,试图追寻最优解,寻找到实现目标的最优方案。 (2)系统原则:由于将决策者、决策环境状态看成一个系统,因此在决策时,应以系统的总体目标为核心,满足系统优化,从整体出发。 (3)可行性原则:任何决策方案的政策、资源、技术、经济方面都要合理可行。 (4)信息原则:指决策中要尽可能调查、收集、整理一切有关信息,这是决策的基础。 (5)反馈原则:将实际情况变化和决策付诸行动后的效果及时反馈给决策者,以便对决策方案及时调整。 123决策问题的分类 从管理科学的角度,决策问题可按不同属性进行如下分类。 (1)按决策问题的影响范围分类:可将决策分为战略层决策、战术层决策和执行层决策。 战略层决策是最高层次的决策,其涉及全局性、方向性、根本性的决策问题,产生的影响是深远的。例如,企业的长期发展规划、生产规模、新产品开发方向、新市场的开发等。 战术层决策属于中层决策,是为保证战略决策目标的实现,从管理的各方面所进行的决策。例如,产品规格选择、人力资源计划、车间作业计划、厂区布局等。 执行层决策属于基层决策,是根据策略决策的要求对日常执行行为方案的选择,属于局部性、短期性的决策。例如,流水线节拍的确定、车间作业计划、现场布置等。 (2)按决策的结构分类:可将决策分为程序化决策、非程序化决策和半程序化决策。 程序化决策是一种反复出现,有章可循,有明确判别准则和目标,按一定制度可反复进行的决策,常采用数学规划、决策树等方法。 非程序化决策是对偶然发生或初次发生的问题进行决策,没有固定的程序和方法,只能凭决策者的判断力、经验或直觉进行决策。 半程序化决策介于程序化决策和非程序化决策之间,用于解决一些灰色或模糊管理问题,常采用灰色系统、模糊数学等方法。 (3)按定量和定性分类:可将决策分为定量决策和定性决策,描述决策对象的指标都可以量化时可用定量决策,否则只能用定性决策。 (4)按决策四要素进行分类:可将决策分为确定型决策、完全不确定型决策、风险型决策、对抗型决策四种。 ①确定型决策是指决策环境的状态空间是完全确定的,决策者可以确定地分析出各种可行方案的结果,从中选择出最佳方案。这类决策问题可通过建立线性规划、整数规划等数学模型而得到确定的优化结果。 ②完全不确定型决策是指决策环境的自然状态空间具有不确定性,决策者对将发生的各种自然状态的概率一无所知。这类决策问题只能凭决策者的主观倾向进行决策。 ③风险型决策是指决策环境的自然状态空间具有不确定性,但其发生的概率是已知的。这类决策问题可以通过决策树等方法进行决策。 ④对抗型决策是指有多个决策者之间存在竞争或合作的多方决策,对手的策略状态空间具有不确定性。这类决策问题可以通过博弈分析、冲突分析等方法进行决策。 本章小结 首先,本章对管理的特征与职能进行了介绍,明确了定量化管理决策在管理中的重要作用。其次,介绍了管理决策的定义、定量化管理决策的分析过程和原则以及决策的四要素。这些基本概念和决策过程可以帮助我们建立定量化管理决策的整体框架,明确数据、模型与决策这三部分内容在定量化管理决策中的作用及次第。再次,本章介绍了管理决策的主要分类方法,其中按照决策四要素的分类方法尤其值得注意,在后续的决策分析中会多次用到。 数据与统计分析基础 ■了解数据分析的概念; ■掌握问卷设计与数据收集方法; ■熟练掌握描述性统计分析。 21数据分析 当今,数据在我们的生活、工作中随处可见。随着信息化的普及和信息系统的应用,各类信息系统都积累了大量的原始数据。分析这些数据内部所蕴含的规律,利用它们预测相关系统的运行趋势,是信息处理的主要任务。 数据分析是指采用适当的统计分析方法对收集来的大量数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 211什么是数据分析 1数据的定义 数据(data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据具有如下含义: (1)论据,作为论据的事实; (2)材料、资料; (3)历史上的、计算或实验得到的数据。 数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息,其反映的是一定社会现象或者自然现象在特定的时间、空间条件下表现出的特征。它既可以是数字,也可以是文字,甚至可能是图片和图像。在经济、管理领域,“数据”是作为集合名词出现的,是进行决策所依据的客观事实基础。 数据、模型与决策 第2章数据与统计分析基础 2统计数据的种类 统计数据按不同的分类规则可分为不同的类型,这里介绍三种分类方法。 (1)按照所采用的计量尺度不同,统计数据可以分为定类数据、定序数据、定距数据和定比数据。定类数据表现为类别,但不区分顺序,是由定类尺度计量形成的。定序数据表现为类别,有顺序,是由定序尺度计量形成的。定距数据是具有间距特征的变量,表现为数值,有单位,可进行加、减运算,不能做乘除运算,是由定距尺度计量形成的。定比数据表现为数值,可进行加、减、乘、除运算,没有负数,是由定比尺度计量形成的。采用不同的计量尺度会得到不同类型的统计数据,而不同类型的统计数据又适用于不同的统计分析方法。 (2)按照统计数据的收集方法,可以将其分为观测数据(observational data)和实验数据(experimental data)。观测数据是通过调查或观测而收集到的数据,它是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。在实验中控制实验对象而收集到的数据则称为实验数据。 (3)按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。不同主体在相同或近似相同的时间点上收集到的数据称为截面数据(cross-sectional data)。某一事物或现象等在不同时间上收集到的数据,称为时间序列数据(time series data)。 3数据分析的过程 数据分析是大数据时代各行业和学科发展的迫切要求。管理信息化、教育信息化、企业现代化的快速发展,促使各行各业在近些年都出现了极大的、极快的数据积累。不论在商业贸易领域,还是在教育领域,都积累了海量数据。如何充分地利用这些数据,从中总结出规律,为下一步的决策提供依据,是数据分析的主要目标。 另外,计算机科学的发展和大数据时代对数据分析的迫切需求,催生了许多数据统计分析软件,如SPSS、SAS等。正是这些数据分析软件的出现,使得数据分析和数据挖掘技术的门槛进一步降低。诸如相关性分析、差异显著性检验、归因分析、聚类分析等已经成为人文科学研究中的基本方法。目前,专业化的数据分析不再是统计学专业人士的专利,教育学、经济学、心理学、社会学等学科专业的研究人员都能通过数据分析软件实现专业水准的定量分析。事实上,许多定量分析算法已经被集成到了常规的办公软件中(如本章介绍的Excel就集成了大量的数据分析模块),使得数据分析不再神秘。 一般而言,数据分析包括以下几个步骤。 第一步,确定目标。首先要确定好目标才能进一步收集数据,并对相关数据进行分析。 第二步,数据收集。数据收集要尽量广撒网。大量的数据,特别是大量的不同来源的数据,使数据科学家们能较容易地找到数据之间的相关性,从而建立起更合适的模型。将相关联的数据结合起来,放在一起才能获得有用的信息。例如,公司通过检测它们的网站来跟踪用户的点击及鼠标移动,商店通过在产品上附加RFID来跟踪用户的移动,教练通过在运动员身上附加传感器来跟踪他们的运动方式。 第三步,数据的预处理。在进行具体的数据分析前要提高数据质量。科学家要纠正拼写错误,处理缺失数据并清除无意义的信息。因为冗余或者错误的数据,即使是通过最好的分析,也将产生错误的结果。例如,在美国的某公司根据邮编来分析客户分布时,发现绝大多数的客户在纽约的斯克内克塔迪,但该小镇的人口不到70 000人。这是由于斯克内克塔迪的邮政编码是12345,而客户往往不愿将他们的真实信息填入在线表单,所以这个邮政编码会不成比例地出现在几乎每一个客户的档案数据库中。由此可见,若不对数据进行预处理,将会导致错误的结论。通过计算机技术或人工筛选,一定要保证最终输入模型的数据是有效且正确的,否则将会得到错误的结论。 第四步,数据建模。关于构建模型,数据科学家的专业知识是建模成功的关键所在。一般在建立模型的过程中,科学家们会进行一些假设、试验和检验等。一般而言,这些模型依赖于现有的数据,对于未来的预测不一定是有效的。针对现实生活中的各种实例,我们往往会选择与现实生活最贴近的模型去使用。 第五步,优化和重复。数据价值链是一个可重复的过程,能够对业务和数据价值链本身产生连续的改进。基于模型的结果,业务将根据驱动手段进行改变,并由数据科学团队评估结果。在结果的基础上,企业可以决定下一步计划,而数据科学团队要继续进行数据收集、数据清理和数据建模。企业重复这个过程越快,就会越早修正发展方向,及时获得有价值的数据。在理想情况下,多次迭代后,模型将产生准确的预测值,业务将达到预定的目标,结果数据价值链将用于监测和报告,在监管的同时得以不断地改进。 212数据描述与分析思路 在数据分析中,人们获得的调查数据通常来自一组样本或多组样本,可能是一个数据序列,也可能是多个数据序列。在对数据序列进行数据分析前,掌握每个数据序列的基本特征是非常必要的。 1对数据序列的集中性描述 在数据分析过程中,人们通常需要了解数据序列集中于哪一个数据点周围。常见的描述量主要有均值、众数和中位数。 均值(mean)即平均数,是对整个序列求和后再除以数据个数所得到的结果。 众数(mode)即个数最多的数,它是指在整个序列中,出现次数最多的数值。简单地说,就是一组数据中占比例最多的那个数值。在统计分布上,众数表示的是具有明显集中趋势点的数值,代表数据的一般水平,有时众数的个数可以不存在或者多于一个。 中位数(median)即对数据序列排序后位于正中间的那个数值,它可将数值集合划分为相等的上下两部分。需要注意的是:如果原序列数据的个数为偶数,则中位数为正中间两个数值的平均值。 2对数据序列的离散性描述 在数据分析中,人们通常需要了解数据序列的波动情况,即数据的离散性。对于数据序列,数据在均值附近的波动大小是序列的重要属性之一,对于统计分析有重要价值。衡量数据序列离散性的描述量主要有方差、标准差。 方差(variance),即数据序列中各实际值与均值之差平方的平均值。在概率论和数理统计中,方差用来衡量随机变量和数学期望(即均值)之间的偏离程度,衡量数据波动性的大小。在相同样本容量情况下,方差越大,表示数据的波动越大,越不稳定。反之,亦然。 标准差(standard deviation)是方差的平方根,有时也称为均方差,也是描述数据离散性的量。 3对数据序列分布形态的描述 对于待分析的数据序列,数据的分布形态对分析方法的选择具有重要影响。因此,在对数据进行描述时,了解数据序列的分布形态也很有必要。在统计学中,数据的分布形态主要有正态分布、均匀分布、指数分布和泊松分布等。 另外,偏度和峰度是描述数据分布形态的重要指标。偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。峰度(kurtosis)又称峰态系数,表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。一般而言,偏度如图21所示。峰度如图22所示。 图21偏度 图22峰度 数据分析的常见策略主要包括数据统计描述、数据差异显著性检验、相关性分析、回归分析、聚类分析、降维分析等内容。这些操作可以分为两个不同的类别:对数据的描述与检验;基于数据建模并依据模型对相关数据进行判定或评价。在数据处理过程中,主要有以下两种重要思路。 1预设假设并检验假设 在数据检验前,先预先设立一种假设,然后选择合适的检验统计量对假设进行检验,最后根据检验结果判定假设成立的可能性。例如,在数据的差异显著性检验过程中,人们通常预先假设两个数据序列不存在显著性差异,然后给定假设成立的概率值(假设成功的可能性),记作α。再根据统计量的大小及其分布,确定假设成立的可能性P的大小并判断结果。若结果P>α,则表示原假设成立,两数据序列之间不存在显著性差异;若结果P<α,则表示原假设不成立,两数据序列没有显著差异的可能性很低,即两数据序列之间存在显著差别。针对两数据序列的相关性分析,也可采用这一方法。 2基于“关注值/偏差值”比值的评价策略 在数据分析中,人们通常利用“关注值/偏差值”的比值来判定数据的稳定性或有效程度。 在进行数据描述时,数据序列的均值X是人们的关注值,而数据序列的标准误差SE(standard error)反映了数据的波动程度。这里的比值X/SE直接反映了数据的集中性水平。 若这个比值很大,则表示数据序列比较稳定,波动程度较小。 W=XSE,或W=XSn,即W=XnS 在进行数据的差异显著性检验时,人们常常使用两个均值的差与SE的比值来判定两个数据序列是否存在显著性差异。事实上,若两个序列的均值之差远大于标准误差SE,则表示两个序列之间的差距远远大于各组的组内波动,即组间的差距值不是由组内波动引起的,组间的差别是由分组而导致的,这就是T检验和方差分析的核心思想。 在进行回归分析时,通常需要根据已有数据创建回归方程,即基于已有数据构建模型。在完成建模后,根据模型计算出的数值为回归值(期望值),而原始数据(观测值)与回归值的差被称为残差。残差值越小,表示回归值(或期望值)与对应的观测值越接近,说明回归模型模拟实测数据的效果越好。因此,采用回归值的均方和残差均方和的比值(F值与T值)来评价回归方程的质量。这个比值越大,表示回归方程的影响力越大,回归效果越好。 213常用的数据分析方法与工具 1以Excel进行数据分析 在Excel中,提供了两种形态的数据分析技术:基于统计分析函数的简单数据分析;利用其内置的“分析工具库”开展专业化的数据分析。 在Excel中,内置了若干函数,用于对数据实施各类分析。常见的数据统计分析函数如表21所示。 表21常见的数据统计分析函数 类别 功能 函数格式 常规 统计 求和 Sum(区域) 求个数 Count(区域)/ CountA(区域) 求平均 Average(区域) 求最大 Max(区域) 求最小 Min(区域) 条件 统计 按条件求个数 CountIF(条件区域,“条件式”) 按条件求和 SumIF(条件区域,“条件式”,求和区域) 按条件求平均 AverageF(条件区域,“条件式”,求均值区域) 数据 描述 求方差 Var(区域)/ VarP(区域) 求标准差 Stdev(区域)/ StdevP(区域) 频度分析 Frequency(数据序列区域,分段区域) 数据 分析 判断方差是否齐性 FTEST(序列1区域,序列2区域) 判断差异显著性 TTEST(序列1区域,序列2区域,单侧/双侧,类型) 判断相关性水平 Correl(序列1区域,序列2区域) Excel的内置函数很多,上表仅列出了比较常用的函数。在Excel的空闲单元格中输入带有统计函数的公式,就能立即在此单元格中计算出统计分析结果。 利用统计分析函数可以完成简单的统计分析,但其输出结果通常为单一的数值。例如,FTEST和TTEST都仅仅输出其检验概率值,并不同时输出相关数据列的方差和F值等信息,研究人员获得的信息比较少。因此,这种分析模式仅仅适用于非专业化的研究领域中。 在Excel中,内置了“分析工具库”,用于进行比较专业的数据分析。基于分析工具库的数据分析不仅仅输出单一的结果值,还可以包含相关数据列的T值、均值、方差以及相关系数等信息。因此,利用分析工具库,能够得到更加专业的分析结果。在后面的章节中,我们会举例说明如何使用这些工具。 2SPSS分析 SPSS是常见的数据统计分析工具之一。在它的交互界面,可使用下拉菜单来选择所需要执行的命令。它具有数据分析工具的基本功能,而且可以通过复制和粘贴的方法来学习其“句法”语言。SPSS主要有以下三大模块。 (1)数据管理:SPSS有一个界面友好的数据编辑器,可以用来输入和定义数据(缺失值、数值标签等),但它不算功能很强大的数据管理工具。SPSS主要用于对一个文件进行操作,难以胜任同时处理多个文件。 (2)统计分析:SPSS能够进行大多数的统计分析(回归分析,Logistic回归,生存分析,方差分析,因子分析,多变量分析)。它的优势在于方差分析和多变量分析,还可以进行混合模型的分析。其缺点是没有稳健方法(无法完成稳健回归或得到稳健标准误差),缺乏调查数据分析。 (3)绘图功能:SPSS绘图的交互界面友好,可以通过点击鼠标进行修改,而且图形的质量极佳,还能粘贴到其他文件中(Word文档或PowerPoint等)。SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。 3Stata分析 Stata是进行数据分析、数据管理以及绘制专业图表的统计软件。它可以实现许多功能,包含线性混合模型、多项式普罗比模式等。Stata以其简单易懂和功能强大受到用户的普遍欢迎。使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。这样一来,即使发生错误,也容易找出并加以修改。Stata分析工具的主要功能如下。 (1)数据管理:Stata输入的数据管理命令较为简单,能够让复杂的操作变得容易。Stata主要用于每次只对一个数据文件进行操作的情形,难以同时处理多个文件。 (2)统计分析:Stata能够进行大多数统计分析(回归分析,Logistic回归,生存分析,方差分析,因子分析以及一些多变量分析)。Stata最大的优势可能在于回归分析(包含易于使用的回归分析特征工具)和Logistic回归等功能。Stata也包含一系列稳健检验方法,如稳健回归,以及包含稳健标准误差估计的命令。此外,在调查数据分析领域,Stata有着明显优势,能提供调查数据分析。不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。 (3)绘图功能:Stata能提供一些命令或点击鼠标进行交互式绘图。与SPSS不同的是它没有图形编辑器。在SPSS、Stata和SAS三种软件中,Stata的绘图命令是最简单的,功能却最强大。这些图形很好地发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。 Stata较好地实现了使用简便和功能强大两者的结合。用户可以很容易地下载别人已有的程序,也可以自己去编写相应的程序。 4SAS分析 SAS由于其功能强大,很受高级用户的欢迎。在使用SAS时,需要编写SAS程序来处理数据。SAS的主要功能如下。 (1)数据管理:在数据管理方面,SAS是非常强大的。它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。SAS可以同时处理多个数据文件。 (2)统计分析:SAS能够进行大多数统计分析(回归分析,Logistic回归,生存分析,方差分析,因子分析,多变量分析)。SAS的突出优点可能在于它的方差分析、混合模型分析和多变量分析,而它的劣势主要是有序和多元Logistic回归以及稳健分析。 (3)绘图功能:在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供,图形的制作主要使用程序语言。 尽管专业的数据分析工具很多,但在社会科学研究领域,使用较多的数据分析工具仍然是Excel。在社会调查和评价分析等研究中,人们常常以Excel完成数据采集、预处理和简单的数据分析。 22问卷设计及数据收集 问卷是用来收集调查数据的一种工具,是调查者根据调查目的和要求设计的、由一系列问题、备选答案、说明及量表组成的一种调查形式。 221问卷分类 问卷的历史可追溯到19世纪。例如,马克思曾精心制作过一份工人调查表,它分为四个方面,包括近百个问题,以全面了解工人的劳动、生活和思想状况。20世纪以来,结构式的问卷越来越多地被用于定量研究,与抽样调查相结合,已成为社会学(特别是经济、管理领域)调查研究的主要方法之一。 大多数调查方法都要使用问卷来收集调查所需要的资料。根据调查方法的不同,可以把问卷分为不同的类型。 (1)根据调查方式不同,问卷可分为派访员访问调查问卷、电话调查问卷、邮寄调查问卷、网上调查问卷和座谈会调查问卷等。 派访员访问的问卷,一般由访问员带至调查对象,并实施访问调查。电话调查问卷是在电话调查中所使用的问卷。邮寄问卷是根据确定的样本,将调查问卷邮寄给调查对象。网上填写问卷则是将问卷发送到网上,由调查对象填写完毕后直接发回给调查者。座谈会调查问卷是将问卷发放给参加座谈会的与会人员填写的问卷。 (2)根据填答的方式不同,调查问卷可分为自填式问卷和代填式问卷。自填式问卷是由被调查者自己填答的问卷。代填式问卷则是由调查员来填答的问卷,被调查者只需要口头告知,不必自己填写。 (3)根据回答问题的方式,可分为开放式问卷和封闭式问卷。开放式问卷允许调查对象根据所提问题自由回答,没有规定回答的范围。封闭式问卷是指将问题内容和备选答案做了精心设计,调查对象只许按规定进行选择,没有自由发挥的余地。 222问卷结构及设计步骤 1问卷的基本结构 问卷的结构是研究思路的具体体现,不同的调查问卷在具体结构、题型、措辞、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成。 ①开头部分。开头部分一般包括问候语、填表说明和问卷编号等内容。不同的问卷开头部分所包括的内容会有一定差别。 在自填式问卷中,写好问候语十分重要。它可以引起被调查者对调查的重视,消除顾虑,激发参与,以争取他们的积极配合,从而提高问卷质量。 在自填式问卷中要有详细的填表说明,让被调查者知道如何填写问卷,如何将问卷返回到调查者手中。部分内容可以集中放在问卷的前面,也可以分散到各有关问题的前面。例如填写的要求,对只许选择一个答案的问题只能画一个“√”;对可选多个答案的问题,请在您认为合适的答案上画“√”。 问卷编号主要用于识别问卷、调查者、被调查者姓名和地址等,以便于校对检查、更正错误。 ②甄别部分。甄别就是设置在问卷中的“过滤器”。它先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查。通过甄别,一方面,可以选出与调查事项有直接关系以及对调查事项一无所知的两类人;另一方面,也可以确定哪些人是合适的被调查者。甄别的目的是确保被调查者合格,使之能够作为该调查项目的代表,从而符合调查研究的需要。虚假答案对调查和研究人员而言,是没有价值的,甚至可能造成严重误导。数据收集人员不能指责被调查者故意给出的虚假答案,作为问卷的设计者,要做的就是通过研究设计,尽量不给被调查者回答虚假答案的机会。 例如: A请问您或您的家庭有没有在下列行业工作的呢? ●广告、公关机构…………………… ●市场研究、咨询机构………………终止访问 ●电视、广播报纸…………………… ●以上皆无……………………………继续访问 B请问您的年龄是: ●20岁以下………………………… ●20岁至30岁之间………………… 终止访问 ●30岁至40岁之间………………… ●40岁以上…………………………继续访问 ③主体部分。主体部分是调查问卷的核心内容,它包括了所要调查的全部问题,主要由问题和答案组成。 ④背景部分。背景部分通常放在问卷的最后,主要是有关被调查者的一些背景资料。研究者可根据背景资料对被调查者进行分类比较分析,探讨更深层次的问题。例如: 请问您的受教育程度? ●未上学…………………………1 ●小学……………………………2 ●高中……………………………3 ●大学专科………………………4 ●大学本科………………………5 ●研究生…………………………6 2问卷题项设计 问卷设计的质量直接影响研究方法的使用,主体部分内容可以分为6个部分,分别是筛选题项、样本背景信息题项、样本特征信息题项、样本基本态度题项、核心研究变量题项和其他题项。 ①筛选题项。如果对样本特征有特殊要求,如研究题目为《“90后”员工离职原因分析》,那么研究样本必须为“90后”。因此需要先设置筛选题项,如果受访者非“90后”,则应当停止回答后续题项。如果研究需要进行样本筛选,则需要将此类样本筛选题项设置在问卷最开始,以免被调查者做出不必要的填写。 ②样本背景信息题项。通常情况下,问卷中需要加入样本背景信息题项,如性别、年龄、学历,等等。不同背景的样本,可能对同样一件事有着不一样的态度,因此需要加入此类题项。此类题项通常要进行频率统计,或者是方差分析、T检验差异对比等。 ③样本特征信息题项。除了样本背景信息题项外,通常还需要设计样本特征信息题项,如研究题目为“顾客对网络消费态度的影响因素研究”,则可以加入与网络消费有关的特征信息题项,如当前网购频率、网购的商品类目,以及网购消费金额、网购消费平台的运行等。 在多数情况下,样本特征信息题项可用于深入了解样本特征情况。该类题项多为单选题和多选题,常见的统计方法是计算频率,直观展示各选项选择情况,也可以使用卡方分