下载思维导图文件

第一章 数据分析那些事儿

数据分析是“神马”

定义:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。帮助管理者进行判断和决策,以便采取适当的策略和行动
  • 分类

    • 描述性数据分析

      初级数据分析 常见分析方法:对比分析法、平均分析法、交叉分析法

    • 探索性数据分析

      高级数据分析,侧重于在数据之中发现新的特征

    • 验证性数据分析

      高级数据分析,高级数据分析,侧重于验证已有假设的真伪性 价值:将数据转化为知识、结论和规律

  • 菜鸟与数据分析师的最主要区别在于目的是否明确

    这张曲线图真好看,怎么作的?VS数据变化的背后真相是什么? 这些数据可以做什么样的分析?VS从哪些角度分析数据才系统? 高级的分析方法在这能用吗?VS用什么分析方法最有效? 要作多少张图表VS图表是否表达出有效观点? 除了为数据添加文字说明还需说什么?VS数据分析的目的达到了吗? 数据分析报告要写多少页?VS数据分析报告有说服力吗? 数据分析师的基本素质:态度严谨负责、好奇心强烈、逻辑思维清晰、擅长模仿、勇于创新

  • 数据分析6个阶段

    明确分析的目的和内容:确保数据分析过程有效进行的先决条件,为数据收集、处理以及分析提供清晰的指引方向

    • 数据收集

      定义:按照确定的数据分析内容,收集相关数据的过程 第一手数据:主要指可直接获取的数据;第二手数据:指经过加工整理后得到的数据 来源:数据库、公开出版物、互联网、市场调查

    • 数据处理

      定义:对收集到的数据进行加工整理,形成适合的数据分析的样式 目的:从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据 方法:数据清洗、数据转化、数据提取、数据计算

    • 数据分析

      定义:通过数据分析或数据挖掘技术对处理过的数据进行分析和研究,从中发现数据的内部关系和规律,为解决问题提供参考 工具:Excel、SPSS Statistics 数据挖掘:一种高级的数据分析方法。主要侧重解决四类数据分析问题:分类、聚类、关联、预测

    • 数据展现

      保证绝大部分人对结果的理解是一致的,一般情况下通过表格和图表的方式来呈现 常用数据图:饼图、柱形图、条形图、折线图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图

    • 报告撰写

      通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力 有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然 需要有明确的结论 有建议或解决方案

  • 常用指标或术语

    • 平均数

      一般指算术平均数,谨防其他平均数 绝对数与相对数

    • 百分比与百分点

      百分点是指不同时期以百分数的形式表示的相对指标的变动幅度 频数与频率:频数指一组数据中个别数据重复出现的次数;频率:每组类别次数与总次数的比值

    • 比例与比率

      比例:在总体中各部分的数值占全部数值的比重 比率:不同类别数值的对比 倍数与番数:番数是指原来数量的2的N次方倍

    • 同比与环比

      同比:与历史同时期进行比较得到的数值,反映的是事物发展的相对情况 环比:前一个统计期进行比较得到的数值

第二章 无米难为巧妇——数据准备

字段&记录

字段是事物或现象的某种特征,在统计学中称为变量
记录是事物或现象某种特征的具体表现,也称为数据或变量值

数据类型

字符型数据
数值型数据

数据表

  • 数据表的要求

    1、数据表由标题行和数据部分组成 2、第一行是表的列标题(字段名),列标题不能重复 3、第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列 4、数据表中不能有合并的单元格存在 5、数据表与其他数据之间应该留出至少一个空白行和一个空白列 6、数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是二维表格的形式存在的,此时应将二维表转化为一维表的形式存储格式

  • 问卷录入

    数值题:录入实际的数值即可 单选题:录入1、2、3、4代表A、B、C、D

    • 多选题

      二分法 多重分类法 开放性文字题

Excel

  • 四大模块

    菜单操作 图表:表现数据,传递信息 宏的应用:可运行任意次数的一个操作或一组操作 函数:将指定的数据按照一定的规则转化为需要的结果

  • 快捷键

    • 常用快捷键

      crtl+o 打开工作簿 crtl+n 新建工作簿 crtl+S 保存工作簿 crtl+w 关闭工作簿 shift+f11 插入新工作表 crtl+a 全选 crtl+shift+* 选定当前单元格周围区域 crtl+c 复制 crtl+x 剪切 crtl+v 粘贴 crtl+y 重复上一步操作 crtl+z 撤销 enter 下移一个单元格 crtl+f 查找 万能快捷键:Alt

  • 导入外部数据

    导入文本数据:数据-自文本 子主题 文本格式:在输入文本前加入英文单引号“'”(绿色小三角是数字还是文本的标识)

第三章 三心二意——数据处理

“三心二意”处理数据

信心:未看见任何未来时,你依然怀抱希望,坚持下去
细心:1%的错误=100%的失败
平常心
诚意
合老板意

数据清洗

定义:将多余重复的数据筛选清除,将缺失数据补充完整,将错误数据纠正或删除
  • 技巧

    冻结窗口:视图-冻结窗口 自动筛选 快速隐藏 crtl+箭头键:快速移动到工作表当前数据区域的边缘 crtl+shift+箭头键:选定范围扩展到活动单元格所在的数据区域的边缘

    • F4(切换)

      绝对引用 混合引用 相对引用

重复数据处理

COUNTIF函数:COUNTIF(范围,计算条件)
筛选
条件格式标识重复:开始-条件格式-突出显示单元格规格

- 删除重复数据

    数据-数据工具-删除重复项
    排序删除重复项
    筛选删除重复项

处理缺失数据

可接受标准:缺失的值在10%以下
  • 缺失原因

    机械原因:由于数据收集或保存失败造成的数据缺失 人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失

  • 处理缺失值的方法

    用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值 用一个统计模型计算出来的值去代替缺失值。常使用的模型有回归模型、判别模型等 将有缺失值的记录删除,但会导致样本量的减少 将有缺失值的个案保留,尽在相应的分析中做必要的排除 定位输入:开始-编辑-查找和替换-定位条件(crtl+g) crtl+enter:crtl键不放,选择对应的单元格-松开crtl,输入公司或数据-crtl+enter,即选中单元格全部录入相同数据

  • 查找替换

    常用查找替换

    • 通配模糊查找

      以a开头的字符串 a 以b结尾的字符串 b 包含a的字符串 a a排在第二位的字符串 ?a* IF函数:IF(表达式,TRUE的返回值,FALSE的返回值) OR函数:OR(参数1,参数2....),至少一个参数为真则返回TRUE AND函数:AND(参数1,参数2....),所有参数全部为真才返回TRUE 嵌套函数:指在某些情况下需要将某函数作为另一函数的参数使用 分步查看公式计算值:公式审核-公司求值(F9,ESC退出)

  • 公式错误的符号与原因

    #### 数值或公式太长,单元格容纳不下 #DIV/0! 零为除数 #N/A 函数或公式中没有可用的数值 #NAME? 在公式中使用了Excel不能识别的文本 #NULL! 使用了不正确的区域运算符或引用的单元格区域的交集为空 #NUM! 公式或函数中某些数字有问题 #REF! 单元格引用无效 #VALUE! 在公式中使用了错误的数据类型

数据抽取

字段分列:数据-数据工具-分列
LEFT函数:LEFT(字符串,字符数量)——得到字符串左部指定个数的字符
RIGHT函数:RIGHT(字符串,字符数量)——得到字符串右侧指定个数的字符
字段合并:CONCATENATE(文本1,文本2....)
  • 字段匹配

    VLOOKUP(需匹配的值,包含数据的单元格区域,希望返回的匹配值序号,近视匹配(1)or精确匹配(0))

    • 注意事项

      包含数据的单元格区域的第一列必须是需匹配的值 数据存在空格,可用TRIM函数去除空格 数据类型与格式不一致

数据计算

简单计算:+、—、*、/、sum等
函数计算:AVERAGE、SUM、MAX、MIN
  • 日期计算

    TODAY(),则显示日期,如2010-11-5,快捷键Crtl+; Crtl+Shift+;,则显示时间,如11:31 NOW(),则显示日期时间,如2010-11-5 11:31,快捷键Crtl+;(空格)Crtl+shift+; 公式的插入为动态日期时间,快捷键插入的是静态的日期或时间 DATE(YEAR,MONTH,DAY)

      - DATEDIF函数
    
      计算两个日期之间年/月/日间隔数
      DATEDIF(起始日期,结束日期,Y/M/D/MD/YM/YD),Y:整年数,M:整月数,D:整天数,MD:仅计算日数差,YM,仅计算月数差,YD,仅计算年数差
    

数据分组

使用VLOOKUP函数,采用近似匹配
HLOOKUP函数:在表格的首行查找指定的数据,并返回指定的数据所在列中的指定行处的单元格内容HLOOKUP(查找的首行,包含数据的单元格范围,返回的行序号,近似匹配(1)or精确匹配(0))
SEARCH函数:SEARCH(需查找的文本,查找的单元格,从第N个字符开始查找(可选))

数据抽样

普查和抽查
RAND函数,RAND():返回[0,1]的均匀分布随机数

第四章 工欲善其事必先利其器——数据分析

数据分析

方法论:5W3H、4P、逻辑树等分析思路
工具:Excel、SPSS、SAS等
技术:交叉分析、相关分析、回归分析、聚类分析等

PEST分析法

用于对宏观环境的分析,宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量
一般对政治(P)、经济(E)、技术(T)、社会(S)这四类影响企业的主要外部环境因素进行分析
  • 四类影响

    政治环境:关键指标有政治体制、经济体制、财政体制、税收体制、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众对政治的参与度等。有何影响? 经济环境:关键指标有GDP及增长率、利率、汇率、通货膨胀、消费价格指数、居民可支配收入,失业率、劳动生产率。有何影响? 社会文化环境:关键指标有人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市、宗教信仰等。有何影响? 技术环境:关键指标有新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等。有何影响?

5W2H分析法

何因(why)、何事(what)、何人(who)、何时(when)、何地(where)、如何做(how)、何价(how much)
  • 举例:用户购买行为分析

    why:用户购买的目的?产品在哪方面吸引用户? what:公司提供什么产品或服务?与用户需求是否一致? who:谁是我们的用户?用户有何特点? where:用户在哪购买?用户在各个地区的构成怎么样? how:用户购买支付的方式怎么样? how much:用户购买花费时间、交通等成本各是多少?

逻辑树分析法

用于理清思路,避免进行重复和无关的思考
  • 三个原则

    要素化:把相同问题总结归纳成要素 框架化:将各个要素组织成框架,遵守不重不漏的原则 关联化:框架内的各要素保持必要的相互关系,简单而不孤立

4P营销理论

产品、价格、促销、渠道
  • 产品

    从市场营销的角度来看,是指能够提供给市场,被人们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务等等 思考点:公司提供什么产品或服务?哪个产品销量最好?与用户需求是否一致?购买产品的用户是什么人?等等

  • 价格

    购买产品时的价格,包括基本价格、折扣价格、支付期限等等

    • 定价的要素

      需求:最高价取决于市场需求 成本:最低价取决于该产品的成本费用 竞争:最高价与最低价的幅度内,定价取决于竞争者同种产品的价格 思考点:公司销售收入怎样?用户接受的合理价格是多少?用户购买支付方式是怎样的?

  • 渠道

    产品从生产企业流转到用户手上的全过程中所经历的各个环节 思考点:公司在各地区有多少销售渠道?是否未覆盖或覆盖率低?用户通过何种渠道购买?用户在各个地区的构成怎样?公司渠道政策是否有吸引力?

  • 促销

    通过销售行为的改变来刺激用户消费,以短期的行为促成消费的增长,吸引其他品牌的用户或导致提前消费来消费来促进销售的增长 思考点:投入多少促销资源?效果如何?投放多少宣传广告?效果如何?

用户行为理论

用户使用行为是指用户为获取、使用物品或服务说采取的各种行动
  • 用户行为轨迹

    认知------->网站访问-------->IP、PV、人均页面访问量、访问来源 熟悉------->网站浏览、网站搜索--------->平均停留时长、跳出率、页面偏好、搜索访问次数占比 试用------->用户注册-------->注册用户数、注册转化率 使用------->用户登录、用户订购--------->登录用户数、人均登录、访问登录比、订购量、订购频次、内容、转化率 忠诚------->用户粘度、用户流失--------->回访者比率、访问深度、用户流失数、流失率

数据分析方法

  • 对比分析法

    定义:将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据说代表的事物发展变化情况和规律性 特点:非常直观地看出食物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少

  • 分类

      静态比较:也称横向比较,在同一时间条件下对不同总体指标的比较
      动态比较:也称动态比较,在同一总体条件下对不同时期指标数值的比较
    
  • 对比维度

    1、与目标对比 2、不同时期的对比 同比:去年同期 环比:上个月对比 3、同级部门、单位、地区对比 4、行业内对比 5、活动效果对比

  • 分组分析法

    定义:根据数据分析对象的特征,按照一定的标志,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性 目的:便于对比,把总体中具有不同性质的对象区分,把性质相同的对象合并,保持各组内对象属性的一致性、组与组之间属性的差异,以便进一步运用各种数据分析方法来解构内在的数量关系 组距=(最大值-最小值)/组数

  • 结构分析法

    定义:被分析研究总体内各部分与总体之间进行对比的分析方法 作用:揭示各部分之间的相互联系及其变化规律 计算公式:结构相对指标(比例)=总体某部分的数值/总体总量×100% 如市场占有率=(某种商品销售量/该种商品市场销售总量)×100%

  • 平均分析法

    定义:运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平

    • 作用

      利用平均指标对比同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,比用总量指标对比更具有说服力 利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展趋势和规律 交叉分析法

  • 综合评价分析方法

    将多个指标转化为一个能够反映综合情况的指标来进行分析评价。

    • 步骤

      1、确定综合评价指标体系,即包含哪些指标,是综合评价的基础、依据 2、收集数据,并对不同计量单位的指标数据进行标准化处理 标准化方法:0-1标准化法、z标准化法 0-1标准化数据转换公式:第N个标准化处理的值=(第N个原始值-最小值)/(最大值-最小值) 3、确定指标体系中各指标的权重,以保证评价的科学性 权重确定的方法:专家访谈法、德尔菲法、层次分析法、主成份分析法、因子分析法、回归分析法等 目标优化矩阵表,通过纵轴的项目依次与横轴对比,重要则输入1,次要则输出0,最后统计重要性得分。某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)×100% 4、对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值 5、根据评价指数或分值对参评单位进行排序,并由此得出结论

  • 杜邦分析法

  • 漏斗图分析法

    适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具。

  • 矩阵关联分析法

    指将事物的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法

数据分析误区

分析目的不明确,为分析而分析
缺乏业务知识,分析结果偏离实际
一味追求实用高级分析方法,热衷研究模型
数据透视表的用法

第五章 给数据量体裁衣-数据展现

图表的作用

表达形象化
突出重点
体现专业化

经济适用图表

表格
饼图
条形图
柱形图
折线图
散点图

根据数据关系选择图表

成分:饼图、柱形图、条形图、瀑布图
排序:柱形图、条形图、气泡图、帕累托图
时间序列:折线图、柱形图
相关性:散点图、柱形图、对称条形图(旋风图)、散点图、气泡图
多重数据比较:雷达图

图表制作五步法

1、确定说要表达的主题或目的
2、确定哪种图表最适合你的目的
3、选择数据制作图表
4、检查是否真实有效地展示数据
5、检查是否表达了你的观点

表格展示

突出显示单元格,位置在开始--->样式--->条件格式
项目选取,位置在开始--->样式--->条件格式
数据条,位置在开始--->样式--->条件格式
图标集,位置在开始--->样式---->条件格式
迷你图:位置在插入--->迷你图

图表制作方法

平均线图
双坐标图
竖形折线图
瀑布图
帕累托图
旋风图
人口金字塔图(旋风图的一种)
漏斗图
矩阵图(散点图)
发展矩阵图
改进难易矩阵(气泡图)

第六章 专业化生存——图表可以更美

专业化图表的评价标准

严谨
简约
美观

图表注意事项

信息完整:图表标题、单位、图例、脚注、来源等
避免无意义的图表
一表反映一个观点
只选对的不选复杂的图表
标题一句话阐述清楚反映观点

饼图

数据从12点方向开始,重要数据紧靠12点位置开始排列
数据项不能太多,控制在5项以内
不要使用爆炸式的饼图分离,但可分离某一扇区以强调
饼图不要使用图例,标签直接标在扇区内或旁
尽量不使用标签连线
尽量不使用3D效果
当扇区使用颜色填充时,推荐使用白色的边框线
超过5项数据可考虑使用复合饼图

柱形图

同一数据序列使用相同颜色
不要使用倾斜的标签,文字太多可考虑使用条形图
纵坐标轴一般刻度从0开始

条形图

同一数据序列使用相同的颜色
尽量让数据从大到小排序,方便阅读
不要使用倾斜的标签
最好添加数据标签

折线图

折线选用的线型要相对粗些,相对于网格和坐标轴
折现一般不超过5条
不要使用倾斜的标签
纵坐标一般刻度从0开始

图表会说谎

坐标起始不为0
3D效果的伪装
逆序排列的误导
一维图形的障眼法

图表美化

  • 三原则

    简约 整洁 整整齐齐 干干净净 和谐自然 对比

  • 方法

    最大化数据墨水比 找出隐形的线 图表喜欢的数字格式:Arial格式

    • 突出对比

      恒值直线 箭头

    • 颜色的运用

      • 相似色

        画面平淡 区分度不够 邻近色:统一和谐,带来明显感情特征 对比色

      • 冷暖色

        冷色趋于后退,暖色趋于前进

      • 慎用颜色

        红色:危险、指标存在重大问题 黄色:提醒、存在潜在问题 绿色:安全、发展良好

      • 配色技巧

        不同对象的颜色强弱看起来接近,调节色调值,饱和度不变 不同对象的颜色差异看起来均匀,调节色调值,数值之差相等 画面绚丽多彩,较高的饱和度 画面舒适、平静,中等饱和度 对比度高,调高饱和度,拉大色调差值

    • 其他方法

      保存模板 快速制图(选中数据,F11,以默认图表类型制图,适合批量制作)

    • 添加数据系列

      边框拖放法 复制粘贴法 添加小标签工具JWalk Chart Tools 智能照相机 修剪超大值 F4键,重复上一步操作

第七章 专业的报告——体现你的职场价值

数据分析报告定义:根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出结论,提出解决问题办法的一种分析应用文体

数据分析报告的写作原则

规范性原则
重要性原则
谨慎性原则
创新性原则

数据分析报告的作用

展示分析结果
验证分析质量
提供决策依据

数据分析报告的种类

  • 专题分析报告

    定义:对社会经济现象的某一方面或某一问题进行专门研究的一种数据分析报告 作用:为决策者制定某项政策、解决某个问题提供决策参考和依据

    • 特点

      内容的单一性 分析的深入性

  • 综合分析报告

    定义:全面评价一个地区、单位、部门业务或其他方面发展情况的一种数据分析报告

    • 特点

      全面性 联系性

  • 日常数据通报

    定义:以定期数据分析报表为依据,反映计划的执行情况,并分析其影响和形成原因的一种数据分析报告

    • 特点

      进度性 规范性 时效性

  • 数据分析报告的结构

    • 标题页

      • 标题类型

        解析基本观点 概括主要内容 交代分析主题 提出问题

      • 标题要求

        直接 确切 简洁 标题的艺术性 目录

    • 前言

      分析背景:为何开展此次分析?有何意义? 分析目的:通过此次分析要解决什么问题?达到何种目的? 分析思路:如何开展此次分析?主要通过哪几方面开展?

    • 正文

      是报告最长的主体部分 包含所有数据分析事实和观点 通过数据图表和相关的文字结合分析 正文各部分具有逻辑关系 结论和建议

    • 附录

      专业名词解释 计算方法 重要原始数据 地图

  • 数据分析报告注意事项

    结构合理,逻辑清晰 实事求是,反映真相 用词准确,避免含糊 篇幅适宜,简洁有效 结合业务,分析合理

第八章 数据分析技能持续上升

软件工具

  • 数据分析类工具

    框架构建工具——Mind Manager 数据处理工具——UltraEdit 数据分析工具——SPSS Statistics 数据挖掘工具——SPSS Modeler

  • 数据展现类工具

    报告撰写工具——PowerPoint 图表制作工具——Swiff Chart 图表制作工具——Crystal Xcelsius

论坛

  • 数据分析类论坛

中国统计网-本人发现打不开该网站

数据挖掘学习交流站

数据挖掘研究院

人大经济论坛

统计之都

Excel Home

Excel技巧网

  • 数据展现类论坛

扑奔PPT网

Powerbar论坛

锐普PPT论坛-本人发现打不开该网站

博客

  • 数据分析十大博客

沈浩老师的博客

数据挖掘与数据分析

数据挖掘@数据分析

数据化管理

数据元素

小蚊子乐园

ExcelPro的图表博客

网站分析在中国——从基础到前沿

网站数据分析

蓝鲸的网站分析笔记

  • PPT十大中文博客

秋叶的职场人生感悟

PPT设计及其他

孙小小

般若黑洞

商务演示

基于PPT的课件制作

让PPT设计NEW一NEW

枫桥PPT创意坊

且行资源

PPT World



blog comments powered by Disqus