搜索
查看: 1927|: 0

如何做网站数据分析(一)——准备工作

[复制链接]

2

主题

0

回帖

41

积分

新手上路

积分
41
发表于 2016-12-2 11:40:31 | 显示全部楼层 |阅读模式
在大数据时代的当下,网站数据的关注度越来越高,网站分析已成为网站运营和互联网营销从业者的必备技能。然而,网站分析该怎么操作呢?网站分析有哪些方法呢?如何进行一次全面的网站分析呢?
本章节讲的是在进行分析前,我们还需要做的一些数据分析前的准备工作。做准备工作的意义在于保证手头所有数据源的广度和精度。
如何才能保证你准备数据源的广度和精度呢?小编建议你从以下3方面着手做准备:
1、多来源地收集数据;
2、对数据做初步的清洗整理;
3、着重注意一些可能会造成偏差的数据类型。
一、数据的来源

多来源地收集数据是尽可能地保证数据的全面性,从而能从更多角度地分析问题。一般来说,数据的来源类型主要有点击流数据、业务运营数据、实验测试数据、用户调研数据、行业发展数据、竞争对手数据。
1)点击流数据

点击流数据主要是解释 "What" 的问题。一般有以下几种收集方式。
1.通过网站日志的形式获取得到;
2.通过百度统计等第三方工具获取;
3.通过对网站埋点的方式获取;
例如:访问数、页面浏览数、停留时长等都属于点击流数据。

2)业务运营数据

业务运营数据主要解释"How much"的问题。主要是一些存放在前台数据库(ERP或CRM系统)的数据,这些数据可以直接衡量网站的绩效和目标。一般可通过查询后台数据获取。例如:销售额、订单量、购买用户数等指标。

3)实验测试数据

实验数据主要解释"Which"的问题。实验测试数据一般都是临时采集的,功能是为了某些专题的分析,比如网站改版、用户体验的优化等。网站分析中最常见的实验测试就是A/B测试,即从两个方案中选择更优的方案。

4)用户调研数据

用户调研数据功能主要是去找到“Why”的结果。直接询问用户无疑是最有效的,最常见的用户调研方式是问卷调查,让用户直接回答问题来解释问题的原因。当然,用户调研属于典型的定性分析,如果结合定量分析一起进行会更准确。

5)行业发展数据

行业发展数据与自身的数掘进行比较,往往可以看到自身存在的不足。很多第三方咨询分析机构会定期出一些行业的数据报告,可以从这些报告中发掘一些有用的行业信息。

6)竞争对手数据

与行业数据一样,对竞争对手的分析也是发现自身优劣势的最好方法。而且网站本身为了让用户了解到一些信息也会展现一些数据,而这些数据也是分析竞争对手的一种途径。

二、对数据的初步清洗与整理

数据的清洗与整理是为了保证数据的完整性、一致性和准确性。

1)数据的完整性

保证数据的完整性就需要尽量减少数据源的缺失值对数据分析带来的影响。为了之后的统计和分析的需要,一般通过均值、中位数、众数,或者根据指标的变化趋势使用回归分析进行拟合后算出预测值,如果与其他的指标存在相关性,也可以结合其他的指标进行估算。
举个例子:(对表中缺失数据的填充)
日期
购买用户数
总销售额
人均消费额
1月10日
1765
59108
33.49
1月11日
1643
1月12日
1890
63550
33.62
1月13日
1813
62799
34.64
表中显示的是1月份某几天的网站销售情况,人均消费额由总销售额除以购买用户数计算得到。由于1月11日的数据总销售额缺失,进而人均销售额也无法计算得到。我们对1月11日的缺失数据进行填充,可以简单地使用11日前后两天的总销售额数据取平均值计算得到61329作为11日总销售额的数据进行填充,进而可以计算得到人均消费额为37.33。或者考虑到每天的人均消费额保持相对恒定,我们使用 1月份的人均消费额均值33.00来填充11日的人均消费额,进而计算得到该日总销售额为54219。

2)数据的一致性

要保证数据的一致性,就要保证整个数据采集阶段的描述一致性、记录一致性、既定的规则一致性。
描述一致性:比如省份的细分数据,一个数据源记录的是”京",另外一个是“北京市”;这时候可以通过观察省份字段的所有唯一值排序的结果,这样类似的不一致的描述就会一目了然。
‚记录一致性:记录一致性一般是由于数据的重复录入,如果发生在数据库中,我们则可以使用主键约束或者唯一约束去避免类似情况的发生。
ƒ既定的规则一致性:这个要求采集到的数据在总体和细分上保持一致,如果不一致,很有可能就是数据模型的设计或者维表的结构存在问题。当然,也可能是某些指标的定义和计算规则没有统一。

3)数据的准确性

要保证数据准确性则要提前识别出源数据中存在的异常数据。比如查询页面名称、搜索关键词等数据时,可通过排序(升序、降序)的方法排查异常数据;另外数值明显过大或过小也是异常值的表现,比如网站某个页面的访问量一天一百多亿,解决办法一般是通过限定指标的取值区间,然后再进行查找;还有访问量、页面浏览量这些指标永远应该是整数,这些数据如果异常可以使用数据的有效性检验去发现是否有非整数值的存在。

三、容易产生数据偏差的数据类型列举

1)用户的识别

用户的识别方式直接影响网站UV的统计。比如单纯的访问用户一般称为访客,而当用户注册登录后就变成了网站的用户,这时候就可以用注册的用户名或者用户ID进行识别。在电子商务网站,当用户购买商品之后就变成了网站的顾客,这时候统计的就是真实的用户,而非用户使用的终端设备。

2)停留时间

用户在页面准确的停留时间其实很难计算得到,一些通用的网站分析工具对访问的停留时间计算方式一般为:计算用户浏览最后一个页面和浏览第一个页面之间的时间间隔,并没有考虑用户在这个时间间隔里面是否真的是在浏览页面,还是接了个电话或者干别的事情去了

3)访问来源

访问来源通常有直接流量、搜索来源、外部网站和收费流量,例如Flash或者某些广告,都会混淆流量来源。
不知道以上这些干货有没有帮到你呢,请继续关注我的文章获取更多干货。另外我手上有一份查询网站网址行业数据的干货文档,朋友们可以通过在评论里留下邮箱获取哦。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-22 12:20 , Processed in 0.088304 second(s), 25 queries .

快速回复 返回顶部 返回列表