数据分析师分析思路案例——淘宝婴儿电商数据

分析背景

随着互联网的发展,人们越来越依赖网上购物,尤其是婴儿产品。本案例分析淘宝和天猫2012~2015婴儿用户的业务数据。其数据具有指导下一步业务发展的意义。

数据来源:阿里巴巴天池 (https://tianchi.aliyun.com/dataset/dataDetail?dataId=45)。

这个数据集包括两个excel文件。表1购买商品,表2婴儿信息。

分析目的

通过务数据进行分析,发现隐藏的问题,为下一步的经营决策提供依据,增加销量和销量。

分析思路

1)数据中可分析的指标

2)数据中可分析的问题

哪种商品最受欢迎?随着时间的推移,商店的交易量和订单量如何变化?会员回购率是多少?他们重复购买了什么商品?婴儿年龄对商品销售有什么影响?婴儿性别对商品销售有什么影响?分析内容

1)理解数据

表1字段分别为:

user_id:用户IDauction_id:购买行为编号cat_id:商品种类IDcat1:商品类别property:商品属性buy_mount:购买数量day:购买时间

表2字段分别为:

user_id:用户IDbirthday:出生日期gender:性别(0 男性;1 女性,2 未知)

2)数据清洗

①选择所需的子集

根据以上分析的问题,隐藏不必要的数据列(隐藏表1中不必要的字段:auction_id:购买行为编号,property:隐藏商品属性,保留表2的所有字段。

②重命名列名

用相应的中文列名替换原英文列名很容易理解。

③删除重复值

删除两个表的全选数据的重复值,发现没有重复值。

④处理缺失值

查询两个表的缺失值(以列为单位对比每列数),发现无缺失值。

⑤一致化处理

标准化两表的时间数据,并使用vlookup函数相关,便于数据分析。

⑥处理异常值

a.通过筛选,改变出生日期格式,并将有#N/A筛选出性别为2的异常值,并使用if函数将性别表示为男女,如下:

b.由于年龄对数据的影响需要分析,这里的数据还需要通过购买时间添加计算年龄-出售日期可以,其中出现-1,-2,28等待异常年龄数据,这里我们对-2筛选和处理两个异常明显的数据,并将整体数据添加到新表中,如下:

到目前为止,两表相关的数据清洗已经结束,可以为下面的分析提供依据。

3)构建模型分析问题

①哪种商品最受欢迎?

从图中可以看出,50008168的购买量最高,其次是28。因此,50008168最受欢迎。

②随着时间的推移,商店的交易量和订单量如何变化?

首先,解释交易量与订单量的区别:交易量是统计交易的商品数量;订单数量是统计订单数量,每个用户下一个订单是一个订单数量,每个订单可以包含多个商品。

考虑到年份时间跨度大,我在这里尽量缩短时间跨度,按月统计,数据会更准确。

按成交量统计:

从图中可以看出,从2012年底到2015年初,总体成交量呈上升趋势,月度和季度销量同比增长。然而,观察后会发现:

每年2月销量会突然下降;每年5月和11月销量会突然上升。为什么?这里需要进一步验证销量和月份的关系。

考虑到中国的春节一般集中在每年2月左右,快递将在此期间关闭,销售可能会受到影响。在这里,我们将以日为单位,验证销售是否与春节有关!

从1月和2月的销售数据可以看出,2013年2月3日至2月15日,销量达到最低值;2014年1月26日至2月4日,销量达到最低点。经调查,2013年春节为2月10日,2014年春节为1月31日。春节假期与上述销售低谷正好一致,因此有理由说明春节假期对销售有削弱的影响。

同理,联想5~6母亲节,520,儿童节,我们继续验证销量是否与假期有关!

从上图可以看出,2013年和2014年5月的销量高于6月,具体时间为5.13、5.58销量前后出现小高峰,与母亲节和儿童节前后的时间一致。因此,有理由说明节假日对销量的增加有影响,商店可能会配合节假日进行促销活动。

为什么每年11月左右销量都会达到高峰?继续提取数据:

从图中很容易看出,销售高峰将在三年中的11月11日和12月12日形成。双十一、双十二是淘宝店推广的日子,所以有理由每年11月、12月的销售高峰都是双十一、双十二带来的。

按订单量统计:

因为每个用户下订单会形成用户ID,所以对用户ID计数可以知道订单数量随时间变化的趋势。如图所示:

上图显示了每月订单量的变化趋势,其中每年2月和11月左右的变化趋势和交易量的变化趋势基本相同。只有5月份的变化趋势,订单量高峰提前一个月。我们进一步每天打开数据,如图所示:

从上表可以看出,两年中的4月份的订单量高于5月份。从上图中看,5月份的交易量高于4月份。这表明4月份的活动预热可以增加订单数量,5月份的单笔交易量增加,但订单数量下降,回购率可能值得研究。

③会员回购率是多少?他们重复购买了什么商品?

用户一可以看出,用户ID计数为29971,因此订单数量也为29971。因为用户可以通过用户重复订单ID有多少用户重复下单?

以用户ID 作为行标签,用户ID数据透视表按计数大小排序,如图所示:

从表中行标签可以看出,实际购买用户数为29947,重复购买用户数为25,用户回购率=25/29947,回购率极低,销量主要来自新用户。

回购率低意味着平均购买次数低,接近1,进一步说明用户粘性差。操作可能需要从产品质量、渠道质量、卖点宣传、售后服务等方面进行调查。

让我们来看看这些重复购买的用户购买了什么商品,如图所示:

上表显示了25个重复购买用户购买商品类型的分布,共有52种商品。其中,50008168重复购买最多,其次是28种商品。对于这些回购较多的商品,我们应该研究其商品属性和卖点,了解为什么它们卖得这么好,并为未来的主要商品提供指导。

同样,我们也需要了解这些重复购买用户的肖像,抓住他们的需求,推荐更合适的商品。

④婴儿年龄对商品销售有什么影响?

年龄与销量的关系从前面的关联表中总结出来,如图所示:

从上表可以看出,商品的用户年龄为0~11岁(排除-1年)。其中,如果将-10-2岁的婴儿是主要的购买者。而且随着年龄的增长,购买量也在减少。因此,在考虑商品营销策略时,可以0-2以婴儿用品为主要营销对象。

那么0~2年龄较大的婴儿用户对这些产品的需求较高?这里再做数据透视,结果如图所示:

从上表可以看出,对0-250008168商品购买量最大,其次是50014815商品和28商品。

因此,对于这三种销量较高的商品,一定要在销量高峰期准备好货源。

另外,婴儿的性别是否也会影响销售,再分析一下!

⑤婴儿性别对商品销售有什么影响?

从上表可以看出,男婴的整体购买需求比女婴强(492>438);其中,50008168在男女性别中最受欢迎,其次是5001815和28;此外,不同性别对不同商品的需求也不同。例如,50008168的男性需求超过女性。

结论与建议

1)50008168是购买量最大、最受欢迎的产品,因此该产品可以作为销售的主要产品进行推广和推广;

2)商店的交易量和订单量受节假日的影响很大。每年2月左右受春节停运影响,购买量下降。建议在此期间节约劳动力成本和推广资源;每年5月左右和11月左右受节假日、双11、双12的影响,销量飙升。建议提前准备货物,提前计划促销活动。

3)店铺回购率极低,平均购买次数接近1,用户粘性低。建议运营从产品质量、渠道质量、卖点宣传、售后服务等方面进行调查。

4)店铺的主要用户年龄是0-2因此,在考虑商品营销策略时,需要岁0-2年龄较大的婴儿用品作为主要的营销对象。;其中50008168商品需求最高的商品,在店铺销售高峰期,要准备好货源。

5)性别对产品销售影响不大。其他女婴对男婴的需求略高,但个别产品的男婴远高于女婴,如50008168。对于此类产品,应进行性别指导和详细页面推广。

以上。

扫码免费用

源码支持二开

申请免费使用

在线咨询