技术宅通过爬取京东百万数据分析中国女性罩杯分布情况

大家好,这是github爬虫项目京东数据爬虫接口的一个小应用,欢迎star和点赞。其实我作为一个工科小男生,不是很懂罩杯到底是什么意思的,不过在做上面这个项目的过程中,发现在商品的评论中会有每个人购买该商品的颜色和大小的数据,哈哈~,这就激发了我的脑洞了,作为一个热(te)爱(bie)科(men)学(sao)的工科男瞬间就想到是不是通过这个分析一下中国女生/人的罩杯大小呢(滑稽~)

一、找到了京东的文胸分类

罩杯 京东

二、抓取所有商品祭出F12神器,分析一下

罩杯 京东 代码:

罩杯 京东

这就是获取之后的数据:

罩杯 京东

一共有文胸分类是:

罩杯 京东

当然,过程不是这么简单的,因为我发现京东同一种商品的不同品种的id是不一样的!!摔!!

如下图!还需要做进一步处理,其中的辛酸我就不说了。

罩杯 京东

三、获取所有商品的所有评论

最复杂的一步,挂了一晚没管他,今天早上抓好了

一共有13万页~~注意是页的数据

罩杯 京东

四、分析评论数据

因为评论里面有很多数据,但是我们只需要size这一项,做一次处理~

有137千页的size数据:

罩杯 京东

合并:有14M,一共1515888条数据,150万!!

罩杯 京东

五、处理size数据

因为不同的店家的size标注不一样,所以需要慢慢的分析一下。。。。

然后还要去除无用的数据

六、分析结果

{"ab": 29842, "c": 190172, "g": 2651, "abcd": 4401, "d": 61088, "b": 753284, "f": 9082, "abc": 2705, "a": 243179, "abcde": 523, "e": 19057, "bcde": 297, "h": 29, "bcd": 2227, "bc": 8533}

对abcedfgh做个饼图:

罩杯 京东

可以看到一共有130万左右有效数据

其中A+B杯占了80%以上,展示了中国女人“太平公主”的气质~~

占比最大的是B杯,还好不是A…

如果你找到一个C..羡慕你~因为那是仅有的15%。。。

来源:知乎 @陈小陈

链接:https://zhuanlan.zhihu.com/p/23790374

赞 (38)

评论 1

  1. 镜子怎么分析的额,