大家好,这是github爬虫项目京东数据爬虫接口的一个小应用,欢迎star和点赞。其实我作为一个工科小男生,不是很懂罩杯到底是什么意思的,不过在做上面这个项目的过程中,发现在商品的评论中会有每个人购买该商品的颜色和大小的数据,哈哈~,这就激发了我的脑洞了,作为一个热(te)爱(bie)科(men)学(sao)的工科男瞬间就想到是不是通过这个分析一下中国女生/人的罩杯大小呢(滑稽~)
一、找到了京东的文胸分类
二、抓取所有商品祭出F12神器,分析一下
这就是获取之后的数据:
一共有文胸分类是:
当然,过程不是这么简单的,因为我发现京东同一种商品的不同品种的id是不一样的!!摔!!
如下图!还需要做进一步处理,其中的辛酸我就不说了。
三、获取所有商品的所有评论
最复杂的一步,挂了一晚没管他,今天早上抓好了
一共有13万页~~注意是页的数据
四、分析评论数据
因为评论里面有很多数据,但是我们只需要size这一项,做一次处理~
有137千页的size数据:
合并:有14M,一共1515888条数据,150万!!
五、处理size数据
因为不同的店家的size标注不一样,所以需要慢慢的分析一下。。。。
然后还要去除无用的数据
六、分析结果
{"ab": 29842, "c": 190172, "g": 2651, "abcd": 4401, "d": 61088, "b": 753284, "f": 9082, "abc": 2705, "a": 243179, "abcde": 523, "e": 19057, "bcde": 297, "h": 29, "bcd": 2227, "bc": 8533}
对abcedfgh做个饼图:
可以看到一共有130万左右有效数据
其中A+B杯占了80%以上,展示了中国女人“太平公主”的气质~~
占比最大的是B杯,还好不是A…
如果你找到一个C..羡慕你~因为那是仅有的15%。。。
来源:知乎 @陈小陈
链接:https://zhuanlan.zhihu.com/p/23790374