豆瓣读书的 top 250 榜单一直是读书榜单中的标杆,我在书荒的时候也经常翻阅该榜单来寻找好书。

做为 IT 行业的从业者,我突然想到,在这个榜单背后是否有更多有价值的信息?何不写个爬虫去分析一下呢?

数据爬取

豆瓣读书的 top 250 页面基本上包含了我们需要的信息,我用 python 写了个简单的爬虫把这些信息抓取下来。

image.png

因为部分书籍的数据存在缺失,我们还需要对抓取到数据进行再次清洗。

比如就作者国籍一项,豆瓣上不少数据是缺失的,或者是数据格式不统一的,需要我们进行手动处理。

经过一番数据清洗后,完整的豆瓣读书 top 250 数据已经全部存入数据库。

image.png

数据分析

数据并不是一堆毫无意义的数字,在数据背后往往隐藏着很多有价值的信息。下面我尝试对豆瓣读书 top 250 的数据进行一下简单的分析,看下能反馈给我们哪些有趣的信息。

豆瓣评分排行

评分虽然不能完全代表一本书的质量,但可以代表该书得到大多数人认同。

来看一下这 250 本书中 top 10 的评分书籍。

image.png

《南京大屠杀》和《哈利波特》是唯二的 9.7 的评分。

《南京大屠杀》这本书让侵华日军的罪行暴露到世人面前,也让西方人第一次认识到了侵华日军犯下的滔天罪行,再高的评分也不为过。

《哈利波特》系列同样拿到了 9.7 分,这部畅销全球的魔法故事,伴随了无数人的成长,那就让我们自九又四分之三站,开启一段神奇的魔法之旅吧。

而《红楼梦》《毛选》《史记》《诗经》同样拿到了 9.6 的高分,可见经典并不会随着时间的流逝而褪色。

顺便说一下,《红楼梦》是豆瓣读书 Top 250 官方钦点的 top 1。都云作者痴,谁解其中味?一部红楼梦,半部中国史啊!

各评分书籍数量image.png

总的来说,评分基本符合正态分布,大多数评分在九分左右,最高分 9.7 分,最低分也有 8.5 分。

看来该榜单的评分要求确实高,8.5 分的高分居然只是上榜的门槛,而且能否上榜评分只是诸多因素之一。

评论数量排行

image.png

余华的《活着》以 83 万的评论数量高居榜首。这本书已经出版三十多年,但至今在各大社交媒体上依然热度不减。朴实又沉重的文字,往往也最能打动人心。

人生的意义是什么?或许,活着本身就是一种意义。

《追风筝的人》以 79 万的评论数量紧随其后。“为你,千千万万遍”,人最终还是要面对最真实的自己。

《解忧杂货店》以 76 万的评论数量排行第三。人生逆旅,皆是行人,但人生的地图始终掌握的在自己手中。

上榜作品数量排行

image.png

鲁迅、金庸、三毛各有六部作品上榜,夺得三甲。

迅哥儿排行第一倒是在意料之中的,做为黑暗时代的“吹哨人”,哨音至今仍旧警醒着我们每个人。

金庸上榜也属当然,毕竟单论作品对大众的影响力,金大侠绝对是第一梯队的。

《天龙八部》更是位列榜单第 15 位,如果说欲望是人的天性的话,那么“求不得”亦是人生常态。

另我诧异的事,古龙竟然没有一本作品上榜,虽然古大师的作品良莠不齐,但《多情剑客无情剑》都未能上榜还是有点出乎我的意料的。

三毛同样有六部作品上榜,毕竟自由的灵魂,浪漫的爱情,又有谁会不向往呢。

作者国籍分布

image.png

中国的作家上榜 117 部,占据了半壁江山,想来是因为读者多为国人的缘故,毕竟哪个中国人能不热爱这灿烂的五千年文化呢?

英美的作家一共上榜 65 部,英美做为最近两百年的世界霸主,文化影响力自然不可小觑。

同属东亚文化圈的日本作家也很受读者喜爱,有 17 部作品上榜。从细分数据来看,上野千鹤子和东野圭吾各有四部作品上榜,成为日本作家中的“扛把子”。

image.png

哪些出版社出版的书籍最多

image.png

人民文学出版社、上海译文出版社、生活·读书·新知三联书店位列三甲。

其中人民文学出版社一直以高质量、高品味著称,四大名著系列和鲁迅的著作皆由其出版,可谓是中国文学出版社的最高水平!

我们在选购图书的时候,可以优先选择这些多次出版过高质量书籍的知名出版社,以免踩坑。

出版年份分布

image.png

可以看到,05 年到 15 年有一个出版的波峰。通过对详细的数据分析,这十年中有不少经典书籍进行了再版,,因此拉高了这十年的出版数据。

这十年同样是网络文学走向巅峰的十年,《九州·缥缈录》、《你好,旧时光》、《明朝那些事儿》也都榜上有名。刘慈欣更是携《三体》杀入榜单第五位。

图中上个世纪六七十年代也有几本书籍上榜,来看看具体是什么书

image.png

出版最早的是《十万个为什么》及老舍、鲁迅先生的书籍,果然,迅哥儿 yyds!

四大名著谁最受欢迎

image.png

四大名著全部上榜自然是毫无悬念的,《红楼梦》无论评分还是评论数量都是遥遥领先,“四大名著之首”的称谓当之无愧。

但就我日常观察来说,《三国演义》和《西游记》的受众应该是最广的,即使是市井小贩也能陪你唠一唠大闹天空的齐天大圣或者温酒斩华雄的关二爷。而《红楼梦》的受众则相对窄一些,爱它的人把未完的红楼视为一生的遗憾,不爱的人怕是谁葬的花都不知道。

生成词云

官方对每一本上榜的图书都提供了一句话描述,我尝试用这些描述生成词云。

douban_ciyu.png

上图中文字越大,代表出现的次数越多。

排行前五的依次是:生活、一个、中国、一场、历史、社会。

看来大部分作品的主题都是围绕着个人生活和社会历史来展开。

豆瓣读书的排名是如何计算的

对于豆瓣读书榜单的计算方式,官方是这样描述的

豆瓣用户每天都在对“读过”的书进行“很差”到“力荐”的评价,豆瓣根据每本书读过的人数以及该书所得的评价等综合数据,通过算法分析产生了豆瓣读书 Top 250。

因为官方并没有公布具体的计算算法,我们尝试分析一下排名和评分、评论数量的关系。

image.png

由上图可以看出,排行和评分有一定的正相关,但并不明显,比如鲁迅的《坟》评分高达 9.6 分,但排名却在第 240 位。

image.png

排名和评论数量则基本成正相关,排名高的书籍,评论数量也往往较多。

但在图中的右上角明显有一个特例,那就是东野圭吾的《解忧杂货店》,该书排名 236,却拥有 76 万的评论(排行第三),由此看来,该书确实引起了很多读者的共鸣。

总结

豆瓣读书的 top250 毋庸置疑是一个高质量的读书榜单,书荒的时候可以去翻一番做为参考。

但每个人的年龄、喜好、心境等都各不相同,倒也没必要过于迷信读书榜单。

读书是一件很私人的事情,愿我们好读书,读好书。用书籍做为聆听这个世界的桥梁,然后和自己对话,成为更好的自己!