豆瓣电影的数据分析

这份报告是我转行做数据分析后的第一份报告。当时觉得学完Python,SQL,BI就能找到工作了。其实分析思维和商业远比工具重要。一个多月后回头看,这份报告虽然写得不错,但和数据分析报告大相径庭。主要原因如下:a .针对豆瓣电影的数据分析过于宽泛。具体的关键指标有哪些?;b .没有一个确切有效的分析模型/框架,会有一种东一块西一块拼接的感觉。

即使有这些缺点,我还是想挂了,主要是因为:1。作为一个熊猫和爬虫(硒+请求)从业者,我总要留下一些证明;2.确实很难找到一条商业逻辑线来支撑豆瓣电影的分析,一般以描述性统计为主;3.与网上能找到的其他豆瓣电影数据分析相比,更加详细,可视化效果好;

本报告旨在分析豆瓣电影1990-2020的电影数据。首先,它通过编写Python网络爬虫来抓取51375条电影数据。收集的对象包括:片名、年份、导演、演员、流派、制作国家、语言、时长、评分、评论数、不同评价比例和网址。经过去重和清洗,最终获得29033个有效电影数据。根据电影评分、时长、地区、流派,描述评分与时长、流派的关系,统计各地区电影的数量和评分。之后针对演员和导演进行数据汇总,给出产量和评分最高的名单。在分析的过程中还发现,今年电影数量逐渐增多,但评分有所下降,主要是今年国内低质量的影视作品增多。

另外,这份报告还抓取了(/) 1995到2020年上映的国产电影票房,* * *收集了4071的数据,其中3484个有效。进而分析了国内院线票房的年度变化趋势,票房与评分、人数、时长、地域的关系,以及票房与影片类型的关系,给出了票房最高的导演、演员、影片的排名。

经过清洗和去重后,我们可以看到29033条数据的长度、得分和评论数具有以下特征:

结合图1(a)(b)可以看出,电影数据时长主要集中在90-120分钟之间,向两极阶梯式递减,数据分为短(60-90分钟)、中(90-120分钟)、长(65438+)。150分钟),各部分占比分别为21.06%,64.15%,11.95%和2.85%。

结合图2(a)我们可以看到,我们收集的电影数据的评分主要在6.0到8.0之间,呈现出向两极逐级下降的趋势。这里我们根据分数划分区间:2.0-4.0为口碑差,4.0-6.0为口碑差,6.0-7.0为口碑尚可,7.0-8.0为口碑好,8.0-650为口碑好。

这五种电影数据占比分别为:5.78%,23.09%,30.56%,29.22%,11.34%。

然后每年细化评分数据进行观察,可以发现30年内电影数量与年平均分呈负相关,年平均分整体呈下降趋势,2016年平均分最低,电影数量最多。

进一步做各年不同评分的电影数据占比,可以发现,近几年评分为×、(2,5)、(5,10)、(10,20)、(20,999)的导演分组统计,可以发现,15009。忽略那些客串演员和跑龙套的演员,数据一般符合二八定律,也就是20%的人占用了行业大量资源。

在这里,我们可以通过电影评分、每部电影的影评人数量和影片数量来发现优秀的电影导演和演员。这三个指标分别衡量导演/演员的创作水平、人气和生产力。考虑到电影数据集中可能存在少量电视剧/剧场版动画,且电视剧/剧场版动画的受众少于电影,但评分普遍高于电影,这里根据每部电影的评论数和作品数,先选出导演/演员,再根据电影评分进行排名,得出前30名,可得数字17,18。

结合电影票屋(/)收集的3353票房数据,根据电影名称与豆瓣数据匹配,得到中国大陆1995-2020的电影信息,分析中国电影数量、票房变化趋势、票房与评分的关系、评价人数、时长、地域、类型,此外还给出不同导演、演员的票房表现以及电影的票房排名。

如图19,国内票房数据和上映电影数量都在逐年增长。2020年只记录了上半年的数据,受疫情影响票房和数量锐减。这说明国内电影市场在没有大事件的情况下是在扩张的。

将电影数据按类型汇总,绘制散点图21,我们可以发现:

提取导演/演员的名字,汇总导演/演员的领域,计算每个导演/演员的票房总和,计算上映影片的平均分和执导/参演影片的数量,做出票房总和前30名的导演/演员,可以得到如图22和23所示,其中导演/演员的标签反映了票房排名,具体是每个导演/演员上映的影片数量、平均分、给每部影片打分的人数、给每部影片打分的人数。

最后根据电影票房排名,票房前20的电影如表7所示。可以看到,榜单上的大部分电影都是中国电影,索引号为3、10、12、14、18、19的都是美国电影,这也反映出除了国产电影,好莱坞。

本报告从1990-2020收集了29033组豆瓣电影的有效数据,对豆瓣电影的评分、时长、地域、流派、演员、导演、票房等信息进行了分析评估。主要结论如下: