当前位置:主页 > 资源下载 > 15 > 电影数据分析.docx下载

电影数据分析.docx下载

更新：2024-06-17 15:30:01
大小：459KB
推荐：★★★★★
来源：网友上传分享
类别：算法与数据结构 - 大数据
格式：DOCX

反馈 / 投诉

资源介绍

一、数据分析项目介绍 1. 项目所需的模块库介绍 pandas用法：需要导入以下模块 import numpy as np import pandas as pd from pandas import Series, Dataframe 2.项目背景介绍互联网电影资料库（Internet Movie Database，简称IMDB）是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。电影作为艺术和娱乐载体已成为我们生活中的一部分，作为电影爱好者之一，希望通过分析了解电影市场大体情况，以便于以后选择电影观看。使用的数据是IMDB美国票房排名前1000的电影数据，数据包含了电影名称，票房金额，上映年份，演职人员，IMDB评分，电影类型等信息，数据中的很多电影大家也比较熟悉。相信不少人都有这样的经历，当想要看一部电影的时候，会去百度一下谁是导演，谁是主演。如果导演是克里斯托弗•诺兰，心里已经给电影打了个8分以上的评分了。而阿汤哥的动作片，预期也都能肾上腺素飙升。对于已上映的电影，不少人会去豆瓣搜索现时的评分，或是前作的评价，若是豆瓣高分、高评论数，也会按奈不住去蹭下热度。如果要去电影院观看的话，想必不少人会更倾向选择动作片或者科幻大片这类特效丰富，影音冲击强烈的电影。近几年特效技术和3D动画的日渐成熟，影院观影已经是越来越多人的第一选择。 IMDB的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDB评分。截至2018年6月21日，IMDB共收录了4,734,693部作品资料以及8,702,001名人物资料。 3.项目所需数据介绍数据的属性包括：电影名称、评论数、评分、导演、上映时间、上映国家、主要演员、语言、IMDB评分等。理解数据： color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes 4.项目功能详细介绍显示电影评分分布的情况；电影数量与平均分年度变化的情况；评论家评论数与评分的关系；评分与电影票房的关系；电影数量大于5前提下平均分前十的导演推荐的数据；不同电影类型的年份累计分析；电影时长的分布及时长是否和评分有相关性；电影时长的分布及时长是否和评分有相关性。二、数据分析过程 1.主要功能实现的类和方法介绍 # 清洗runtime电影时长列数据，可使用str.split()方法 df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int) df['runtime'].head() # 清洗year列，使用str[:]选取年份数字并转换成int类型，使用df.unique()方法检查数据 df['year'] = df['year'].str[-5:-1].astype(int) df['year'].unique() 2. 数据分析过程代码和解释说明导入包：导入、查看、清洗数据：评分分布图：电影数量与平均分布年度变化：评论家评论数&评分、评分&票房：电影数量大于5平均分前十的导演：统计不同年份、不同类型电影的数量： cumsum = df.groupby(['main_genre', 'year']).title.count() # 使用累加功能统计1980年起不同年份不同电影类型的累计数量，对于中间出现的缺失值，使用前值填充 genre_cumsum = cumsum.unstack(level=0).cumsum().ffill() # 只选取总数量大于50的电影类型数据 genre_cumsum = genre_cumsum.loc[:,genre_cumsum.iloc[-1,:] >= 50] # 根据电影类型统计数据作图 fig, ax2 = plt.subplots(figsize=(12,6)) genre_cumsum.plot(ax=ax12, legend=False, linewidth=3) # 添加数据标签 for i in last_row.iteritems(): if i[0] == 'Adventure' or i[0] == 'Biography' or i[0] == 'Horror': ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]-5), fontsize=12) else: ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]+5), fontsize=12) # 美化图表 ax2.set_title('The Aggregate Movies of Different Genres Over Years', fontsize=16) ax2.spines['top'].set_visible(False) ax2.spines['right'].set_visible(False) ax2.spines['left'].set_visible(False) ax2.tick_params(bottom=True, labelleft=False) ax2.set_xlabel('') plt.tight_layout() 电影时长的分布及时长是否和评分有相关性： fig, ax4 = plt.subplots() df['runtime_min'].hist(range=(70,210), bins=14, color=(114/255,158/255,206/255)) ax4.set_title('The Runtime Distribution of US Top Box Office Movies') ax4.spines['top'].set_visible(False) ax4.spines['left'].set_visible(False) ax4.spines['right'].set_visible(False) ax4.set_xticklabels(np.arange(70,220,10)) ax4.set_xticks(np.arange(70,220,10)) ax4.grid() 绘制时长和IMDB评分相关性： fig = plt.figure(figsize=(14,7)) sns.lmplot(data=df, x='runtime_min', y='imdb_rate') sns.despine() 三、数据分析结果评估 1、评分分布主要在5.0~8.0之间，3.0以下和9.0以上分布很少。如果8.0算为优秀，则优秀电影占比较少。 2、电影数量在1990~2000年间快速增长，2009年达到较高值。而电影的平均分整体上呈下降趋势。 3、评论家评论数与评分整体呈正相关关系，500以上评论家评论数对应的评分都高于6.0。 4、评分与票房整体呈正相关关系，但关系不强。 IMDB评分人数和电影票房的相关性很弱，高票房不代表评分人数多，低票房电影也能有大量的IMDB评分人数。 5、电影数量大于5平均分前十的导演：Christopher Nolan、Quentin Tarantino 、 Stanley Kubrick、 James Cameron 、Peter Jackson 、Alejandro G. Iñárritu 、David Fincher 、Martin Scorsese 、 Wes Anderson 、Paul Greengrass。 6. 前五大电影类型分别是动作片Action，喜剧片Comedy，动画片Animation，剧情片Drama，冒险片Adventure。1995年之前，动作片和喜剧片都是影院观众最喜爱的电影类型，对应的高票房数量不分伯仲，剧情片是另一相对流行的电影类型。1995年后，高票房的动作片快速增长，甩开了喜剧片。喜剧片随仍是高票房数量第二多的电影类型，但近几年增速明显放缓。高票房动画片进入榜单的时间最晚，但在1998年前后迎来明显增长，此后的十年里完成了对剧情片和冒险片的超越。如果动画片保持目前的增速，有望在之后的十几二十年里超越喜剧片，成为高票房数量第二的电影类型。 7. 时长和IMDB评分呈一定的相关性，时长短的电影既有高分也有低分，但时长超过160分钟的电影基本都能获得6分以上的分数，时长最长的两部电影甚至得到了接近9分的超高得分，IMDB评分接近或低于4分的电影时长均小于130分钟。丰富的剧情和长长的故事也许也是一种容易感染观众的方式，这也和之前提到的好的故事打动观众相呼应。四、总结数据分析的过程往往是一个从宏观到微观的过程。先从宏观上把握数据大体的情况，大胆地提出假设，然后再将数据进行细分，小心地求证。通过数据的对比，就很容易看出调整的效果。有关活动效果的数据分析往往也会涉及数据的对比。具体的思路是从要分析的目的入手，首先思考造成这种情况的可能原因有什么，再从每个可能的原因中找到相应的数据，与要分析的目的的数据进行比较，看哪一个是造成该情况发生的主要原因。这里要用到的是excel的图表工具，把每一种可能的数据都作出一个图表，与要分析的目的的数据图表进行比较，如果有某一个数据的变化曲线与之相差不多，则可以说这个所对应的原因是造成该情况发生的主要原因。以上是分析活动的一些核心数据，核心数据的分析是最主要的，因为这直接反应了该活动最本质的效果。

上一篇: academic writing for graduate student
下一篇: ml-100k-ALS推荐算法数据集

相关推荐

电影数据分析.docx下载

资源介绍

热门标签

资源声明