项目数据分析 14个超有趣的数据分析项目 数据集都给你整理好啦

栏目:汽车 2021-10-07 21:00:23
分享到:

转载自大数据文摘

对于那些对数据、数据分析或数据科学感兴趣的人,请提供一份可以在业余时间完成的14个数据科学项目的清单!

有三种类型的项目:

可视化项目

探索性数据分析项目

预测建模

可视化项目

最容易做到的就是数据可视化。以下三个数据集可以用来创建一些有趣的可视化效果,并将其添加到您的简历中。

1.新冠肺炎可视化

了解如何使用Plotly构建动态可视化数据,并展示冠状病毒如何在全球传播。Plotly使用方便,可以做动态可视化,好看又容易操作。

难度:

数据集:

https://www . ka ggle . com/sudalairajkumar/new-corona-virus-2019-dataset

教程:

https://towards data sciences . com/visualizing-the-coronavirus-大流行-with-choropeth-maps-7f 30 fccaecof 5

2.澳大利亚火灾数据的可视化

2019-2020年丛林火灾季节,也被称为黑色夏天,由2019年6月开始的几次极端野火组成。根据维基百科,这场大火摧毁了大约1860万公顷的土地和5900多栋建筑。

这是一个有趣的项目,可以使用Plotly或Matplotlib数据可视化工具来可视化野火的规模及其对地理的影响。

难度:

数据集:

https://www . ka ggle . com/carlosparadis/fires-from-space-Australia-and-new-zeland

3.表面温度可视化

你曾经怀疑过全球变暖的想法吗?创建一些数据可视化效果来显示地球表面温度如何随时间变化,这可以通过创建折线图或其他动画Choropleth地图来实现!你也可以创建一个预测模型来预测未来50年的地球温度。

难度:

数据集:

https://www . ka ggle . com/berkelyeath/climate-change-earth-surface-temperature-data/kernel

探索性数据分析项目

探索性数据分析又称数据挖掘,是指在数据分析过程中运用各种技术来更好地理解数据。

1.纽约的Airbnb数据挖掘

自2008年以来,Airbnb让游客和房东更容易出行,并提出了更个性化的体验世界的方式。这个数据集包含了2019年纽约租金的信息,以及地理信息、价格、评论数量等等。

可以分析的角度如下:

哪些领域的业务最好,为什么?

哪些地区的交通流量比其他地区多,为什么?

价格、评论数和预订天数有关系吗?

难度:

数据集:

https://www . ka ggle . com/dgomonov/new-York-city-Airbnb-open-data

2.哪些因素与员工离职和绩效有关

IBM发布了一个全面的数据集,可以用来了解各种因素如何影响员工的离职率和满意度。一些变量包括教育水平、工作相关性、绩效评估和工作生活平衡。

分析这个数据集,找出任何真正影响员工满意度的变量。此外,还可以看看能否对变量进行重要性排序。

难度:

数据集:

https://www . ka ggle . com/pavansubhashht/IBM-HR-analytics-消耗战-数据集

3.世界大学排名

你认为你的国家有世界上最好的大学吗?成为“最好”大学的标准是什么?这个数据集包含三个全球大学排名。利用这些数据,你能回答以下问题吗:

顶尖大学在哪些国家?

决定世界排名的主要因素是什么?

难度:

数据集:

https://www . ka ggle . com/my lesneill/world-university-rankings

4.喝酒和学校表演

喝酒会影响学生成绩吗?如果没有,还会有什么其他影响?这个数据是从中学生用数学和葡萄牙语进行的一项调查中获得的。它包含几个变量,如饮酒量、家庭数量和参加课外活动。

利用这些数据,我们可以探索学校成绩和各种因素之间的关系。另外,看看能不能根据其他变量预测学生的成绩!

难度:

数据集:

https://www.kaggle.com/uciml/student-alcohol-consumption

5.宠物精灵的数据挖掘

对于所有游戏玩家来说,这是一个包含七代802个口袋妖怪的信息数据集。试着回答以下问题!

哪一代宠物精灵最强?哪一代最弱?

哪种类型的神奇宝贝最强?哪个最弱?

能否建立一个分类器来识别神奇宝贝?

身体特征和力量状态之间有相关性吗?

难度:

数据集:

https://www.kaggle.com/rounakbanik/pokemon

6.探索影响预期寿命的因素

世卫组织建立了一套一段时间内所有国家健康状况的数据集,包括预期寿命和成人死亡率的统计数据。利用这个数据集,探索各变量之间的关系,预测对预期寿命影响最大的因素是什么?

请尝试回答以下问题:

原来选择的各种预测因素真的会影响预期寿命吗?实际影响预期寿命的预测变量有哪些?

预期寿命值低于(

婴儿和成人死亡率如何影响预期寿命?

预期寿命与饮食习惯、生活方式、运动、吸烟和饮酒呈正相关还是负相关?

接受教育如何影响人类生活?

预期寿命与饮酒呈正相关还是负相关?

人口密集国家的预期寿命在减少吗?

免疫覆盖率对预期寿命有什么影响?

难度:

数据集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

预测模型

1.能源消耗的时间序列预测

该数据集由美国地区传输组织PJM网站上的功耗数据组成。利用这个数据集,我们可以看看是否可以建立一个时间序列模型来预测能源消耗。除此之外,还可以查看是否能找到一天中每个小时的趋势、假期用电量以及长期趋势!

难度:

数据集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

2.贷款预测

该数据集取自分析公司Vidhya,包括615行13列关于已批准和未批准历史贷款的信息。你能建立一个模型来预测贷款是否会被批准吗?

难度:

数据集:

https://data hack . analyticsvidhya . com/contest/practice-problem-loan-prediction-iii/

3.二手车价格计算器

Craigslist是世界上最大的二手车经销商。该数据集由Craigslist捕获的数据组成,每隔几个月更新一次。使用这个数据集,看看你是否可以创建一个数据集来预测汽车价格是高估还是低估。

难度:

数据集:

https://www . ka ggle . com/austinreese/craigslist-cars trucks-data

4.信用卡欺诈检测

该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔是欺诈性的。数据高度正态分布,欺诈占全部交易的0.172%。学习如何使用异常数据集,构建信用卡欺诈检测模型。

难度:

数据集:

https://www . ka ggle . com/janiobachman/credit-欺诈-处理不平衡数据集

5.皮肤癌图像检测

利用1万多张图像构建神经网络检测皮肤癌。这绝对是最难的项目,需要储备神经网络和图像识别方面的知识。

难度:

数据集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

数据城堡