转载自大数据文摘
对于那些对数据、数据分析或数据科学感兴趣的人,请提供一份可以在业余时间完成的14个数据科学项目的清单!
有三种类型的项目:
可视化项目
探索性数据分析项目
预测建模
可视化项目
最容易做到的就是数据可视化。以下三个数据集可以用来创建一些有趣的可视化效果,并将其添加到您的简历中。
1.新冠肺炎可视化
了解如何使用Plotly构建动态可视化数据,并展示冠状病毒如何在全球传播。Plotly使用方便,可以做动态可视化,好看又容易操作。
难度:
数据集:
https://www . ka ggle . com/sudalairajkumar/new-corona-virus-2019-dataset
教程:
https://towards data sciences . com/visualizing-the-coronavirus-大流行-with-choropeth-maps-7f 30 fccaecof 5
2.澳大利亚火灾数据的可视化
2019-2020年丛林火灾季节,也被称为黑色夏天,由2019年6月开始的几次极端野火组成。根据维基百科,这场大火摧毁了大约1860万公顷的土地和5900多栋建筑。
这是一个有趣的项目,可以使用Plotly或Matplotlib数据可视化工具来可视化野火的规模及其对地理的影响。
难度:
数据集:
https://www . ka ggle . com/carlosparadis/fires-from-space-Australia-and-new-zeland
3.表面温度可视化
你曾经怀疑过全球变暖的想法吗?创建一些数据可视化效果来显示地球表面温度如何随时间变化,这可以通过创建折线图或其他动画Choropleth地图来实现!你也可以创建一个预测模型来预测未来50年的地球温度。
难度:
数据集:
https://www . ka ggle . com/berkelyeath/climate-change-earth-surface-temperature-data/kernel
探索性数据分析项目
探索性数据分析又称数据挖掘,是指在数据分析过程中运用各种技术来更好地理解数据。
1.纽约的Airbnb数据挖掘
自2008年以来,Airbnb让游客和房东更容易出行,并提出了更个性化的体验世界的方式。这个数据集包含了2019年纽约租金的信息,以及地理信息、价格、评论数量等等。
可以分析的角度如下:
哪些领域的业务最好,为什么?
哪些地区的交通流量比其他地区多,为什么?
价格、评论数和预订天数有关系吗?
难度:
数据集:
https://www . ka ggle . com/dgomonov/new-York-city-Airbnb-open-data
2.哪些因素与员工离职和绩效有关
IBM发布了一个全面的数据集,可以用来了解各种因素如何影响员工的离职率和满意度。一些变量包括教育水平、工作相关性、绩效评估和工作生活平衡。
分析这个数据集,找出任何真正影响员工满意度的变量。此外,还可以看看能否对变量进行重要性排序。
难度:
数据集:
https://www . ka ggle . com/pavansubhashht/IBM-HR-analytics-消耗战-数据集
3.世界大学排名
你认为你的国家有世界上最好的大学吗?成为“最好”大学的标准是什么?这个数据集包含三个全球大学排名。利用这些数据,你能回答以下问题吗:
顶尖大学在哪些国家?
决定世界排名的主要因素是什么?
难度:
数据集:
https://www . ka ggle . com/my lesneill/world-university-rankings
4.喝酒和学校表演
喝酒会影响学生成绩吗?如果没有,还会有什么其他影响?这个数据是从中学生用数学和葡萄牙语进行的一项调查中获得的。它包含几个变量,如饮酒量、家庭数量和参加课外活动。
利用这些数据,我们可以探索学校成绩和各种因素之间的关系。另外,看看能不能根据其他变量预测学生的成绩!
难度:
数据集:
https://www.kaggle.com/uciml/student-alcohol-consumption
5.宠物精灵的数据挖掘
对于所有游戏玩家来说,这是一个包含七代802个口袋妖怪的信息数据集。试着回答以下问题!
哪一代宠物精灵最强?哪一代最弱?
哪种类型的神奇宝贝最强?哪个最弱?
能否建立一个分类器来识别神奇宝贝?
身体特征和力量状态之间有相关性吗?
难度:
数据集:
https://www.kaggle.com/rounakbanik/pokemon
6.探索影响预期寿命的因素
世卫组织建立了一套一段时间内所有国家健康状况的数据集,包括预期寿命和成人死亡率的统计数据。利用这个数据集,探索各变量之间的关系,预测对预期寿命影响最大的因素是什么?
请尝试回答以下问题:
原来选择的各种预测因素真的会影响预期寿命吗?实际影响预期寿命的预测变量有哪些?
预期寿命值低于(
婴儿和成人死亡率如何影响预期寿命?
预期寿命与饮食习惯、生活方式、运动、吸烟和饮酒呈正相关还是负相关?
接受教育如何影响人类生活?
预期寿命与饮酒呈正相关还是负相关?
人口密集国家的预期寿命在减少吗?
免疫覆盖率对预期寿命有什么影响?
难度:
数据集:
https://www.kaggle.com/kumarajarshi/life-expectancy-who
预测模型
1.能源消耗的时间序列预测
该数据集由美国地区传输组织PJM网站上的功耗数据组成。利用这个数据集,我们可以看看是否可以建立一个时间序列模型来预测能源消耗。除此之外,还可以查看是否能找到一天中每个小时的趋势、假期用电量以及长期趋势!
难度:
数据集:
https://www.kaggle.com/robikscube/hourly-energy-consumption
2.贷款预测
该数据集取自分析公司Vidhya,包括615行13列关于已批准和未批准历史贷款的信息。你能建立一个模型来预测贷款是否会被批准吗?
难度:
数据集:
https://data hack . analyticsvidhya . com/contest/practice-problem-loan-prediction-iii/
3.二手车价格计算器
Craigslist是世界上最大的二手车经销商。该数据集由Craigslist捕获的数据组成,每隔几个月更新一次。使用这个数据集,看看你是否可以创建一个数据集来预测汽车价格是高估还是低估。
难度:
数据集:
https://www . ka ggle . com/austinreese/craigslist-cars trucks-data
4.信用卡欺诈检测
该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔是欺诈性的。数据高度正态分布,欺诈占全部交易的0.172%。学习如何使用异常数据集,构建信用卡欺诈检测模型。
难度:
数据集:
https://www . ka ggle . com/janiobachman/credit-欺诈-处理不平衡数据集
5.皮肤癌图像检测
利用1万多张图像构建神经网络检测皮肤癌。这绝对是最难的项目,需要储备神经网络和图像识别方面的知识。
难度:
数据集:
https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
数据城堡