
(1). 历史灾难:
1912年4月14日泰坦尼克号,一艘由英国🇬🇧白星航运公司下辖的奥林匹克级游轮,在首次航行从英国南安普敦出发驶向美国纽约的途中因与一座冰山相撞,船体断裂后开始下沉,这个被当时誉为“永不沉没”的游轮最终沉入了大西洋海底,结束了短暂而又耀眼的一生。船上的2000多名乘客及船员最终也只有700多人幸存了下来。
数据:从seaborn包中的自带数据聚焦提取。
(2). 导入包 & 显示前5行数据:

(3). 熟悉数据列表(columns):

代码:



(4). 提出问题:
哪些因素会影响船上乘客的存活率(survived)?年龄?性别?舱位等级?
(5). 数据清理:
a). 删除无用列表:[who, adult_male, deck, embark_town, alive,alone]

b). 查找数据是否存在缺失值:

数据中的确 存在缺失值,age中有177个缺失值,embarked中有2个缺失值。
c). 缺失值赋值


找出age列的平均数(mean)然后赋值到age的NA值中。;找出embarked的众数(mode)然后赋值到embarked的NA值中。再次检验列中是否有缺失值,答:没有缺失值了。
(6). 基础绘图:
a). ‘性别’(sex)列表:



总结:
titanic数据中总共有891名乘客,其中577名男乘客,314名女乘客。男性占总人数的65%,女性占总人数的35%。
b). 幸存与否‘(survived) 列表

总结:泰坦尼克号沉船事件中有549人遇难,342人幸存。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...





