(二)下面代码是导入线性回归模型,请完成,代码后面的内容。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import fetch_california_housing house = fetch_california_housing() print(house.data.shape) data = pd.DataFrame(house.data,columns= house.feature_names) data['label']= house.target # MedInc:该住户的收入中位数 # HouseAge:该街区房屋使用年代的中位数 # AveRooms:该平均的房间数目 # AveBedrms:该平均的卧室数目 # Population: 街区人口 # AveOccup: 平均入住率 # Latitude: 纬度 # Longitude:经度 data.describe() data.isnull().any() data.describe(percentiles=[0.01,0.25,0.5,0.75,0.99]) 代码后面的内容要求: 请写出代码查看数据相关性。 并展示各特征间的热力图关系。
理解问题(二)下面代码是导入线性回归模型,请完成,代码后面的内容。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import fetch_california_housing house = fetch_california_housing() print(house.data.shape) data = pd.DataFrame(house.data,columns= house.feature_names) data['label']= house.target # MedInc:该住户的收入中位数 # HouseAge:该街区房屋使用年代的中位数 # AveRooms:该平均的房间数目 # AveBedrms:该平均的卧室数目 # Population: 街区人口 # AveOccup: 平均入住率 # Latitude: 纬度 # Longitude:经度 data.describe() data.isnull().any() data.describe(percentiles=[0.01,0.25,0.5,0.75,0.99]) 代码后面的内容要求: 请写出代码查看数据相关性。 并展示各特征间的热力图关系。
已完成理解「(二)下面代码是导入线性回归模型,请完成,代码后面的内容。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import fetch_california_housing house = fetch_california_housing() print(house.data.shape) data = pd.DataFrame(house.data,columns= house.feature_names) data['label']= house.target # MedInc:该住户的收入中位数 # HouseAge:该街区房屋使用年代的中位数 # AveRooms:该平均的房间数目 # AveBedrms:该平均的卧室数目 # Population: 街区人口 # AveOccup: 平均入住率 # Latitude: 纬度 # Longitude:经度 data.describe() data.isnull().any() data.describe(percentiles=[0.01,0.25,0.5,0.75,0.99]) 代码后面的内容要求: 请写出代码查看数据相关性。 并展示各特征间的热力图关系。」
展开阅读网页
# 查看数据相关性
correlation_matrix = data.corr()
print(correlation_matrix)
# 展示各特征间的热力图关系
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()
# 计算数据相关性
correlation_matrix = data.corr()
# 展示各特征间的热力图关系
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap of California Housing Features')
plt.show()
代码解释
-
计算数据相关性:
data.corr()
计算了数据集中各特征之间的相关性矩阵。- 相关性矩阵显示了每个特征与其他特征之间的线性关系强度,值范围从-1到1,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
-
展示各特征间的热力图关系:
sns.heatmap()
用于绘制热力图,annot=True
表示在图中显示相关性数值,cmap='coolwarm'
设置颜色映射,fmt='.2f'
设置数值格式为两位小数。plt.title()
为热力图添加标题,plt.show()
显示图形。
结果分析
- 热力图展示了加州住房数据集中各特征之间的相关性。颜色越深表示相关性越强,颜色越浅表示相关性越弱。
- 通过热力图,可以直观地看到哪些特征之间存在较强的线性关系,例如,
MedInc
(收入中位数)与房价目标变量之间可能存在较强的正相关关系。