一、数据读取 运用read_excel()函数分别读取跨境电商商品数据和评论数据。 二、数据清理 本案例的原始数据模式为跨境电商商品数据(df)(ProductID,ProductName,Picture,Web,StoreNumber,StoreName,Price,Orders),跨境电商评论数据(df1)(SKU,ProductID,CustomerReviews,AdditionalFeedback,Photo,ImageNum,Country_Chinese,CountryCode,Country_English,Customers,Date,StarLevel,Color,ShoeSize,Logistics,ShipsFrom)。 (一)列名转换 按中英文对照表,使用rename()函数将两个数据的英文列名转换为中文,如图1所示。 图1 列名转换 (二)删除重复行 使用drop_duplicates()方法依次对df和df1进行重复行删除。 (三)数据类型转换 使用astype()方法按中英文对照表所列的数据类型对原数据类型进行转换,具体操作如图2。 图2 数据类型转换 (四)缺失值处理 使用info()函数分别查看数据df和df1的空行数,发现跨境电商评论数据(df1)的“客户评价”“补充反馈”“图片评论”“国家缩写”等列均存在空行,结果如图3所示。 图3 查看数据空行数结果 由于后续数据分析及可视化不需要“图片评论”“补充反馈”“发货地”列,且这三列空行数较多,因此选择使用drop()函数将这三列删除;由于“物流方式”列空行数较少,因此选择使用dropna()函数删除该列中存在空值的行(参数subset=['物流方式']);由于后续数据分析及可视化需要“客户评价”列,因此选择暂时保留,且为防止删除空行对其他列数据产生影响,暂时不作处理;查看“国家缩写”为空的行索引,结果如图4所示。 图4 查看“国家缩写”为空的行索引 使用loc()函数根据查询出的行索引,查询该行全部数据,如图5所示。 图5 查看“国家缩写”为空的行数据 通过查询,可知“国家缩写”为空的行数据所对应的“收获国家”均为纳米比亚。通过条件查询,查询“收获国家”为纳米比亚的数据仅有这两行,因此无法填充缺失值,选择使用dropna()函数删除缺失值。 三、数据分析 (一)统计各店铺的销售金额并对其进行可视化(按订单量排序) 数据可视化使用df数据。首先,新增一列“销售金额”=商品价格*订单量,按照题目要求,按“订单量”对数据进行降序排列,使用sort_values()函数,设置参数ascending=False。数据如图6所示。 图6 清洗后数据 其次,使用groupby()函数对df数据按照“店铺名称”进行分组,计算相同店铺的总销售金额及总订单量,按“订单量”降序排列,并对数据进行索引重置,得到的数据如图7所示。 图7 按“店铺名称”分组计算总销售金额及总订单量 引入matplotlib和numpy库,使用figure()方法创建画布,设置画布大小及x轴刻度,使用bar()函数绘制柱状图,并在柱子上方显示对应数据,在图表右上角显示图例。 图8 统计各店铺的销售金额并对其进行可视化(按订单量排序) 从输出的柱状图可以看出:店铺Mr H Factory Store销售金额及订单量均最高,其销售金额接近43000,其次是brc1978 Store;而TangDuoYa Profession Store店铺订单量最低,HuanChi Store店铺销售金额最低,仅为845.88。由于单价=销售金额/订单量,部分店铺虽然订单量较低,但销售金额高的原因就在于其商品单价较高,抬高了整体的销售额。 (二)统计商品销售按时间分布的情况(按年份和月份统计)并进行可视化 数据可视化使用df1数据。根据题目要求,需对“评论时间”列进行年月日拆分,因此先对该列数据进行类型转换,再使用split()函数对“评论时间”列进行分隔,分隔符为“-”。按分隔符拆分出的三列分别为“评论年份”“月份”及其他。使用merge()方法将原数据与拆分出的三列数据进行左外连接,删除其他列的数据,并进行代表评论年份和月份列的重命名。清洗后的数据如图9。 图9 清洗后的数据 再次使用merge()函数将df和df1数据进行内连接,连接属性名为“商品ID”。根据题目要求,使用groupby()方法按照“年”“月”对数据进行分组,并计算相同年月的总订单量及总销售金额。新建一列“年月”,将“年”“月”两列合并,统计结果如图10所示。 图10 统计商品销售按时间分布的情况(按年份和月份统计) 根据以上统计结果,使用figure()方法创建画布,设置画布大小及x轴、y轴刻度,并使用plot()函数绘制含有两条折线的折线图,分别设置线条的颜色、线上数据点的样式、线的
理解问题一、数据读取 运用read_excel()函数分别读取跨境电商商品数据和评论数据。 二、数据清理 本案例的原始数据模式为跨境电商商品数据(df)(ProductID,ProductName,Picture,Web,StoreNumber,StoreName,Price,Orders),跨境电商评论数据(df1)(SKU,ProductID,CustomerReviews,AdditionalFeedback,Photo,ImageNum,Country_Chinese,CountryCode,Country_English,Customers,Date,StarLevel,Color,ShoeSize,Logistics,ShipsFrom)。 (一)列名转换 按中英文对照表,使用rename()函数将两个数据的英文列名转换为中文,如图1所示。 图1 列名转换 (二)删除重复行 使用drop_duplicates()方法依次对df和df1进行重复行删除。 (三)数据类型转换 使用astype()方法按中英文对照表所列的数据类型对原数据类型进行转换,具体操作如图2。 图2 数据类型转换 (四)缺失值处理 使用info()函数分别查看数据df和df1的空行数,发现跨境电商评论数据(df1)的“客户评价”“补充反馈”“图片评论”“国家缩写”等列均存在空行,结果如图3所示。 图3 查看数据空行数结果 由于后续数据分析及可视化不需要“图片评论”“补充反馈”“发货地”列,且这三列空行数较多,因此选择使用drop()函数将这三列删除;由于“物流方式”列空行数较少,因此选择使用dropna()函数删除该列中存在空值的行(参数subset=['物流方式']);由于后续数据分析及可视化需要“客户评价”列,因此选择暂时保留,且为防止删除空行对其他列数据产生影响,暂时不作处理;查看“国家缩写”为空的行索引,结果如图4所示。 图4 查看“国家缩写”为空的行索引 使用loc()函数根据查询出的行索引,查询该行全部数据,如图5所示。 图5 查看“国家缩写”为空的行数据 通过查询,可知“国家缩写”为空的行数据所对应的“收获国家”均为纳米比亚。通过条件查询,查询“收获国家”为纳米比亚的数据仅有这两行,因此无法填充缺失值,选择使用dropna()函数删除缺失值。 三、数据分析 (一)统计各店铺的销售金额并对其进行可视化(按订单量排序) 数据可视化使用df数据。首先,新增一列“销售金额”=商品价格*订单量,按照题目要求,按“订单量”对数据进行降序排列,使用sort_values()函数,设置参数ascending=False。数据如图6所示。 图6 清洗后数据 其次,使用groupby()函数对df数据按照“店铺名称”进行分组,计算相同店铺的总销售金额及总订单量,按“订单量”降序排列,并对数据进行索引重置,得到的数据如图7所示。 图7 按“店铺名称”分组计算总销售金额及总订单量 引入matplotlib和numpy库,使用figure()方法创建画布,设置画布大小及x轴刻度,使用bar()函数绘制柱状图,并在柱子上方显示对应数据,在图表右上角显示图例。 图8 统计各店铺的销售金额并对其进行可视化(按订单量排序) 从输出的柱状图可以看出:店铺Mr H Factory Store销售金额及订单量均最高,其销售金额接近43000,其次是brc1978 Store;而TangDuoYa Profession Store店铺订单量最低,HuanChi Store店铺销售金额最低,仅为845.88。由于单价=销售金额/订单量,部分店铺虽然订单量较低,但销售金额高的原因就在于其商品单价较高,抬高了整体的销售额。 (二)统计商品销售按时间分布的情况(按年份和月份统计)并进行可视化 数据可视化使用df1数据。根据题目要求,需对“评论时间”列进行年月日拆分,因此先对该列数据进行类型转换,再使用split()函数对“评论时间”列进行分隔,分隔符为“-”。按分隔符拆分出的三列分别为“评论年份”“月份”及其他。使用merge()方法将原数据与拆分出的三列数据进行左外连接,删除其他列的数据,并进行代表评论年份和月份列的重命名。清洗后的数据如图9。 图9 清洗后的数据 再次使用merge()函数将df和df1数据进行内连接,连接属性名为“商品ID”。根据题目要求,使用groupby()方法按照“年”“月”对数据进行分组,并计算相同年月的总订单量及总销售金额。新建一列“年月”,将“年”“月”两列合并,统计结果如图10所示。 图10 统计商品销售按时间分布的情况(按年份和月份统计) 根据以上统计结果,使用figure()方法创建画布,设置画布大小及x轴、y轴刻度,并使用plot()函数绘制含有两条折线的折线图,分别设置线条的颜色、线上数据点的样式、线的
已完成理解「一、数据读取 运用read_excel()函数分别读取跨境电商商品数据和评论数据。 二、数据清理 本案例的原始数据模式为跨境电商商品数据(df)(ProductID,ProductName,Picture,Web,StoreNumber,StoreName,Price,Orders),跨境电商评论数据(df1)(SKU,ProductID,CustomerReviews,AdditionalFeedback,Photo,ImageNum,Country_Chinese,CountryCode,Country_English,Customers,Date,StarLevel,Color,ShoeSize,Logistics,ShipsFrom)。 (一)列名转换 按中英文对照表,使用rename()函数将两个数据的英文列名转换为中文,如图1所示。 图1 列名转换 (二)删除重复行 使用drop_duplicates()方法依次对df和df1进行重复行删除。 (三)数据类型转换 使用astype()方法按中英文对照表所列的数据类型对原数据类型进行转换,具体操作如图2。 图2 数据类型转换 (四)缺失值处理 使用info()函数分别查看数据df和df1的空行数,发现跨境电商评论数据(df1)的“客户评价”“补充反馈”“图片评论”“国家缩写”等列均存在空行,结果如图3所示。 图3 查看数据空行数结果 由于后续数据分析及可视化不需要“图片评论”“补充反馈”“发货地”列,且这三列空行数较多,因此选择使用drop()函数将这三列删除;由于“物流方式”列空行数较少,因此选择使用dropna()函数删除该列中存在空值的行(参数subset=['物流方式']);由于后续数据分析及可视化需要“客户评价”列,因此选择暂时保留,且为防止删除空行对其他列数据产生影响,暂时不作处理;查看“国家缩写”为空的行索引,结果如图4所示。 图4 查看“国家缩写”为空的行索引 使用loc()函数根据查询出的行索引,查询该行全部数据,如图5所示。 图5 查看“国家缩写”为空的行数据 通过查询,可知“国家缩写”为空的行数据所对应的“收获国家”均为纳米比亚。通过条件查询,查询“收获国家”为纳米比亚的数据仅有这两行,因此无法填充缺失值,选择使用dropna()函数删除缺失值。 三、数据分析 (一)统计各店铺的销售金额并对其进行可视化(按订单量排序) 数据可视化使用df数据。首先,新增一列“销售金额”=商品价格*订单量,按照题目要求,按“订单量”对数据进行降序排列,使用sort_values()函数,设置参数ascending=False。数据如图6所示。 图6 清洗后数据 其次,使用groupby()函数对df数据按照“店铺名称”进行分组,计算相同店铺的总销售金额及总订单量,按“订单量”降序排列,并对数据进行索引重置,得到的数据如图7所示。 图7 按“店铺名称”分组计算总销售金额及总订单量 引入matplotlib和numpy库,使用figure()方法创建画布,设置画布大小及x轴刻度,使用bar()函数绘制柱状图,并在柱子上方显示对应数据,在图表右上角显示图例。 图8 统计各店铺的销售金额并对其进行可视化(按订单量排序) 从输出的柱状图可以看出:店铺Mr H Factory Store销售金额及订单量均最高,其销售金额接近43000,其次是brc1978 Store;而TangDuoYa Profession Store店铺订单量最低,HuanChi Store店铺销售金额最低,仅为845.88。由于单价=销售金额/订单量,部分店铺虽然订单量较低,但销售金额高的原因就在于其商品单价较高,抬高了整体的销售额。 (二)统计商品销售按时间分布的情况(按年份和月份统计)并进行可视化 数据可视化使用df1数据。根据题目要求,需对“评论时间”列进行年月日拆分,因此先对该列数据进行类型转换,再使用split()函数对“评论时间”列进行分隔,分隔符为“-”。按分隔符拆分出的三列分别为“评论年份”“月份”及其他。使用merge()方法将原数据与拆分出的三列数据进行左外连接,删除其他列的数据,并进行代表评论年份和月份列的重命名。清洗后的数据如图9。 图9 清洗后的数据 再次使用merge()函数将df和df1数据进行内连接,连接属性名为“商品ID”。根据题目要求,使用groupby()方法按照“年”“月”对数据进行分组,并计算相同年月的总订单量及总销售金额。新建一列“年月”,将“年”“月”两列合并,统计结果如图10所示。 图10 统计商品销售按时间分布的情况(按年份和月份统计) 根据以上统计结果,使用figure()方法创建画布,设置画布大小及x轴、y轴刻度,并使用plot()函数绘制含有两条折线的折线图,分别设置线条的颜色、线上数据点的样式、线的」
展开阅读网页
数据读取
在进行跨境电商数据分析时,首先需要读取相关的商品数据和评论数据。这可以通过使用pandas
库中的read_excel()
函数来实现。具体操作如下:
import pandas as pd
# 读取商品数据
df = pd.read_excel('path_to_product_data.xlsx')
# 读取评论数据
df1 = pd.read_excel('path_to_review_data.xlsx')
数据清理
列名转换
使用rename()
函数,根据中英文对照表,将数据集中的英文列名转换为中文。这一步骤有助于提高数据的可读性和后续分析的便利性。
删除重复行
为了确保数据的准确性,需要删除数据集中的重复行。这可以通过drop_duplicates()
方法实现。
df = df.drop_duplicates()
df1 = df1.drop_duplicates()
数据类型转换
根据中英文对照表所列的数据类型,使用astype()
方法对原始数据类型进行转换,以确保数据的一致性和准确性。
缺失值处理
通过info()
函数查看数据集中的空行数,并根据情况采取相应的处理措施。例如,如果某些列的空行数较多,可以选择删除这些列;如果空行数较少,则可以使用dropna()
函数删除含有空值的行。
数据分析
统计各店铺的销售金额并可视化
首先,需要在数据集中新增一列“销售金额”,其计算方式为商品价格乘以订单量。然后,使用groupby()
函数按照“店铺名称”进行分组,并计算每个店铺的总销售金额和总订单量。最后,通过可视化工具(如matplotlib
)绘制柱状图,展示各店铺的销售情况。
统计商品销售按时间分布并可视化
对于商品销售的时间分布分析,首先需要对“评论时间”列进行年月日的拆分。接着,使用merge()
方法将拆分后的数据与原数据集合并,并按照“年”和“月”进行分组,计算每个时间段的总订单量和总销售金额。最后,通过绘制折线图来展示商品销售随时间的变化趋势。
通过上述步骤,可以对跨境电商的商品数据和评论数据进行有效的读取、清理和分析,进而为企业提供有价值的业务洞察和决策支持。12345678910
跨境电商数据分析中,如何确定数据清洗的优先级?
在跨境电商数据分析中,确定数据清洗的优先级是一个关键步骤,它直接影响到数据分析的质量和效率。根据13,数据清洗是“发现并纠正跨境电商数据文件中可识别的错误的最后一道程序”,这包括检查数据一致性、处理无效值和缺失值等。因此,确定数据清洗优先级时,应首先识别数据中的关键问题和错误,然后根据这些问题对分析结果的影响程度来设置优先级。例如,如果某些错误会导致重大的业务决策失误,那么这些问题的清洗就应该被赋予更高的优先级。同时,15提到数据清洗是将“脏数据”转化为满足数据质量要求的数据,这强调了数据清洗在确保数据准确性和可靠性方面的重要性。1513
在进行跨境电商数据分析时,如何评估不同国家或地区的市场潜力?
评估不同国家或地区的市场潜力是跨境电商数据分析的重要组成部分。根据6,企业可以通过分析当地市场的整体规模和增长趋势来评估市场的潜力。这包括了解不同地区的消费者行为、市场饱和度、竞争程度以及潜在的增长机会。此外,14强调了数据分析在帮助企业了解市场趋势、竞争情况和消费者需求方面的重要性,这些因素都是评估市场潜力的关键指标。通过综合这些信息,企业可以调整产品策略、定价策略和广告投放策略,以提高运营效率和市场竞争力。614
跨境电商数据分析中,如何利用数据透视表进行数值分析?
在跨境电商数据分析中,数据透视表是一种强大的数值分析工具。根据2,数据透视表可以用于“分类汇总”、“分类计算”、“求和”、“求平均”和“权重赋值”等计算方式。例如,运营者可以通过将“country”和“ship-state”等字段拖入分类区域,将“订单号”拖入汇总区域,并选择合适的汇总计算方式来进行销售额汇总计算。此外,21提到使用数跨境BI的数据联动与钻取功能,可以按照店铺或商品等维度进行更细致的分析。通过这种方式,企业可以快速地从大量数据中提取有价值的信息,从而做出更明智的业务决策。221
跨境电商数据分析中,如何通过数据可视化提升决策效率?
数据可视化是提升决策效率的重要手段。根据25,数据可视化能够以图形、图像、动画等形式呈现数据,使决策者能够更直观地理解数据和发现数据中的规律、趋势和异常。在跨境电商数据分析中,通过创建数据仪表板或数据大屏,可以同时兼顾数据洞察的直观性和整体呈现的美观性。2提到,在计算好需要的数据指标后,可以添加图表制作单张的数据可视化图表,多张图表还可以自由组合成数据仪表板或数据大屏。这样的数据可视化不仅帮助决策者快速把握关键信息,还能辅助他们发现潜在的问题和机会,从而提高决策的质量和速度。225
在跨境电商数据分析中,如何结合用户行为数据进行个性化营销策略的制定?
在跨境电商数据分析中,结合用户行为数据进行个性化营销策略的制定是一项关键任务。根据3,通过数据分析可以实现个性化营销,根据用户的浏览和购买行为进行精准定制推荐,提高购买转化率和用户满意度。此外,29提到跨境电商企业可以通过分析工具(如Google Analytics、Adobe Analytics等)来收集用户在网站上的行为数据,例如页面浏览量、停留时间、点击量等。这些数据可以帮助企业更好地了解用户的需求和偏好,从而制定更加精准的市场营销策略。同时,31强调了通过对用户数据、市场数据以及竞争对手数据的综合分析,企业可以制定出更加精准的营销策略,例如根据用户画像进行精准推送、根据用户行为调整广告投放等。通过这种方式,企业能够更有效地吸引和保留客户,提高市场竞争力。32931