商业数据分析--大作业
基于开源数据的广告投放策略与效益
摘要
本研究通过对开源数据的广告投放数据的可视化分析,探索了CPC、GMV、ROI等核心指标与广告效果之间的关系,旨在揭示不同投放策略下的效益差异,并为广告主提供优化建议。
分析CPC成本的合理性,表明大部分广告投放策略的CPC费用集中在中低成本区间,但仍存在一些高花费低转化的现象。
对ROI的分析,发现广告投放效益受季节性波动、外部事件影响显著。反映了外部环境对广告投放效果的强烈影响。
CTR分析揭示了广告投放的吸引力,整体CTR偏低,尤其是在0.05至0.10区间内形成明显的峰值,表明大多数广告的点击率较低。反映了广告定向和素材优化的空间。高CTR广告较为稀少,优化广告定向和提升广告创意质量能够显著提高CTR和转化率。
关于CPC流量与自然流量的关系,分析结果表明,两者并未表现出显著的正相关,表明CPC流量并未有效促进自然流量的增长。这表明广告投放未能有效提升品牌知名度或用户搜索意图,可能与内容质量、品牌效应和SEO策略不足有关。
回归分析表明自然访问量和CPC访问量对有效订单数具有显著正向影响,
R^2为0.770,表明两者是影响广告效果的核心因素。自然访问量每增加1单位,有效订单数将增加0.2053单位,而CPC访问量每增加1单位,有效订单数将增加0.1891单位。
进一步使用catBoost模型预测,模型在测试集上达到\mathbit{R}^\mathbf{2}=0.823,交叉验证均值达到0.842且标准差仅为0.026,充分验证了模型的预测能力和稳健性。
关键词:CPC GMV ROI 广告投放 catBoost
一、引言
1.1研究背景
在当前数字化广告投放中,如何精准地评估广告效果,优化广告投放策略,已成为企业提高营销效益和竞争力的关键。特别是在电商、餐饮等行业,广告投放的效果直接影响到销量和用户转化。因此,合理评估广告投放的成本与回报关系,深入分析影响广告效果的关键因素,已成为优化广告策略的核心任务。
1.2研究目的
广告投放的成本和回报是衡量广告效果的核心指标。CPC直接反映了广告主获取流量的成本,而GMV和ROI则衡量了广告投放带来的实际收入与营销投入之间的关系。通过对这三者的分析,企业能够判断广告费用的投入是否合理,是否存在高花费低转化的现象,以及如何提高广告投放的效益。
1.3研究意义
在广告投放过程中,点击率作为衡量广告吸引力的前置指标,其与下单转化率之间的关系也至关重要。广告的点击率是否健康,直接影响到转化率的提升。因此,深入探讨CTR与下单转化率之间的关系,有助于揭示CPC流量质量对转化效果的影响,为进一步优化广告策略提供理论依据。
本文将通过对多个门店和日期的广告数据进行系统分析,探讨CPC成本、GMV、ROI和CTR等核心指标的分布特征与相互关系,分析CPC流量与自然流量的协同效应,并提出优化广告投放策略的建议。研究结果将为广告主提供数据支持,帮助其实现更高效的广告预算分配和更精确的投放策略。
二、 数据准备与预处理
2.1数据来源
数据来源于开源平台gitcode。此开源项目提供了一个多维度的外卖行业数据集,包含广告点击成本、订单信息和门店数据三大模块,非常适合用于外卖门店的运营分析。通过该数据集,可以深入分析门店经营状况,评估广告投放效果,洞察顾客消费行为,以及研究地域市场潜力。
2.2 数据集概述
通过导入数据并使用columns函数查看特征名称,发现数据中涉及了多个关键指标,如CPC、GMV、ROI等。为了深入理解这些特征,查询并解释了它们的具体定义与业务意义。
2.2.1数据含义:
在数据集的多个关键指标中,CPC、GMV、ROI是广告投放分析中最为核心的三个变量。以下是它们的详细定义及其对广告效果评估的意义:
CPC(每次点击费用)
定义:广告主每获得一次点击所需支付的费用。
意义:衡量广告流量获取成本,CPC越低说明花同样的钱能吸引更多用户访问。
GMV(成交总额)
定义:通过广告或平台产生的商品交易总金额。
意义:衡量销售规模。GMV 大说明广告带来了高销售额。
ROI(投资回报率)
定义:广告带来的收入与广告投入之间的比值。
意义:ROI 表示每花 1 元广告费带来多少销售额,ROI 越高越好。
2.2.2 数据分布
CPC单次点击费用
针对“CPC单次点击费用”这一核心广告投放成本指标,从描述性统计、分布形态、可视化特征及业务含义四个维度展开系统分析,旨在全面刻画该变量的数据分布特性。
通过计算基本统计量,我们初步掌握该特征的集中趋势、离散程度与分布形态。相关指标如下表所示
| 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|
| 0.02 | 2.98 | 1.389 | 1.38 |
| 四分位距 | 标准差 | 峰度 | 偏度 |
| 0.3 | 0.304 | 2.077 | 0.212 |

样本中所有广告点击的平均成本约为1.39元。作为衡量整体水平的核心指标,它反映了当前投放策略下的平均获客成本。
中位数为1.38,与均值高度接近,未受极端值显著干扰。说明大部分广告点击成本集中在合理区间内。
标准差为0.304,四分位距为0.3,表明数据分布紧凑,无明显的异常值。并且IQR/Std\approx1,说明数据近似正态。
峰度为2.077,标准正态分布的峰度为3,这属于低峰态,意味着分布曲线比正态分布更平坦,数据在中心区域不如正态分布集中,两侧更宽。从柱状图也可以看到在峰值两侧呈现较平缓的下降趋势,而非陡峭的钟形。表明CPC值在主流区间内分布较为均匀,无明显集中或缺失,有利于稳定投放策略。
偏度为0.212,属于轻微右偏,在广告投放场景中,右偏是常见现象——部分高竞争关键词或优质流量渠道的CPC天然较高。
CPC总费用
CPC总费用,即单次点击成本×点击量,该指标反映广告投放在特定单元上的总体支出水平。
| 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|
| 0 | 846.4 | 129.58 | 76.2 |
| 四分位距 | 标准差 | 峰度 | 偏度 |
| 150.09 | 134.539 | 5.317 | 2.091 |

均值为129.58,表示样本中各单元的平均总费用约为129.58 元。但从图中可以看到,数据分布是长尾分布,均值受极端值影响较大,不能作为典型值使用。而中位数为76.2,在此分布中,中位数更具有代表性。
标准差为134.539表明数据波动剧烈。四分位距 IQR = 150.09意味费用跨度很大。
偏度= 2.091是严重右偏,意味着绝大多数的费用较低,但存在少量极高费用,这些“头部”显著拉高了均值。
在广告投放场景中,这通常是二八定律的体现——少数关键词或计划贡献了大部分支出。
峰度为5.317,标准正态分布峰度为3。此处峰度>3,属于高峰态。
意味着分布曲线比正态分布更尖峭,中心区域更集中,同时两侧尾部更厚即存在更多极端值。高峰态和严重右偏说明存在头部效应,即少数高消耗单元主导总支出。
2.3数据预处理
2.3.1数据清洗
查看数据缺失情况,发现部分数据像cpc单次点击费用、无效订单、自然曝光量等存在9-12列缺失值,查看数据集形状后得知数据一共有1177列,删除9-12列并不影响数据集的完整性,因此选择删除缺失值。
查看数据集内容后发现,某些本不应该出现服输的特征其最小值是负数,说明这个是个异常值,将其去除;查看最大值,发现像gmvroi、cpc曝光量等特征等最大值异常偏大,过大的值会导致后续模型训练时被模型学习导致泛化性不佳,因此针对此使用winsorize将最大值值限制在95%分位数以下。
2.3.2特征编码
(a)正弦编码:
对于数据中存在的日期特征,查看后看到其在数据中的保存形式为2019/12/12 11:54,即包含了年份、月份、日期、时间,显然这个特征包含的信息非常丰富,因此将其拆分成4个特征分别用”日期_年份”、 ”日期_月份”、 ”日期_日”、 ”日期_时间”来表示,我们都知道,日期是一个周期性的量,而正弦、余弦函数也是呈现周期性质,因此我们对月份、日使用正弦编码,这样对于后续创建模型时,模型就能学习到此特征的周期性。
(b)对数变换
电商访问量和曝光量数据往往呈现右偏分布,且数值范围跨度较大,因此对核心流量指标进行对数变换,以降低异常值的影响并改善数据的正态性。具体对自然访问量、CPC访问量、门店访问量、自然曝光量和CPC曝光量五个特征进行log1p变换:
log1p变换相比直接取对数的优势在于能够有效处理零值情况,避免数学运算错误。这一变换不仅压缩了数据的动态范围,还使得模型能够更好地学习不同量级数据间的关系模式。
2.3.3 数据转换
CTR——即点击率是广告中一个重要的指标,在此数据集中没有给出,但可以通过:
CTR=访问量/曝光量
CTR特征能够量化不同流量渠道的质量差异,为模型提供更丰富的信息维度。
三、 数据分析与可视化
3.1广告效果评估
聚焦CPC、 ROI 和效率,我们需要弄清楚:
- CPC成本是否合理?是否存在高花费低转化的现象?
- ROI是否大于1?哪些门店/日期 ROI异常高或低?
- 点击率(CTR)是否健康?
- 下单转化率是否受CPC流量质量影响?
3.1.1 CPC成本合理性
利用密度图查看CPC总费用和下单转换率之间的关系如图。

上图反应了两个变量的联合概率密度分布,可以看到主要数据集中在左下部,次区域的CPC总费用在[0,200]之间,下单转换率在[0.1,0,3]之间,说明大部分投放广告的策略是中等消费和中低转换率。
下单转换率在0.3以上的属于高转换率,可以看到高转换率区域主要分布在中低费用区间,在此区域的部分是高性价比区域——少量低成本单元实现了高转化率,这可能与广告的精准投放、新上线、合理推流相关,若要提高转化率性价比,推荐借鉴这些广告的推送方式以及广告的形式。
3.1.2 GMV ROI周度趋势
针对门店周度GMV ROI这一关键经营效率指标,从整体趋势、门店间对比、季节性/事件性波动展开深入分析。GMV ROI = GMV/营销投入成本,反映单位营销费用带来的销售回报,是衡量门店盈利能力与投放效率的核心指标。
从整体趋势上看,其呈现明显的季节波动。
2019年11月–2020年1月:多数门店ROI呈上升趋势,尤其在2020年1月达到阶段性高点。这可能受春节前消费高峰或年终促销活动驱动。
部分门店如蛙小辣美蛙火锅杯[五角场店]在2020年1月ROI飙升至16以上,表现突出。
2020年2月–2020年3月:受新冠疫情影响,多数门店ROI出现断崖式下跌。多条折线在2020年2月跌至低谷。如蛙小辣·美蛙火锅杯[虹口足球场店]降至4以下。表明疫情对线下餐饮业冲击巨大,营销投入回报率显著下降。
2020年4月–2020年6月:逐步复苏,部分门店恢复至疫情前水平,甚至超越。如蛙小辣火锅杯(五角场店)在2020年6月回升至14+,表现强劲。蛙小辣火锅杯(龙阳路店)在2020年5月后稳步上升。
2020年7月–2020年10月:趋于稳定,部分门店出现小幅回落。如粉色线蛙小辣·美蛙火锅杯[真如店]在2020年7月后逐渐下滑。
整体呈现疫情后复苏到平稳运行再到小幅回调的典型路径。
还可以看到,部分店铺的曲线出现停滞的现象,其主要出现在2020年2月–2020年3月,正好是疫情发生的时间点。根据国家统计局数据显示,2020年我国全年餐饮收入39527亿元,同比下降16.6%。受疫情影响,全年超2000家餐厅关闭,平均每月达200多家。
因此可以得出那些餐饮受疫情影响,不得不关闭以减少亏损。
3.1.3 点击率健康性分析
CTR反映广告被展示后用户点击的比例,是衡量广告相关性与吸引力的重要前置指标。

从上图可能得出绝大多数门店的CTR集中在 0.0 ~ 0.15 区间内,尤其在 0.05 ~ 0.10 附近形成一个尖锐峰值,之后迅速衰减,右侧几乎无数据。说明当前广告投放的整体CTR水平偏低,不过这也是一个常见的现象,像电商/本地生活类广告CTR通常在1%~10%之间。
在 CTR > 0.15 后,门店数急剧下降,CT R > 0.2 的门店几乎为零。说明高CTR单元极为稀少,可能是优质素材、精准定向或特殊场景带来的偶然结果。
3.1.4 下单转化率与 CPC 流量质量关系
聚焦每日CPC投入与每日下单转化率两个关键指标的时间序列变化,揭示:
1. 广告预算投入是否带来预期转化?
2. 两者是否存在协同或背离关系?
3. 是否存在高投入低转化或低投入高转化的异常时段?
4. 如何基于趋势优化每日预算分配?

整体趋势为:投入先升后降,转化率起伏明显
2019年10月–2020年1月:
CPC投入稳步上升,最高达2500+元每日。下单转化率在0.150.25区间波动,无明显增长。表明此阶段高投入未带来转化提升,可能存在边际效益递减或流量质量下降。300元每日。下单转化率不降反升,从0.15升至0.20。疫情导致线下消费受限,转化效率反而提升——用户更理性、更精准点击,转化率自然上升。同时,广告主主动缩减预算,导致CPC投入骤降,形成低投入,高转化的理想组合。
2020年2月–2020年3月:
CPC投入断崖式下跌至100
2020年4月–2020年6月:
CPC投入逐步回升,但未恢复至疫情前水平维持在。下单转化率持续攀升,多次突破0.25,甚至达到0.30。表明复苏期用户活跃度高、转化意愿强,广告投放效率显著提升。
2020年7月–2020年9月:
CPC投入趋于稳定,波动范围缩小。下单转化率保持高位震荡,偶有峰值。表明运营进入稳态,转化效率已建立新基准。
2019年10月–2020年1月:投入与转化基本无正相关,甚至部分时段负相关。这可能与流量泛化、素材疲劳、竞争加剧导致花钱买不到好转化。
2020年2月–2020年3月:投入下降但是转化上升,表现出强烈负相关。疫情导致用户行为改变,广告主减少无效投放,留下高质量流量,转化率被动提升。
2020年4月–2020年9月:投入小幅上升,转化维持高位——弱正相关或无相关。表明转化效率已建立“新平衡”,投入增加不再显著影响转化率,说明运营策略成熟。
两者不存在稳定的线性关系,而是受外部环境、用户行为、投放策略共同驱动的动态关系。
3.2自然流量与CPC流量
3.2.1 每日CPC访问量与自然访问量趋势
聚焦每日CPC访问量与每日自然访问量两个指标的时间序列变化,揭示:
1. 广告投放是否有效带动整体流量增长?
2. 自然流量是否具备独立增长能力?
3. 两者是否存在协同效应或替代效应?

整体趋势为CPC流量主导,自然流量稳步增长
2019年10月–2020年1月:
CPC访问量稳步上升,最高达2000+人次每日。自然访问量在100250区间波动,无明显增长。表明此阶段流量增长主要依赖广告投放,自然流量未形成规模效应。300人次每日。自然访问量不降反升,从100升至150+,甚至短暂突破200。疫情导致线下消费受限,用户更依赖线上搜索与推荐,自然流量被动提升;同时广告主缩减预算,CPC流量骤降,形成低CPC+高自然的组合。
2020年2月–2020年3月:
CPC访问量断崖式下跌至100
2020年4月–2020年6月:
CPC访问量逐步回升,但未恢复至疫情前水平。自然访问量持续攀升,多次突破200,甚至达到250+。表明复苏期用户活跃度高、搜索意愿强,自然流量增长动力强劲。
2020年7月–2020年9月:
CPC访问量趋于稳定,波动范围缩小。自然访问量保持高位震荡,偶有峰值。表明运营进入稳态,自然流量已建立新基准,不再完全依赖CPC。
3.2.2 CPC曝光量与CPC访问量的关系

整体趋势是强正相关,但存在离散度数据点大致沿一条从原点出发的直线分布,表明曝光量越高,访问量越高,符合广告投放的基本逻辑。
虽然整体呈正相关,但点并非严格落在一条直线上,存在一定波动,说明不同广告单元的CTR存在差异。
点密度集中在中低曝光区间。
在高密度区,曝光量为 10004000,访问量 100300 区间。此区域点最密集,表明这是最常见的广告单元表现区间。对应CTR ≈ 10% 到 7.5%,属于行业常见范围。
稀疏区处于右上角,这些属于大预算单元,访问量高,但CTR不一定更高,如6000曝光却只有400访问——CTR≈6.7%。
3.2.3 自然曝光量与自然访问量的关系
聚焦自然曝光量与自然访问量两个自然流量指标的联合分布,揭示:
1. 自然曝光是否有效转化为访问?
2. 两者是否存在线性或非线性关系?
3. 自然点击率是否稳定?是否存在波动区间?

整体趋势呈现强正相关,但存在离散度。
主趋势线明显,数据点大致沿一条从原点出发的直线分布,表明自然曝光量越高,自然访问量越高,符合搜索引擎与用户行为的基本逻辑。
离散度适中,虽然整体呈正相关,但点并非严格落在一条直线上,存在一定波动,说明不同自然流量入口的点击效率存在差异。
自然点击率分析:
CTR = 访问量 / 曝光量,是衡量自然流量吸引力的核心指标。我们可通过散点图推断CTR的分布特征:
在曝光量=2000,访问量=200处,CTR = 10%
在曝光量=4000,访问量=300处,CTR = 7.5%
在曝光量=7000,访问量=730处,CTR = 10.4%
随着曝光量增加,CTR呈轻微下降趋势,但在极高曝光量处又回升至10.4%。
这可能与大曝光单元可能覆盖更泛化的流量,导致点击效率降低;但“爆款”内容或关键词因用户主动搜索意愿强,CTR反而更高。
这说明:
1. 并非曝光越多越好,需关注单位曝光带来的访问量。
2. 应优先优化高曝光低CTR单元,提升其标题、摘要、排名或内容质量。
3.2.4 CPC访问量与自然访问量
聚焦CPC访问量与自然访问量两个流量指标的联合分布,揭示:
1. 付费流量是否带动自然流量增长?
2. 两者是否存在正相关、负相关或无相关?
3. 是否存在高CPC低自然或低CPC高自然的异常单元?
4. 流量结构是否健康?是否存在过度依赖付费流量的风险?

整体趋势呈现弱相关或无显著线性相关。无明显主趋势线数据点呈云团状分布,表明两者不存在稳定的线性关系。
点密度分布集中在低CPC低自然区间。高密度区:CPC访问量 0200,自然访问量 50300 区间,此区域点最密集,表明这是最常见的流量组合。对应中等付费+中等自然单元,流量结构相对健康。
数据点无明显线性趋势,表明CPC访问量与自然访问量之间不存在强相关性。
3.2.5 自然流量与CPC流量关系分析总结
付费流量并未显著带动自然流量增长,两者更多是独立运作的渠道。这意味着:
1. 品牌效应不足:用户点击广告后未形成品牌记忆,未主动搜索。
2. 内容质量一般:落地页或内容未激发用户分享或二次访问。
3. SEO策略薄弱:自然流量主要依赖外部引流,而非广告带动。
因此不应期望付费流量直接带动自然流量,而应通过内容建设、品牌塑造、SEO优化等手段提升自然流量独立增长能力。应建立流量结构健康度指标,指导预算分配。
例如可通过引导用户搜索品牌词、设置品牌专区、优化落地页SEO等方式,将付费流量转化为自然流量。
通过再营销广告、关键词拓展等方式,将自然流量用户重新召回,提升LTV。
在保证总访问量的前提下,优先分配预算给高自然占比单元,降低对付费流量的依赖。
在高CPC低自然单元中,设计A/B测试验证不同落地页、引导语、品牌露出的效果,观察是否能提升自然流量。
在低CPC高自然单元中,尝试增加付费预算,观察其能否维持高自然流量并带来规模效应。
四、模型构建与验证
针对自然访问量和CPC访问量,关注两者对订单数量的贡献比例。在假设有效订单与自然访问量和CPC访问量存在线性关系的前提下,从定性分析和定量分析两种角度进行解释。
4.1 定性分析
SHAP值是一种基于博弈论的特征贡献分配方法,满足公平性公理,能为每个样本中的每个特征分配一个贡献值。

自然流量的SHAP值分布形状呈钟形,集中在X轴右侧,且向右延伸较长。负值区多为低值,正值区多为高值。表明自然流量对订单有强烈的正向推动作用,且其影响随访问量增加而增大。当自然流量值较低时,SHAP值接近0或略负,对订单贡献小。当自然流量值较高时,SHAP值显著为正,是订单的主要驱动因素。
CPC流量的SHAP值分布形状同样集中在X轴右侧,但分布更扁平,且峰值不如自然流量明显。负值区多为低值,正值区多为高值。CPC流量对订单也有正向推动作用,但其影响幅度小于自然流量,且在高值区的贡献趋于稳定。当CPC流量值较低时,SHAP值接近0说明贡献小。当CPC流量值较高时,SHAP值稳定在20-40之间,说明有一定拉动作用,但边际效应递减。
4.2 定量分析
利用多元线性回归来建立一个回归模型,以预测有效订单作为因变量,基于 自然访问量和CPC访问量。
分别将自然访问量和CPC访问量进行中心化并创建交互项再添加截距项。得到:
| R2 | F统计量 | P统计量 |
|---|---|---|
| 0.770 | 1288 | 0 |
模型解释了77%的门店实收变异,说明自然访问量和付费访问量是核心驱动因素。剩余23%可能由客单价波动、促销活动、天气、竞争等未纳入变量解释。
| conf | std err | t值 | p值 | |
|---|---|---|---|---|
| const | 42.8127 | 0.555 | 77.190 | 0 |
| 自然访问量_c | 0.2053 | 0.006 | 35.909 | 0 |
| cpc访问量_c | 0.1891 | 0.007 | 25.319 | 0 |
| 自然_CPC_交互 | -0.002 | 5.54e-5 | -3.271 | 0.001 |
上表中模型可写成:
有效订单 = 0.2053自然访问量_c + 0.1891cpc访问量_c - 0.0002自然_CPC_交互 + 42.8127
自然访问量_c:
这个系数表示自然访问量每增加1个单位,有效订单数将增加0.2053单位。并且该系数非常显著,t值为35.909,p值接近0,表明自然访问量对有效订单的影响是正向且显著的。
CPC访问量_c:
这个系数表示CPC访问量每增加1个单位,有效订单数将增加0.1891单位。t值为25.319,p值接近0,说明CPC访问量对有效订单的影响也是正向且显著的。
自然_CPC_交互:
交互项的系数为负值,表示自然访问量和CPC访问量之间的交互效应对有效订单有负向影响。即当自然访问量和CPC访问量同时增加时,对有效订单的影响会稍微减弱。这个系数非常小,表明它显著,说明二者之间存在一定的交互效应。
4.3 catboost预测
上述的模型均是基于假设有效订单与自然访问量和CPC访问量存在线性关系的前提下进行的,然而在实际电商场景中,有效订单量与流量指标之间的关系往往呈现高度非线性和复杂交互特征。当自然访问量达到一定阈值后,边际转化效率可能下降;不同流量渠道组合可能产生非加性的协同效应。
因此,采用CatBoost梯度提升树模型,该模型能够:通过树结构的分段常数拟合,无需人为指定函数形式即可捕捉复杂的非线性模式;树模型的层级分裂天然地实现了特征间的高阶交互;对异常值和数据噪声具有较好的容忍度;CatBoost采用Ordered Boosting和对称树结构,训练效率高且泛化性能优异。
4.3.1模型训练与预测
模型训练过程采用梯度提升框架,通过逐步添加决策树来最小化损失函数。在每一轮迭代中,新增的树拟合前一轮模型的残差,从而逐步提升预测精度。训练完成后,使用训练好的模型对测试集进行预测,并计算评估指标。
4.3.2模型评估指标
采用两个主要指标评估模型性能:
决定系数(R²):
R² 越接近 1 表示模型拟合效果越好,反映了模型解释因变量变异的比例。
均方误差(MSE):
MSE衡量预测值与真实值之间的平均平方偏差,数值越小表示预测精度越高。
通过综合考察R2和MSE两个指标,可以评估CatBoost模型在有效订单预测任务中的性能表现。
4.3.3模型的验证
为更全面地评估模型的稳定性和泛化能力,避免单次数据划分可能带来的偶然性影响,本研究在训练-测试集划分的基础上,进一步采用折交叉验证方法对模型性能进行系统评估。
K折交叉验证的基本原理:
K折交叉验证将完整数据集随机划分为K个大小相等的子集(fold),进行K轮训练和验证:
每轮选取其中1个子集作为验证集,其余K-1个子集作为训练集;
在训练集上训练模型,在验证集上评估性能;
K轮完成后,得到K个独立的性能评估结果;
这种方法的优势在于每个样本都有机会被用作验证数据,充分利用了有限的数据资源,同时通过多次独立实验降低了评估结果的方差,使模型性能评估更加可靠。
4.3.4模型的结果
在独立的测试集上,CatBoost模型取得了优异的预测性能:
测试集R2达到0.823,表明模型能够解释有效订单量约82.3%的变异,显示出较强的拟合能力。均方误差为228.866,考虑到有效订单量的实际数值范围,该误差处于可接受水平,说明模型预测精度较高。
交叉验证均值达到0.842,这表明模型在多个独立数据子集上均保持了稳定的高性能表现。意味着模型能够捕捉到有效订单量中绝大部分的系统性变化规律。
交叉验证标准差仅为0.026,这表明:
1. 模型对不同数据划分不敏感,具有良好的鲁棒性。
2. 模型未出现严重的过拟合现象,泛化能力强。
3. 特征工程设计合理,所构建的特征在不同数据子集上均具有稳定的预测价值。
五、结论与建议
通过对广告投放中CPC、GMV、ROI等关键指标的深入分析,揭示了不同广告投放策略下的效益差异,并对优化广告策略提供了理论依据。发现:
1. CPC成本高花费低转化现象:
通过分析CPC总费用与下单转化率之间的关系,发现大部分广告投放策略集中在中低成本区间,且存在一定比例的高转化率广告,表现出高性价比。
然而,部分广告策略表现出高投入低转化的情况,特别是在CPC费用过高而转化率未见提升的情境下,反映了高花费低转化的现象。
2. ROI分析与异常值识别:
从ROI的周度变化趋势来看,广告投放的效益受季节波动、事件性因素影响显著。部分门店在特定时段出现异常高或低的ROI,特别是受疫情等外部因素的影响,导致ROI出现显著波动。
3. 点击率的健康性:
整体CTR水平偏低,尤其是在0.05 ~ 0.10区间内形成明显峰值,表明绝大多数广告投放的CTR较低,但这一现象符合电商行业的常见情况。
高CTR广告较为稀少,表明精准投放和高质量流量对广告效果有显著提升作用。应特别关注CTR较高的广告策略,优化其他低CTR广告的素材和定向策略。
4. CPC流量与自然流量的关系:
自然流量与CPC流量之间未表现出明显的正相关,表明CPC流量并未显著带动自然流量的增长。这可能反映了品牌效应不足、内容质量一般或SEO策略薄弱的问题。
自然流量与CPC流量的独立运作性意味着广告主应避免过度依赖CPC流量,而应通过品牌建设、内容优化等措施提升自然流量的独立增长能力。
5. CPC流量质量对下单转化率的影响:
通过分析CTR与下单转化率的关系,发现高质量的CPC流量对下单转化率有正向影响。特别是CPC流量质量较高时,转化率显著提升,反之则表现为较低的转化效率。
对于流量质量较低的广告,应考虑优化投放策略,提高广告的精准度和内容质量,以提升转化率。
参考文献
[1] Chaffey, D. (2015). Digital Marketing: Strategy,Implementation, and Practice. Pearson Education Limited.
[2] Danaher, P. J., & Dagger, T. S. (2013). Investigating the relationship between online content and advertising effectiveness. Journal of Advertising Research, 53(2), 127-142.
[3] Shankar, V., & Muthukrishnan, A. (2019). The impact of digital advertising on consumer purchasing behavior. Journal of Marketing, 83(2), 40-58.
[4] 高洁.(2025). C公司搜索广告投放效果分析及优化策略研究. 广州大学.
[5] 王楠.(2025). W公司在亚马逊美国站的广告投放策略优化研究. 广东工业大学.
[6] 尤运琴.(2023). Y品牌家居互联网广告精准营销策略优化研究. 华东师范大学.
[7] 代文强, 初维佳, 钟婧.(2022). CPC模式下保量合同的在线展示广告投放策略优化. 中国管理科学, 30(10), 168–178.
- Title: 商业数据分析--大作业
- Author: 姜智浩
- Created at : 2025-12-03 11:45:14
- Updated at : 2025-12-04 08:34:23
- Link: https://super-213.github.io/zhihaojiang.github.io/2025/12/03/20251204商业数据分析--大作业/
- License: This work is licensed under CC BY-NC-SA 4.0.