走向数据科学:在字节跳动广告投放这么干
字节跳动 A/B Tester 团队将 A/B test 实验方法应用在广告营销领域,并首先在西瓜视频成功实践,用科学实验衡量决策收益,让广告营销从创意玄学走向数据科学。
文 | 字节跳动数据平台 A/B Tester 团队
我有一半的广告费都被浪费了!
“我有一半的广告费都被浪费了,但就是不知道是哪一半。”
零售大亨约翰·沃纳梅克这句经典名言被称为广告界的哥特巴赫猜想,道出了广告效果衡量的难点,同样也击中了无数广告主的痛点。
广告作为经济运行中的一个重要环节,到底应该如何科学衡量广告的效果一直既是业界的重点、热点也是难点。
在互联网时代,我们该如何做好广告营销,持续驱动生意增长呢?
火山引擎 A/B 实验团队给出的答案是:50%靠创意,50%靠营销科学。
相比于经验,营销科学是理解创意的更好方式,用科学的方法,探索营销规律,帮助客户实现可持续的增长。
从玄学走向科学:火山引擎 A/B 实验
A/B 测试在字节跳动已是非常基础的设施和文化,目前,字节跳动日新增实验 1800 以上。
首先我们看一个案例。字节跳动有一款中视频产品叫西瓜视频,最早它叫做头条视频。为了提升产品的品牌辨识度,团队想给它起个更好的名字。经过一些内部调研和头脑风暴,征集到了西瓜视频、奇妙视频、筷子视频、阳光视频 4 个名字,于是团队就针对一共 5 个 APP 名称进行了 A/B 实验。这个实验中唯一改变的是应用市场里该产品的名称和对应的 logo,实验目的是为了验证哪一个应用名称能更好地提升“头条视频” APP 在应用商店的点击率。最后西瓜视频和奇妙视频的点击率位列前二,但差距不显著,结合用户调性等因素的综合考量后,最终决定头条视频正式更名为西瓜视频。
通过这个案例可以看到,A/B 测试可以帮助业务做最终决策。结合案例的直观感受,我们可以这样来定义 A/B 测试:在同一时间对目标受众做科学抽样、分组测试以评估效果。
以上图为例,假设我们有 100 万用户要进行 A/B 测试:
先选定目标受众,比如一线城市的用户。
A/B 测试不可能对所有用户都进行实验,所以要进行科学抽样,选择小部分流量进行实验。
抽样之后需要对样本进行分组,比如 A 组保持现状,B 组的某一个因素有所改变。
分组之后在同一时间进行实验,就可以看到改变变量后用户行为的变化。
再根据对应实验目标的指标,比如点击率的高低,来评估实验的结果。
以上就是我们对 A/B 测试的定义。目前,A/B 测试已被 Google、Facebook、亚马逊等大型互联网公司广泛采用;字节跳动更是在 2012 年成立之初便开始使用 A/B 测试,公司内部一直流传一句话:一切皆可 A/B 测试。
火山引擎 A/B 测试,摆脱猜测,用科学的实验衡量决策收益打造更好的产品,让业务的每一步都通往增长。
广告投放场景下的 A/B 实验
广告投放 A/B 实验针对广告投放中不同素材、预算出价、人群定向、落地页等广告元素进行实验,帮助广告投放人员了解不同元素对投放结果的影响,进而选择更优的投放策略,提升投放效果。
早在 20 世纪六七十年代,A/B 测试就成为了广告教父大卫·奥格威最喜欢的一种营销手段。奥格威用 A/B 测试优化文案、创意、营销方式等,获得的结果也帮助他做出了很多正确的营销决策。
到现在,随着数字营销的发展,用户的线上行为被数据化,A/B 测试实施起来更科学、精准。可测试的元素也更丰富多样。
一条广告计划主要有广告素材、人群定向、预算出价、落地页四个环节,火山引擎的广告投放 A/B 实验,涵盖这四个环节中涉及的十多种广告元素。
以素材 A/B 实验为例,游戏行业在广告投放中素材呈现多样性分布。广告主通常根据不同游戏类型的特性,提炼游戏亮点以达成营销目的,而游戏广告转化的促成因子较其他行业更多元,可能是因为人物精美、坐骑炫酷、技能新颖,战斗精彩,甚至可能是由于偏爱古风。
广告 A/B 实验初探:拆分对比实验
拆分对比实验通过对不同的广告素材/人群定向/预算出价进行 AB 实验提高广告主投放 ROI,从而找出理想效果的方案,指导广告主进行后续广告投放。
火山引擎的广告投放拆分对比实验,实现了以下特色功能,从快速创建实验组到自动产出数据报告,极大降低了广告优化师使用 A/B 实验进行数据驱动的科学广告投放门槛。
01- 快速创建对照实验
火山引擎的广告投放 A/B 实验可以快速添加实验版本,同时保证实验变量的唯一性。例如,多素材广告实验用户只需修改素材即可完成实验计划的创建,而计划的其他元素如用户定向、广告位等与对照计划全部一致。
02-自动生成数据报告
可以选择关注更多维度的指标,如激活率、注册率、ROI、LTV、留存率等,并通过关注指标自动生成数据报告;
可以将实验下面所有广告计划的数据进行快速对比,快速了解各指标的差异;
数据报告
通过设置核心指标识别优胜组
可以查看关注指标的置信度
03-拆分对比实验的注意事项
需要注意的是,广告投放拆分对比 A/B 实验与标准的 A/B 测试有一定的差异。
首先是在流量分配上。标准的 A/B 测试需要对流量进行平均分配,但广告投放拆分对比实验无法确保在实验过程中的流量是平均分配的。
其次是在随机性(无偏性)上。标准的 A/B 测试是在线上流量中取出一小部分,完全随机地分给原策略 A 和新策略 B,目前广告投放拆分对比实验的计划之间无法完全排除干扰,不同计划存在一定的竞争性。
但是也有一些方法减少实验误差:
一是增加实验时长。由于周一和周日的人群会有很大的差距,因此建议实验运行 7 天以上,才能有足够的样本,保证实验的精准性。
二是增加人群包的范围数量,人群包的范围越大,实验运行的随机性越强。据 Facebook A/B 实验的结果,每个实验至少要有 300 到 500 次的点击,广告展示数要在 10000 次以上。
科学的 A/B 分流实验: 增效度量实验
增效度量实验通过将广告是否曝光作为变量,结合多媒体广告投放能力,运用人群洞察+触点价值评估+多触点组合频次序列化分析,度量广告曝光对于转化量的提升。
增效是产生的增量价值(即 uplift)。增效度量是通过科学的 A/B 分流能力,控制用户是否"有机会"看到广告,由此对比得出"看到"广告这一事件带来的增量价值的度量方法。
通俗地讲,「增效度量」通过将人群提前划分为"看到广告"和"原本可能看到广告",然后通过对比两群人在广告投放后一段时间内的转化差异、行为差异或用户认知差异等,以此量化广告效果。
01-为什么需要做增效度量?
目前,国内外还没有数字广告效果度量的通用标准。虽然不能够完全通过实验最精准的量化广告效果,但「增效度量」是目前几乎最接近广告真实效果的度量解决方案之一。增效度量客观量化线上广告投放对广告主产生的"价值",包括但不限于"广告"对最终的转化、用户行为、用户认知等产生的变化。
帮助广告主明确不同渠道/媒体的广告价值(帮助广告主正确的归因),明确广告投资回报率
帮助广告主证明归因方式是否准确,从而合理归因广告转化
帮助广告主持续优化广告营销的策略,合理调整不同渠道/媒体的广告预算分配
02-增效度量实验核心流程
火山引擎 A/B 实验平台提供一站式增效度量实验,结合广告增效思路,构建科学实验分流、实验配置、科学的度量报告,有效促进品牌广告科学评估价值。
广告主可以在火山引擎 A/B 实验平台上传 DMP 人群,配置度量实验,进行跨渠道的投放生效,A/B 实验平台提供投放和监测服务,也可配置对接客户的投放和监测服务,在投放后一定周期内完成监测数据归因和转化数据回传,平台统一生成增效度量实验报告。
03-配置度量实验
在火山引擎 A/B 实验平台配置度量实验,选择人群与投放平台计划,开启实验
04-跨渠道的投放生效
在火山引擎 A/B 实验平台上配置多平台的投放账号,授权投放计划和 DMP 接口
05-增效度量实验报告
火山引擎 A/B 实验计算实验不同人群包的转化人数,计算在不同平台进行广告投放人群包的增量转化,产出度量实验报告。
数据驱动下的品牌广告:品牌增效度量实验
品牌增效度量实验通过控制广告是否曝光或曝光不同广告,结合多通道问卷调研能力,对比不同人群投放效果,衡量广告投放效果。
01-为什么需要做品牌增效度量?
品牌广告效果的量化评估多年以来一直困扰着业界。难点在于品牌广告是能提升销售,但目前却很难做到精确有效地评估出某个品牌广告对销售增长的促进作用,而只能停留在触达层面的评估上。
品牌广告对消费者的影响是润物细无声的,影响消费者的过程可能有数月甚至一年之久;并且品牌广告对消费者心智影响的效果通常是无形和难以衡量的;另外销售的提升可能是品牌广告和效果广告作用的结果,品牌广告到底有多少贡献难以衡量;众多的难点要素叠加起来导致了业界还没有找到品牌推广和销售之间的准确转换关系。
品牌增效度量将品牌力这一主观判断以数据形式产出,通过广告曝光行为在两组相似用户之间的用户认知差异对比,能更好地帮助广告主了解广告效果,从而为媒体效率提升提供方向。此外,增效度量能帮广告主更好衡量广告的真实价值。采用广告的真实价值作为衡量标准,也能得出更好的用户洞察。
02-品牌增效度量实验核心流程:
创建 BLS 类型实验
导入人群包,绑定广告投放活动
开始投放广告,同步回收广告数据
根据广告人群回收情况,启动问卷投放
回收问卷数据,总结本次实验结论
03-科学的 A/B 人群分流
人群分流以往的计算方法是在选择好曝光组的基础上透过基础画像标签去找到相似的人群作为控制组,这种选法对于广告主来说会有两个挑战点:一是找到的控制组并无法保证与曝光组的一致性,二是为确保曝光组、控制组的一致性,广告主在这个流程上需要花费较大的人力及时间去做圈选校验。
而火山引擎的 AB 实验平台,在广告投放前确定人群随机分流方式,通过算法匹配将人群随机分流为曝光组、控制组,并对控制组进行广告屏蔽,相较于以往方法,更科学、省力且结论数据更真实。
04-多渠道问卷投放
和普通增效度量实验不同的是,品牌广告效果无法通过监测代码直接追踪转化效果(转化可能在线下),所以在度量品牌效果时,需要引入问卷调研能力,来统计品牌广告的 uplift 效果。火山引擎 AB 实验平台提供了以下能力:
在品牌增效度量实验中,火山引擎 A/B 实验平台完成人群分流及广告投放工作
在问卷调研中会通过接入多种问卷工具产品来实现问卷下发 &问卷回收
通过标准化的问卷模版,将回收问卷数据进行汇总计算,产出数据洞察报告
问卷样例:
05-增效度量实验报告
为什么选择火山引擎广告投放 A/B 实验?
如今中国企业正加速向数字化、智能化演进,工具市场有很大的需求空间。火山引擎将支撑全球化互联网公司多元业务发展的增长理念、技术优势内化到产品中,从开发、应用到运营,满足不同类型企业不同生命阶段的商业增长需求,更贴心、更智慧、更灵活。
过去几年,很多企业对字节跳动的技术和工具感兴趣,2017 年就有手机厂商希望使用今日头条的推荐算法,双方合作后取得了很好的效果,字节跳动在数字化增长方面有很多实践。
火山引擎 A/B 测试,脱胎于字节内部工具,不仅集成了字节内部丰富的业务场景中的实验经验,又立足 ToB 市场,保持技术中立,专注为广告主创造价值。
关联产品
A/B 测试,摆脱猜测,用科学的实验衡量决策收益,打造更好的产品,让业务的每一步都通往增长。
欢迎关注字节跳动数据平台同名公众号获取更多技术干货
评论