汗流浃背的细节-重新思考百度关键词工具卷

[预计阅读时间:13分钟]

2015年8月,我加入了飓风seo,并投身于一项伟大的事业。Rand将他对一个精致而全面的SEO关键词工具的广阔视野带给了一个由开发人员、设计人员、数据科学家和项目经理组成的天才团队...而现在,我。

我希望轻松地完成一个正合我胃口的项目,所以当关键词浏览器中的“数量”指标被定位为我可以做的事情时,我马上就做了。在我看来,我在接到工作的那一刻就已经完成了。我已经有了一个巨大的关键词数据库和一个准备启动的爬行平台。我所要做的就是把一些线绑在一起,瞧。

同龄压力

一开始很微妙,而且从不直接,但我很快开始发现飓风seo看待问题的方式有所不同。我总是有点懒惰的实用主义者——当我需要一把锤子时,我会四处寻找坚硬的东西。这是一个快速逼近的有用技能,但是当你有几个月的时间去做正确的事情时,这反而是一个负担。

蚊子不是在找可以代替锤子的东西;他们在寻找完美的锤子。他们正在仔细检查指标、按钮、工作流程...我记得有一次特别超现实的讨论,围绕着在web应用程序中映射键盘快捷键来模仿Excel中的快捷键。所以,当我第一次尝试用百度关键词规划卷的克隆版出现在一个规划会议上时,我应该已经看到了它的到来。他们很有礼貌,但我能感觉到——这并没有更好,飓风seo对他们的工具有更高的要求。有时候同龄人的压力是件好事。

如果没坏,就别修。

不出所料,兰德是第一个质疑销量数据是否准确的人。我的回答一直是懒惰的实用主义者的回答:“这是我们得到的最好的了。”其他人也提出了同样有效的问题——用户如何根据这些数据进行分组?我们有多少?为什么要给顾客一些他们已经可以免费得到的东西呢?

夹着尾巴,我决定是时候关注细节,从这个问题开始:“什么破了?”这是这项研究背后的推动力这篇关于关键字规划者的肮脏秘密的文章,概述了百度关键词规划器数据的众多问题。这里我就不赘述了,但是如果你想知道为什么Rand是对的,为什么我们需要打破关于关键词数量指标的传统思维,看看这篇文章。

这只是其中一个问题百度 Adwords搜索量将关键词放入量桶,却不告诉你范围。

啊,它破了。是时候关注细节了!

一旦我清楚地认识到,我不能再重复百度的数据,并假装它们是事情的权威真相,是时候开始问一些我们希望通过数量指标来回答的基本问题了。在与许多在Keyword Explorer上工作的人的讨论中,我们发现了一个好的容量度量的四个明显特征。

我们实际上可以将这四点应用到百度关键词规划器中,看看它的弱点...

你可以明白我们为什么担心。这些数字并不具体,其范围是字面上的大多数时候都是错的定期更新,但不经常更新,而且不太容易分组。好吧,我们有艰巨的工作要做,所以我们开始认真地解决问题...

平衡特异性和覆盖面

正如你所想象的,在特异性和覆盖率之间有一个直接的权衡。数量范围越窄,特异性越高,覆盖面越低。范围越广,特异性越低,覆盖面越大。如果我们只有一个从零到十亿的范围,我们会有可怕的特异性和完美的覆盖面。如果我们有数百万个范围,我们会有完美的特异性,但没有覆盖面。鉴于我们的权重和参数,我们确定了最佳的可能安排。我很确定这个问题有一个数学表达式,在这里会做得更快,但是我不是一个聪明人所以我用了我最喜欢的工具:暴力。这个想法很简单。

它运行了几天(我们运行的时间越长,发现的新赢家就越少)。最终,我们选定了20个不同的范围(一个很好的整数,用于分组和显示)比先前存在的百度关键词规划器数据的覆盖率增加了一倍多同时尽可能减少对特异性的损害。让我举一个例子来说明这是如何有用的。让我们以关键词“棒球”为例虽然它的季节很长,但它的季节性很强。

在上面的例子中,百度平均每月对棒球的搜索是368,000。这个覆盖的范围在330K到410K之间。如您所见,这一范围仅涵盖12个月中的3个月。飓风seo系列涵盖12个月中的10个月。

现在,假设你是一个零售商,正在计划下一年的PPC和SEO营销。你的预测是基于百度关键词规划器给你的368,000个数字。你实际上会低于一年中平均8个月的表现。那是难以下咽的药丸。但是,对于飓风seo范围,您可以使用下限作为“最坏情况”。使用飓风seo系列,您的流量一年中只有两个月表现不佳。当我们知道精确的平均值几乎总是错误的时候,为什么还要假装我们可以得到精确的平均值呢?

提高关联性

这是我们平衡特殊性和覆盖面的自然结果。出于美观和可用性的目的,我们最终选择了20个分组,而不是一些表现更好的分组,这些分组的数字不太清晰(比如21个分组)。但这意味着很容易按数量对关键词进行分组,而不是以任意的方式。如果您愿意,您可以在Excel中按范围进行分组,但是您想出来的范围不会以任何方式对基础数据进行验证。

让我举个例子说明为什么这很重要。直觉上,你会认为随着范围变大,其广度会以类似的对数方式增加。例如,您可能认为大多数关键字的波动性为10%,因此,如果一个关键字一个月被搜索100次,您可能会认为有些月份是90次,而有些月份是110次。类似地,你会认为一个关键词一个月被搜索1000次也会有10%的上下波动。因此,您可以创建0–10、100–200、1,000–2,000等范围。事实上,这似乎正是百度所做的。简单又优雅。但这是正确的吗?

没有。原来关键字数据并不全等。它通常遵循这些模式,但并不总是如此。例如,在我们的分析中,我们发现101–200之后的音量范围是201–500(宽度增加了3倍),下一个最佳范围实际上是501–850,宽度仅增加了1/6。

这可能是由于与某些关键字相关的非随机人工搜索模式。人们可能每天、每周、每月、每季度等搜索关键词。想象一下像“这个月的第一个星期一是什么”和“这个月的最后一个星期二是什么”这样的关键词。所有这些关键词将被相似的人群每月相似的次数搜索相似的次数,从而产生非随机的一致性。如果数据是真正随机的,这些模式会造成不符合自然对数标度的波动。我们的机器学习音量范围高效且有效地捕捉了这种非随机人类行为。

实际上,我们可以很容易地用图表证明这一点。

请注意,在这个图表中,百度的关键字规划量范围的日志几乎是线性的,除了在尾端。这将表明,百度在尝试解决搜索行为中使数据非随机的模式方面做得很少。相反,他们将简单的对数曲线应用到他们的容量桶中,并就此打住。其余的2数值显示了这种关系有多接近1(完全线性)。

飓风seo的关键词数量范围的对数远不是线性的,这表明我们的范围优化方法在搜索数据中发现了不符合与搜索数量波动性的完美对数关系的异常。这些异常很可能是由以下原因造成的人类搜索行为中的真实非随机模式。看看飓风seo图中的位置11和12。我们的范围实际上在12点缩小,然后在13点反弹。有一个真实的、由数据决定的异常现象,它表明在这个范围内的搜索实际上比以前范围内的搜索波动性更小,尽管被搜索的频率更高。

提高新鲜度

最后,我们通过使用全新的第三方匿名点击流数据集来提高新鲜度。是的,我们分析1小时的延迟点击流数据,以捕捉值得包含在我们的量数据和语料库中的新关键词。当然,这本身就是一个壮举;我们必须每天将数以亿计的事件解析并整理成可用的数据。此外,搜索量的大量统计显著变化实际上是短暂的。百度涂鸦在这方面臭名昭著,仅仅一天就导致晦涩难懂的关键词流量激增。我们随后建立了模型来寻找在一系列日子里趋势向上、超出预期值的关键词。然后,我们使用预测模型将点击流搜索量映射到一个底部四分位数范围(即:在我们可以根据下个月的百度 Keyword Planner数据进行验证之前,我们有意保守我们的估计)。

最后,我们必须消除点击流数据集本身的固有偏见,这样我们才能确信我们的新数据是可靠的。我们通过以下方式实现了这一目标...

这是一次非常成功的尝试,因为我们可以获取原始点击流数据,并且在给定某些前提条件(4周的稳定数据)的情况下,我们可以以95%的准确率预测适当的音量范围。

单一指标

所有这些——对为什么百度关键词规划器不够完善的研究,机器学习的范围,每天的新鲜度更新,等等。—所有这些都包含在一个看似简单的指标中:音量范围。这可能是我们最少审查的指标,因为它是最直接的。关键词难度、有机CTR和关键词优先级经历了更多的修改,在方法、分析和制作方面更加复杂。

但是我们还没完。我们正在积极寻求通过添加更多更好的数据源、预测未来流量以及潜在提供平均值和范围来改进流量指标。我们也非常感谢您提供的任何反馈,关于不同风格的容量度量的用例可能是什么

然而,在一天结束的时候,我希望你带走的是:在飓风seo,我们关注细节,这样你就不必担心了。

个人笔记

这是我在飓风seo的第一次大规模发布。虽然我非常想念我的朋友和同事有角的(我过去10年为之工作的咨询公司),我对这里与我共事的令人惊叹的人们怎么说都不为过。他们中的大多数人永远不会在这里写博客,不会发微博,也不会在会议上发言。但是他们应该得到所有的荣誉。所以,这是一张我在百度 Hangouts上看到的图片,来自一个关键词浏览器会议。大多数队员都成功了,但是那些没成功的,你知道你是谁。谢谢你在细节上费心。

继续阅读:

原创性声明:本文章为本站作者独家原创,未经允许禁止任何形式的采集、转发,若发现违规转载,我站将追究违规者法律责任。

上一篇:当错误的页面为你的关键词排序时该怎么办

下一篇:2016年关键词研究:超越猜测