HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

微信搜一搜迈出新的一步

2020-01-01

信息不对称,是这个时代的核心竞争力之一。

一件事情如果我知道,你不知道,竞争的时候你就必然会面临劣势,乃至被收割。所以信息收集和整理的能力,是这个信息爆炸的年代中最重要的能力之一。

过去我们面临的问题是信息不够多,找不到;现在我们面临的问题是垃圾信息太多,有效信息和垃圾放在一起。

很多人问我最常用的收集资料的工具是什么?

其实答案是不唯一的,因为我都是针对要收集的资料的特性,来选择匹配工具,不同工具对应的内容方向是不一样的。

如果找深度的内容,除了用学术论文搜索之外,我用的最多的是大家平时了解不多的东西,微信搜一搜。

搜一搜这个东西一直被当成微信上的一个附属功能,很多人都用过,但是未必了解,这个产品在我眼中属于是非常高效的搜索引擎。

举个例子,医疗。

我用搜一搜搜 “头痛”这个关键词, 它会告诉你,这个内容交给了某市某医院的具体哪个医生评审,而且是评审通过了的。


这个标注看起来就是非常小的一行字,也没有重点突出。但是从信息上讲,这个信息的来源是透明的,并且是由专业人士提供的,这就决定了这个信息大概率是可以相信的。信息检索的一大常识是,如果不知道来源和统计源,这个信息是不能被完全相信的。

把搜出来的每一条健康信息都归责到具体的人,是一件很麻烦、很复杂的事情,但是对搜索引擎很重要。

信息在可信的前提下,才有意义。

其他搜索引擎当然也可以搜健康信息,但是互联网上的共识,就是医疗“移不动”,健康信息并不推荐完全使用搜索引擎,这属于常识。

搜索引擎的信息可信度问题一直是一个毒瘤,以健康领域举例。

搜索引擎和健康联系起来,最大的隐患就是一般的搜索引擎没有能力去识别医疗信息的真假,所以既不能给正确的知识提供专业医生的背书,也不能筛掉灰产的伪医疗伪科普。

搜一搜给出的解法很简单粗暴。

1)规范化搜索结果

直接在搜索结果上给到具体医生鉴定的溯源信息,并保证相关医师可以在医院官网查询验证。这就在最大程度上,拉近了搜索引擎上获得的信息,和线下去医院里从医生那里获取的信息,二者在专业程度上的差距。

2)直接提供在线挂号服务

这就让用户不同以往的可以更便捷挂号,最终走向都是在把用户导向规范的线下医院,而不是作为一种牟利的渠道。

对于掌握了流量和内容分发的搜索引擎来说,这种自我规制和审慎非常重要,这不但是在保护用户,也是在保护自身。

严格来说,一个搜索引擎没有必要去做这样的事情,搜索引擎只提供爬虫不提供鉴别是业内公认的规则,但是做了这样的事情,其实会对用户更负责一些。

用户的搜索行为得到的结果,不仅仅是“信息”,还可以是“服务”,甚至是为用户量身定做的服务(一对一咨询医生)。

并且把这一功能集合在微信这种国民APP上,背后是微信的棋局。

使用搜索引擎激活存量资源,形成更大的协同生态。

人无我有,人有我优,人优我便利。

不仅仅是技术的问题,更是思路上的差异。

02

搜索引擎这个东西并不新鲜。

我们一般把搜索引擎分成四代,导航网站(黄页模式)是第一代,给你什么你看什么。

提供最简单的文本检索功能的是第二代,人们可以简单录入自己的需求内容,但是受限于网站的内部数据库。在第二代的后期,搜索引擎解决了内部数据库问题,使用爬虫来爬公域信息,理论上数据库是无限的。

我们最常用的,其实是第二代搜索引擎。

从第三代开始,搜索引擎开始去预测用户的意图和习惯,在搜索结果中插入高亮信息。这些信息可以是搜索引擎认为更有效的资料,也可以是广告。

前三代搜索引擎主打的都是围绕厂商端的需求。

第四代搜索引擎是基于移动互联网出现的用户中心时代,最大的特点就是搜索的私人化,依据对用户的了解,从搜索方式,搜索类型乃至搜索结果,都要往千人千面上靠。

搜索引擎的历史不算长,但是技术跃迁得非常快。

虽然给用户带来更便利的内容分发体验这个核心逻辑没有变过,但是在搜索引擎的进步过程中,也产生了很多非常有意思的技术原理,甚至和道德、法律、社会公序良俗相关。

首先是爬虫技术。

网站其实并不欢迎私人的爬虫,因为爬虫的访问量会增加网站负担,但是又无法带来真人流量。

所以现在很多网站都设置有验证码,就是为了确保访问请求都来自真人用户。

但是网站对搜索引擎的爬虫是非常欢迎并且来者不拒的,被搜索引擎爬取并且收录可以增加网站的曝光,甚至对于很多缺乏冷启动的小网站来说,被搜索引擎爬出来,就是它们唯一能得到流量的渠道了。

搜索引擎的爬虫技术其实没什么好讲的,不管技术好坏,最后都能爬出来,区别只在于爬取过程中的技术代价以及效率。

但是爬取+收录这个行为就出现了骚操作了,有一家自己不做搜索引擎但是专门给其他公司提供搜索技术的公司,叫inktomi。这是互联网早期非常重要的一家搜索引擎技术提供商,而它把自己作死的原因,是inktomi开始要求网站付费才能被受录。

实际上搜索引擎的搜索结果就是它为用户提供的商品,网站被收录,获得流量,搜索引擎收录网站,获得更多内容,本来是双赢的一件事情。

如果要求一方给钱,性质就变了。

后来的雅虎和Google就是因为免费策略而大获成功。

搜索引擎很赚钱,但过度追求金钱,最后必然会带来失败,这是搜索引擎的第一个教训。

再比如搜索结果的排名机制,也历经过非常有趣的演变。

二代搜索引擎的排名机制和爬取机制是一体的,用的都是一些信息检索模型,比如布尔模型,概率模型或者向量空间模型。

这种机制下,其实不存在排名问题,因为返还给用户的直接就是一个链接清单,里面会夹杂大量用户不关心的链接,用户必须一条条全部看完才能找到自己需要的内容。

到了第三代搜索引擎,就把链接清单给取消了,以搜索界面的形式展现搜索结果,也就是我们现在看到的大多数搜索引擎。

问题在于,在这个界面里,哪个搜索结果应该排在前面,哪个应该排在后面,这会直接影响到搜索结果的曝光度。

当时的各个搜索引擎,用过不同的逻辑去判断这个问题。

比如有一个早期的搜索引擎叫Direct Hit,排名机制主要靠搜索结果的用户点击率来决定。

在一开始,这种方法的确提高了用户看到优质搜索结果的可能性,Direct Hit也因此流行一时。

但是很快,就出现了利用机制漏洞刷点击率提高搜索位次的作弊者,搜索质量也随之大幅度下降。

这种情况其实和现在一些骗点击率的标题党,在逻辑上非常相似,只不过标题党更多的是针对推荐机制。

这是搜索引擎收获的第二个教训,并不是人多就代表正确。

其实排名机制本身是可以通过技术来达到一个比较好的效果的,比如Google就是通过大规模矩阵计算来判断网页价值和网页可信度的。

在这个时代的信息洪流下,Google每次检索排名都需要动辄完成十亿量级的矩阵计算,甚至一度陷入了计算力的瓶颈,最后还是用分布式计算的方法,解决了计算力的问题。

这些公司之所以用各种方法去调整搜索引擎的排名机制,固然是为了在竞争中占据优势,但是另一方面,也是因为排名机制的重要性。

不同的排名机制,会决定用户从搜索引擎上获取的信息,而信息的本质是思想。

思想的力量是很难衡量的。

搜索引擎在互联网上搜索出来的结果,以及搜索结果的排名,都可以直接影响到用户在现实中的决策。

某种意义上,搜索引擎是一个可以左右用户命运的产品。

相关推荐