做内容还是做搜索?

Filed under: 搜索引擎 |
Posted on

  最近看到了很多的文章,感觉是做网站内容的比较傻,做搜索引擎的比较精。

  你门户网站花那么多银子组织那么多记者编辑满世界找新闻,我搜索引擎能给你全部抓过来,还能把大大小小的新闻网站的新闻按照某种机制排个顺序,搞出来的新闻热点比谁都权威。更可气的是,门户的新闻做得好,我就盯着你抓取,几分钟就抓一次,几个网站一起抓下来,新闻更新速度到成了平均最快了。养蜘蛛比养人便宜啊!这下好,百度、中搜、Google什么的一下子都有了自己的新闻门户了,我就是不太清楚这些新闻版权怎么办。

  几年前用网络特别喜欢一个叫Chinamp3的音乐站点,那里总能找到比较新的专辑的Mp3。当时Mp3的来源主要是站长自己制作和网友们一起提供。不过现在几乎不会再去这些站了,百度、一搜的Mp3搜索无疑是最好的Mp3下载库。搜索引擎也特别关心用户体验,知道你输入歌名、歌手名麻烦,直接给你做个分类列表,知道你不知道有哪些新歌出来了,就直接给你来个新歌榜,再加上各种排行榜,特别是按照搜索次数直接生成的排行,比一般专业的音乐站点热闹多了。搜索引擎也不需要花心思和大把银子去买服务器存储音频文件,因为这些比较占用空间的文件都在别人网站存着呢,如果你的网站空间不稳定或者下载速度慢,我还能通过技术让你的链接就出不来,并就此来和别的搜索引擎比较比较谁的无效链接少。

  最近,搜索技术大踏步向前发展,说是视频文件也能搞搜索了,估计没过几年,在网上下载电影就能和现在下载Mp3一样方便了,到那时候,我每个月一定能少花几十块买影碟的银子。不过在音乐电影这些东东的版权问题上,国内外搜索引擎同气连枝,丝毫不给唱片电影公司和版权组织面子,反正我就是提供链接而已,那些盗版的都不是我搞出来的,你不能要求我们的蜘蛛们还要学会打击盗版啊。

  新浪打算分割在线旅游市场,搞了个财富之旅,当初好像也是买来的,现在玩不下去又要卖了。在这点上,雅虎就聪明很多,知道在美国搞在线旅游很难赶上MapQuest、Expedia了,于是就搞出个旅游搜索。这个旅游搜索目前还是测试阶段,但是看看功能已经通过抓取包括这两个在内的主要旅游网站的信息,在搞搞比价什么的,立即实现在线旅游功能,而且我觉着可以随时号称全球最大最全了。新浪如果早点想到这点,抓抓elong、携程的数据,早就能轻松玩好在线旅游了。不过新浪没什么搜索技术,百度、搜狗应该趁早动手,别等雅虎的中国儿子一搜先行一步了。国内目前已经有了一个搜驴的旅游搜索,不过品牌不够,暂时还难以有什么影响。

  最近地域搜索也嚷嚷的比较凶,加上和电子地图的配合,正式有点生活从此更轻松的架式。看看Google的Local和地图功能,感受就是一个“强”字,不过刚刚准备写点东西表示一下敬仰之情,就出现了把警察局和妓院搞到一起的笑话,只能以观后效了。

  但这是在美国,虽然中国的几个搜索引擎也跃跃欲试开始搞地域搜索了,但是效果并不能令人满意。3721一早就搞了个生活搜索,一下子开通了全部的城市,不过多数搜索结果是空的。百度和黄页合作,兴冲冲的买了不少数据库,不过还是给人站内搜索的感觉,真不知道哪些蜘蛛干什么去了。搜狗收购了go2map,照理应该能在地域搜索和电子地图的结合上有所作为,可惜动作还是有点慢,居然让新浪抢先一步推出了我认为是目前算是不错的地域搜索功能。然而新浪的功能虽然还可以,但是因为数据量的约束,还是只能一个城市一个城市的开通。

  新浪地域搜索最早推出的是北京站。记得以前新浪生活频道就是以北京为主,因此应该已经拥有不少数据量,而且当年查博士好像也能搞吃喝玩乐信息的查找的。但是以新浪这样水准的大公司,如果没办法尽快搞定多数城市的数据问题,地域搜索能走到哪一步,还有有些堪忧,而且我一直不看好新浪在技术上的创新能力。

  即便百度、搜狗、新浪这些能拿到全国的数据了,地域搜索在国内仍然任重道远。百度拿下中国电信黄页的数据算是比较牛了,Google在美国好像也是和黄页公司合作开始的。但是Google是加入了对本地网页的搜索和内容的提取,所以站在黄页的肩膀上,其数据量却很快比黄页更大更准确了。但是百度不会有这么方便,因为当他派出大量蜘蛛进行本地化工作的时候,会发现本地的信息实在是不够用。

  地域搜索应该需要更多生活方面的信息,比如餐馆、咖啡厅、美容院之类的。中国虽然做了好几年的企业上网工程,却对服务业少有眷顾。可能因为多数的消费场所规模都不是很大,本身使用电脑和网络的机会也比较少,所以网络公司也不太会花精力去争取这部分客户。而且,当初企业上网热闹的时候,大家都强调互联网的无国界,而消费场所却盯着本地客户,自然也很难谈拢。这就给搜索引擎的抓取带来很大的难度,如果互联网上根本没有这些消费场所的任何信息,蜘蛛们就算挖地三尺,也只能望网兴叹了。

  另外在国内还有一个比较奇怪的现象,就是电信部门并没有办法很好的掌握电话的使用情况。因为企业使用电话的费用相对较高,所以很多消费场所都选择了用私人电话作为商用,从而节约成本。这样一来,这些电话电信那边的记录是个人电话,从查号台就没有办法查到,像百度那样从电信购买的黄页数据自然也不可能全面了。再看工商层面,即使你能拿到消费场所在工商注册的资料库,却还是不能解决信息不对称的问题,因为商户注册的公司名称和他的消费场所对外的名称会完全不一样。

  我们做互联网企业服务以来,一直想去解决这个问题。以我所在的城市南京为例,提供各种生活消费信息和商户资料的网站大大小小几十家,但是能够收录商户资料超过5000条的就寥寥无几了。城市消费指南南京站收录了超过2万家的商户,数据量远远超过了当地的其它网站和电信黄页的内容。但是比较南京本地超过10万的实际商户数量,这个数据仍然是一个小的比例。我们想努力提高数据量,却发现好像所有的技术手段都不管用了,和街道合作或者直接去挨家挨户的采集数据反倒成了最可行的方式了。

  不知道新浪、百度怎样去解决数据量的问题。或许他们可以依靠分布在大中城市的代理商去做这个工作。但是代理商们无利不起早,加上渠道体系中代理商们屡屡受到伤害的经历,所以可以肯定的是除非能签下不管业绩如何都能持续独家代理某个城市业务若干年的协议,代理商们是不会愿意在不能做业务的时候去拼命收集数据的。城市消费指南南京站我们能自己这么辛辛苦苦的做基础工作,是因为这毕竟是我们自己的东西,即便如此,大家都觉得不容易。

  最近SN的概念很流行,我也一直在思考这个理论对信息的采集能不能产生什么促进。也想过让网站的用户同时成为信息的提供者,但是收效甚少,一来愿意主动提交的不多,二来提交上来的信息还是需要去进行核对,工作量并没有减少。

  做一个地域搜索引擎并不难,难在数据之源。可能搜索引擎转化成内容门户太简单了一点,以至于做内容的网站越来越心寒。我这边如果信息采集出来了,那可能是辛苦出来的,但是如果被搜索引擎拿去整理一下,可能能搞出个更好的东西来。如果这样发展下去,谁还会去做内容呢,大家都玩搜索去吧。可是大家都去玩搜索了,搜索引擎能搜到什么呢?

Trackback url : u can trackback from your own site

Leave a Reply