文 / 书航 2024.5.25
近期,有一篇流传甚广的文章提到,现在你很难使用百度这样的搜索引擎,搜出早年提到“马云”两个字的网页。
比如说在百度上指定1998-2005年的时间段搜索“马云”这个关键词,只有一个结果,而点开后发现也不是这个时间段内的。
对此,我的第一反应是:还有这事?那不得赶紧试一下。
结果嘛,好像还是能搜出一些内容的,甚至不需要用谷歌,只用百度就行。
我使用了一个搜索引擎的常见语法。打 site: 加上网址,可以限定搜索结果仅限于某个网站。在上述指定时间段内,也就是21世纪初,国内的信息主要流通在三大门户网站:新浪、网易和搜狐。腾讯网和凤凰网的创办时间,在这个时间的末尾或之后。
同样,我们还能找到历史悠久的官方媒体上的一些老内容,权威媒体的上网时间也更早。比如说,当时央视诸位名嘴还很年轻,很真诚,认真给网友写日记,编读往来还会放在网上。这简直就是80年代春节联欢晚会期间,北京观众可以打电话点歌的赛博版本。
所以,如果限定结果来自这些网站,那么它们仍然保留在服务器上的存档内容,就有可能因为你的搜索而重见天日。
看来,那些“美好的旧时光”在互联网上并不是全都消失了。但确实,能找到多少得看运气。
公平地说,那篇文章中提到的互联网早期内容凋零的现象确实存在。
但值得争论的是,这种“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?
互联网内容,本来就是随时会被丢弃
首先,“加速崩塌”是否只是如文中所说,是“中文互联网”特有的现象?
简单的答案是:哪有,全世界都这个熊样。
就在这篇爆款文章发出来的前两天,美国的皮尤研究中心做了一项调查,显示2013-2023年间存在的网页中,有1/4已无法访问。
这个消息在中国得到的反应就不说了,我们来看看日本网友的反应。
首先,他们祭奠的是雅虎的个人主页服务地球村(GeoCities)。
日本家庭用PC和互联网的时间大概跟美国同步,这使得在世纪之交时的一些最初的网络服务,日本人也在积极使用。因此,日语成为了互联网最早被广泛支持的东亚语言。一些西方开发的常用软件,会在多语言版本选择中列举一堆欧洲语言,然后孤零零地提供一个日语。
接下来就是一些常见的博客托管服务。其实,“博客”(Blog)这个词已经有年头了,现在的人根本不了解。由于服务是本土化的,不同地方都有自己的博客网站,例如在台湾是无名小站,国内最著名的是新浪博客——韩寒、徐静蕾等人曾把那里当作主阵地。
现在我们还在用的微博,全称是“微博客”,也就是字数较少的博客。另一方面,有些人听小宇宙。“播客”(Podcast)这个词,在被译介入国内时,也是借助了博客的概念。如果现在想要向一个新人解释什么是播客,恐怕得说:
播客是一种声音公众号。
是的,时代变迁就是这么无情,就好像我们会说Word那个保存的图标3D打印出来,就是“3.5寸软盘”。
在美国,零几年的时候正经历一个叫Web 2.0的奇怪时代。意思是,网络1.0是少数编辑、记者或作家提供有限的内容,2.0时代是每个人都可以自己写内容、自己发布,让其他人看到和分享。奇怪的时代出现了很多奇怪的网站。
比如说,既然所有人都在写自己的专栏,谁的内容能脱颖而出呢?就需要有勤劳的推荐小能手不断挖掘相关信息,这就造就了一个叫“挖掘”(Digg)的网站。Digg和StumbleUpon这两个推荐引擎负责将世界各地有趣的文章,以投票方式决定谁显示在最上层。
在国内也有或大或小的网站,选用同样的推荐机制,其中坚持时间最长的一个叫做“抽屉”。抽屉新热榜是一个非常长寿的网站,一直坚持到这几天(!)才发出关站的消息。
早在此之前,它的海外祖师爷都已在很早的时候被贱卖掉,其中的数据也没有了。如果有人能够按月备份每一阶段在网站上被顶到最前面的信息,那将是非常有趣的事情。
不确定有没有人这么做,最有可能的,是众人皆知的互联网档案馆(Internet Archive),这是一个历史地位几乎与维基百科同等重要的非营利组织。它存在的唯一目的是备份那些因自然或人为灾害而可能丢失的内容。
虽然在国内访问有点困难,但它同样可以备份大多数国内的网站。只不过,如果要有备份行为,可能需要你在看到这个网页时,随手用一个浏览器插件点一点,通知网站可以抓取这个页面了。
互联网档案馆一直在发起行动,备份那些随时可能会消失、拥有大量珍贵数据的站点。之前比较著名的有:
2018 年,备份和保存来自流行的照片共享平台 Flickr 的图像。Flickr 决定将免费帐户限制在 1,000 张照片,这可能导致数百万张图像被删除。
2018 年,存档“轻博客”平台 Tumblr 的内容。Tumblr 禁止成人内容的决定,可能导致该平台的大部分内容和创意作品丢失。
2020年以来,存档与新冠疫情大流行相关的全球各地在线内容。
这点努力相对于Web 2.0时代实际损失的其它海量内容简直是杯水车薪,至少还有共享网络收藏夹Delicious,谷歌旗下众多用户依赖的阅读器Google Reader……都一点痕迹也没有了。
即使是那些一直坚持下来的,有着20年以上历史的长寿服务,在运营过程中也会反复更改政策。典型的比如谷歌Blogger服务,清除了一波超过10年没有登录过的账号。但是,很多此类账号的停用,并不意味着作者或读者放弃了这个内容,甚至其中一些原作者可能已经离开人世。
像谷歌、微软、雅虎这些拥有大量陈年老用户的账号系统,处理此类信息时都面临两难境地。它们不可能直截了当地告诉用户,你的东西放在我这里只是临时存储,总有一天要删除掉。但当这些信息的主人也“不再在意”它们时,唯一现实的处置办法就是丢弃,因为任何形式的保管都需要费用。
甚至连实体的墓地也是如此,在公墓落葬或存放的骨灰,需要每隔20年左右,由继承人或亲属缴纳墓穴的管理费。这种行为本身也是供奉的“香火”仍然存在的证明,如果断了,那这个墓穴就会被空出来,留给新的逝者。
前几年,国内的很多门户网站,也丢弃了它们之前长期存放的内容。包括网易博客、微博、QQ空间、人人网等——一大批内容在这个时候被丢弃。其中很多内容,因为存储技术已经过时,所以无法再对外展示。
零几年,网页上经常使用的Flash技术,现状是已经被彻底抛弃,就算变通支持读取,也可能因为无人开发,为你的浏览器带来安全风险,没有任何网站官方支持继续读取Flash内容。然而,QQ空间的某个版本大量运用了Flash技术。
目前所说的丢失记忆,大多数仅限于图文内容,但这种对于空间花大力气的装扮,还有当时买的钻都无法延续下去。这些东西到现在多少也算是数字资产了,不知道可不可以向腾讯索赔。
我们需要知道的一点是,互联网内容随时会被丢弃,这并不是所谓“中文互联网”的过错,而是自然规律的一部分。
互联网是一个人为建造的生态系统,但在大多数情况下,人类依靠自然的本能反应来使用它。所以这个人造生态系统的表现,就跟自然界中的热带雨林,那种自循环的生物圈一样。
总有生老病死。死亡的下一步就是腐烂。就像《寻梦环游记》里说人类一样,内容也会死两次,一次是停止更新,另一次是被所有人忘记。
大量自然消失的东西,最终会归于泥土。现在人们想的是,找一些侥幸保存得很好的内容片段,再把它们做成标本。少量东西可以这么做,但妄想所有内容都能维持原来的状态,那是“逆天改命”,违背自然规律。平台方第一个不答应——而平台就是那个给你空间和自由,让你来写这些东西的地方。
搬运取代搜索,万事皆有“平替”
人们在评判当今互联网时,特别容易回忆“过去的好时光”,说世风日下,人心不古。
不过,现在的小孩子并不是那种无知的,或者随遇而安的情况。并不是只有上了年纪的人,才在哀叹内容的速朽、易碎和快速消失。
没错,那些零几年的内容已经远去了二十几年,但即使是晚近的内容——哪怕是知乎、豆瓣或小红书上,最近三四年的内容,也可能正在快速地消失。所以现在的小孩子们,也自有一套保存、传播和分享这些信息的方法。
最典型的是搬运。搬运是一种口耳相传,当然会有信息失真,但因为有截图,这种失真现在其实较少。如果要修改截图,多半是在玩梗。
很多引起共鸣的个人经历和故事,以这种方式得到传承。比如AcFun的管理权一直很混乱,被接手后一些原内容不慎丢失,文字区内容几次搬家,搬到“A岛匿名版”去,也是关了又开。但现在有不少内容先是被微博抢救出来,然后官微挂了,又被搬去知乎。
虎扑的步行街也有一个官方运营的号,它上面也会备份很多帖子。
NGA则是志愿者在B站转贴——是,用B站视频转贴。把长帖子滚动截屏后发出,这样的话你看人家帮你往下滚动,你不用动鼠标,还可以欣赏新挂上去的弹幕。
及时备份这些内容非常有必要,这些地方近两年引发人们议论的帖子,都是跟“性别战争”相关的,这很敏感,所以原帖基本上都不存在了。但它们的尸体碎片、网页快照等,被搬运工传递了下来。
还有一些是跨越私密墙或付费墙。财新的文章就不用说了,特别是在涉及到公众利益的报道出来之后,很多地方都有人转。
更经典的是豆瓣有几个小组只存在于传说中,比如瓜组、鹅组、尸组。但在微信公众号等地方,有不止一个账号会专门总结和转载热门“瓜”。这些内容大多“看起来”比较保真,确实也有可能作假,但是……如果传的本来就是流言,为什么需要“原版的”流言呢?
文章开头讲到的Site:语法,是搜索引擎使用中常见的,却被大多数人忘记。
总有人说“为什么我要找的东西总是找不到,给你却能搜到?为什么你知道用这个方法?”这种东西,值得开一个知识付费课程。在大模型时代,情况变得更糟糕了——提示词实际上就是一种搜索语法,而且真的开了很多付费课程。
强调这一点不是炫技,不是说为什么你写爆款的时候找不着马云,我一找就找到了。
我真正想说的是,这种技能不是大众赖以生存的“刚需”。
当互联网上旧东西凋零时,新东西在生长。旧的热搜能引发关注,反映了当时人们的心理和心态。这些心态如果在现在依然存在,会以新的热搜或流行词表现出来。如果现在已消亡,它们就会自然消失。
十几年前,腾讯新闻推出了一档自制专题栏目“今日关注”。其中有一期的标题是《中国男人配不上中国女人?》。这个选题来源于天涯社区一个用户对街头人们穿着打扮的观察。
那时,天涯是一个如此重要的平台,以至于没人想到今后它会衰落到向人募捐。2008年,某学校领导在中央人民广播电台的记者面前,愤怒地喊道“我要占领天涯,做一件轰动全国的事情”。如今,他已经不再需要这样做。
然而,如果我们不找到这些考据的来源网址,对大多数人,会有多大影响吗?其实并没有。找到文章正文,是在第一财经网站的转载;找到配图,是在知乎上。——知乎也有十多年历史了!
人们的情绪可以借助任何事物来表达,即便这些事物不是历史事实,甚至是当下的、可能被扭曲的内容——比如“胖猫”。
哪怕是当时被认为是不可替代的“第四权”,作为社会良心、以身犯险的调查记者,现在也勉强有了点儿“平替”。
比如以一己之力带动淄博烧烤热潮的B太,他出道以来进行的舆论监督,节目放到央视的《经济半小时》和《焦点访谈》播也并不违和。
真正的电视端则显现出青黄不接,之前的几个调查栏目虽然名称还在,但用途已经更换了。总台就新开了一个《财经调查》栏目,用来承接之前那些针砭时弊的作用——其实或许能多几个B太也是可以的。
“中心化”也没有那么糟糕
现在,人们交换生活经验,或者为自己争取公道的地方,也变换了场地。小红书成为其中非常重要的平台。然而实际参与者却不止于小红书本身。
小红书的截图以一种奇怪的方式流传出去:你在知乎或微博等地方,能看到大量来自小红书的截图,但如果按照截图上的文字去搜索原帖,则一般会搜不到。
有些人不断开新账号,在小红书上只发一条帖子,火了之后截图转到营销号上,然后注销账号走人。
小红书目前的流量分配机制是,每个新用户都有平等的前几条帖子,可以获得10万以上阅读量的曝光。这对新用户冷启动非常有效,因为很多时候没人能想到自己也有机会出名,一下子就被平台粘住了。本来就应该这样,“每个人都有15分钟成名的机会”。
然而,小红书的大多数账号在前两三条帖子火爆之后,通常会后继乏力,平台给予的流量会迅速下降。所以实际上,在小红书自然达到1000粉丝是非常困难的,这也是开通广告后台的门槛。
对于搜索引擎来说,小红书是无数个流量黑洞之一。它不仅设置了对任何搜索爬虫禁止的状态,而且如果找到证据证明有人使用内容,恐怕还会走法律途径。
现在,大模型方面使用这些网站内容作为语料库,都得支付动辄几千万的费用,但这只是最近的一个例子而已。搜索引擎作为准公共服务,本应与各个社区达成默契,即他们开放内容让人们可以便捷搜索。但这也只是一种默契,而非法律规定。所以现在,任何地方的搜索引擎,都是不完整的。
一个外国人想要观察中国互联网的流行动态,必须熟练使用几种到十几种流行的中国网络服务。这确实造成了一定的障碍。当他们不在中国,只能离岸观察时,得出的结论往往更离谱,离谱到像ChatGPT最近一次更新使用的分词器,排在前面的都是一些不堪入目的关键词。
但是在这里,必须说一句反常识的话:这种“围墙花园”的状态,长远来看,说不定反而更有利于信息的长期保存。
那些中小型网站,如果开放搜索和访问,意味着大多数情况下人们会信任它。但它不一定值得信任。像天涯那样曾经名噪一时的网站都有可能最终关闭,而且不给人们信息备份和补偿的机会。
所以,如果所有东西都存在像微信公众号这样的超大平台上,这也意味着它们跟微信这个平台一起坚持到海枯石烂的可能性很高。
如果你2005年选择把一段自拍视频放到优酷上,你现在还能看,但如果放在六间房上,那就不行了。我现在要看《一个馒头引发的血案》,——那是多么无与伦比地著名的东西啊!——我只能去B站找。去搜“万恶之源”,很多怀旧的东西都能看。
人们有理由担心微信公众号上的信息搜索不到,有朝一日平台发生变化,上面的东西都会消失。当然是个风险。但是自2005年以来,非中文互联网上90%以上的视频都存在YouTube一个地方,所以他们也应该担心这个问题。说实在的,当这俩地方出故障的时候,你可能更需要担心自己的人身安全等更基本的命题。
与拜托平台长命百岁相比,更有效的信息备份,应该是有一个人类来负责维护。
例如一个资源,最早可能是bt种子,后来放在115网盘上,后来可能迁移到迅雷,再到百度网盘,然后是阿里或夸克。只要负责维护这个资源的人还在世,这份资源就不会“丢失”。
人们总是抱怨,现在不管找什么资源都得掏钱。有些东西以前是可以免费下载的,现在需要花十多块钱买一个不知名地方的会员,其实就是便宜了站长个人。
这其实是理所应当的。之前使用那些服务,完全仰赖他们的良心。但让这件事有利可图,最终会让信息保存更长久。求人办事最好的方法,就是掏钱。
这是互联网的新陈代谢,接受它
我们应该对由00后10后掌管的这一代互联网保持足够的信心。因为互联网刚刚兴起时,那些看着电视、报纸和杂志,听着广播长大的人也会充满恐惧:
怎么会有一些信息,不被记录在白纸黑字的官方媒体上?那上面的东西可信吗?你是在跟一个同龄人交流,还是一个怪叔叔?网络这种东西会不会骗你的钱?……
对于在2000年之前就连通网络的人,这些问题都会被人问过。我们呢?Vision Pro反正已经出来了,如果它就是我们当代的iPhone1,那十几年后,会有孩子们因为这个时代几乎没有3D全息影像资料留存,而深感遗憾吗?
还是说回找“马云”。你可能会发现在营销号中流传着他做过的一次公开访谈。这个访谈片段怎么搜?抖音上有,但缺乏文字总结。微博这条,我也不是用谷歌,而是用百度搜到的。
“他们所说的那些风险一个也没成真,而他们没有预料到的问题却全都出现了。作为专家来说,他们说的全对,做的全错。”
当然,马云本人后来也遭遇了一些事情,所以他的演讲倒也不必奉为金科玉律,但至少这句话没有错。
“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?
不是的。它是一种自然规律的体现。
在互联网这个人造的生态系统中,一棵参天大树也有倒下、死亡、归于尘土的时刻。想要把这棵树和上面的每一片叶子做成标本,保存起来,想法很唯美,但可能不是人力能做到的,而且也需要考虑这是否有必要。
那些过去就不再回来的时光,总是提醒我们应该活在当下。而大浪淘沙之后,有些真正重要的事情,也确实会通过尚未消亡的传统媒体,和一些学生的学位论文,以更永久的方式留存下来,成为人类文明的一部分。
从历史的眼光来看,在中国普及了30年的国际互联网,还处于其生命周期的早期。将时间拉长一点,未来一二百年,可能仍然需要我们在2024年生产的内容的备份。
如果你认为这一点对你很重要,那么从现在开始,由你自己来留下一些你感兴趣的内容,传给后来人,一点也不晚。备份内容最好的期限是20年前,其次就是现在。