资料

近段时间我刻意地留意过在互联网常见，但是或许越来越不被重视的话：

我查了资料

这句话本身并没有什么特别之处。真正让我在意的是越来越多的互联网创作者在说完这句话后会附上一张资料截图作为来源。

而截图的内容往往并不是论文、书籍、研究报告或权威机构，而是一段与 AI 的对话。

早时候，这句话其实有较明确的含义。查资料意味着过程、甚至成本。

可能是翻书，也可能是在不同网站之间搜索，找到一篇文章之后还要继续看它引用了什么，再去找更早的来源。有时候会发现不同地方写的不一样，于是又要重新比对，试着判断哪一种说法更接近事实。

这个过程通常不算轻松。

它花时间，却不一定立马就能得到答案。但至少在大多数情况下，它指向的是可以继续追溯的路径，知道内容来源，也知道如果想确认，还可以继续往回找。

而在 AI 迅速发展的今天，我看到越来越多的开头描述的情况。没有报告、没有研究名称、没有作者，甚至连一个可以参考的链接都没有。

整段话读起来很完整，语气也很确定，像是已经被验证过的结论。但如果去寻找它的来源，却不一定能发现起点。

意识到这种变化之后，我回想起一件几年前的小事。

23 年春，我开始接触 ChatGPT，非常新鲜，也非常方便。有水课需要写论文，我试着把题目丢进去，让它帮我整理一下思路。

结果出乎意料地顺利。

我给出一个主题，它很快生成了一整套内容：文章结构、段落安排，甚至连引用都一并列了出来。那些引用看起来非常正式：有论文标题、有作者名字、还有期刊名称，看起来和真正的论文引用没有区别，原本需要花很多时间查找的东西，被一次性整理好了。为了方便我没有多想，几乎直接 CV，就草草结束了报告。

这件事后来很快被忘掉了。

直到 25 年写本科毕业论文的时候，无意间翻到了那篇旧作。顺手点开看了几眼，发现参考文献不多，就想着参考相关文章。

开始随便查了一条，无果。我疑惑却又怀着期待，于是又查了第二条，依旧找不到，接着是第三条、第四条...

论文标题看起来都很完整，期刊名字也像模像样，但无论是在数据库里搜索还是在网上查找，都始终找不到对应的记录。

我意识到那些引用全部都是被生成出来的。

那一刻让我感到震惊的并不是它会生成假的内容，我在意的是这些看起来如此完整、如此正式的东西，会以引用的形式出现？它们的语气足够确定，格式足够规范，以至于在最初看到的时候很难产生怀疑。

直到亲身校验，才发现来源从来都不存在。

了解之后发现不完全难以理解。

模型的本质不是数据库，它不会在内部保存完整、准确、随时可查的知识列表，它更像是在学习语言本身的结构。当大量文本里经常出现某个观点后跟着引用的格式时，它就会学会这种表达方式。

于是在某些语境下，当一段话看起来应该有引用的时候，它就可能生成形式上合理的标题或者期刊名称。这些内容从语言上看是完整的，从格式上看也是合理的，只是它们不一定对应着一个真实存在的来源。

再加上训练模型的数据本身来自大量不同质量的文本，其中既有严谨的科研内容，也有未经验证的说法、错误信息，甚至虚构的内容。当这些东西混合在一起时，生成出来的结果也就难免带着类似的模糊性。

现在再回头看那些熟悉的表达时，这种感觉开始变得越来越明显。信息确实变多了，比过去任何时候都多，问题已经不再是找不到资料，而是越来越难确认资料的起点在哪里。

内容看起来结构完整、逻辑清晰，像是经过整理之后的结论，但如果真的试图去追溯，有时候却很难找到明确的来源。

它们像是漂浮在信息流里，看起来存在，却没有清晰的起点。

路径，开始变淡。

再看到那句熟悉的话：我查了资料，我认为所有人都应该意识到这句话本身已经不再像过去那样清晰。它仍然在被使用，也仍然在提供看起来可靠的感觉。只是有时它所代表的不一定是真正的查找过程，而只是意味着：我得到了一段看起来合理的答案。

不妨想得再远些，这件事真正带来的变化不仅包含信息本身，它更像是在慢慢改变人对知识的看法。

过去学习一件事，往往要先理解基础、知道概念、为什么会这样，而不只是记住一个结论。

这个过程很慢，也很容易让人觉得麻烦。但现在只要输入问题，就能得到一段结构完整、语气确定的回答。它看起来像理解，也很容易让人误以为自己已经掌握了这件事。

久而久之，这种感觉会慢慢变成习惯，需要的时候再问一次，而不是先去理解。但如果不再经历查找、比对、怀疑这些过程，我们只能得到是什么，却不知道为什么。

当结果本身缺乏可以追溯的来源，就会产生对信息最基本的验证能力，也会慢慢变弱的情况。这也就是尽管在互联网时代我们拥有前所未有的获取信息的能力，但同时更面临着前所未有的信息真伪的挑战。

信息确实变多了，获取答案也确实变快了。

只是有时我们得到的并不是知识本身，而是一种拥有知识的感觉。

而这种感觉，往往比真正的无知，更难被察觉。

二六年四月十日·成文

评论