目录

Google最新回应Markdown与llms.txt:AI搜索时代,网站真的需要为机器重做一遍吗?

当生成式AI开始进入搜索、内容发现和网页交互之后,一个新的建站观点正在流行:

为了让ChatGPT、Gemini、Claude等大语言模型更容易理解网站,企业是否应该把HTML页面再转换成Markdown?是否需要建立一套专门面向AI的内容版本?llms.txt会不会成为AI时代的robots.txt

这些问题听起来很前沿,也很容易让网站负责人产生焦虑。尤其是在GEO、AEO和AI SEO快速升温之后,Markdown页面、llms.txt和“面向大模型优化的内容格式”正在被包装成新的技术入口。

Google在最新一期《Search Off the Record》中,专门讨论了这一问题。

这期对话最值得关注的,并不是Google简单地说“要做”或者“不要做”,而是重新澄清了一个容易被忽略的事实:

AI搜索并没有让网页失去价值。恰恰相反,HTML中那些看似可以被删除的结构、链接和上下文,仍然是机器理解内容的重要依据。

Markdown不是问题,把Markdown当成排名捷径才是问题

首先需要厘清:Google并没有否定Markdown本身。

Markdown是一种轻量级标记语言,适合写文档、保存纯文本内容,也方便转换为HTML。开发者文档、代码仓库、知识库和技术说明经常使用Markdown,这是很正常的内容生产方式。

真正有争议的是另一种做法:

网站已经拥有完整的HTML页面,却为了所谓“AI可读性”,再生成一份只包含标题、正文和链接的Markdown副本,希望大语言模型优先读取这份内容。

这种做法背后的假设是:HTML包含太多标签、导航、样式和脚本,大模型处理起来比较困难;Markdown更加干净,所以更容易获得AI引用。

这个假设的问题在于,它把“文本更简洁”错误地等同于“机器更容易理解”。

现代搜索引擎、网页抓取程序和AI系统并不是第一次面对HTML。它们早已具备解析DOM、提取正文、识别标题、理解链接和过滤无关代码的能力。

从HTML中提取正文,并不是当前AI系统最困难的问题。

因此,单独提供Markdown版本,很多时候并没有解决一个真实存在的技术障碍,反而创造了新的维护任务。

核心判断:Markdown是一种内容编写格式,但目前没有充分依据证明,增加Markdown副本能够直接改善Google搜索或AI结果中的可见度。

HTML不是正文外面的一层“包装”

很多人把网页理解成“正文加上一堆无关代码”。

在这种理解下,HTML只是内容的包装,Markdown才是内容本身。只要把正文抽出来,机器就能更高效地理解页面。

但一个完整网页提供的信息,远不止正文文字。

HTML及其页面环境还可能包含:

  • 页面标题与标题层级;
  • 站内导航和面包屑;
  • 内部链接及其上下文;
  • 图片、图表和说明文字;
  • 产品参数与比较关系;
  • 作者、发布日期和更新时间;
  • 结构化数据;
  • 相关内容和引用来源;
  • 页面在整个网站架构中的位置。

这些信息共同回答了几个关键问题:

这段内容属于哪个网站?
它与网站中的其他页面是什么关系?
它是首页、分类页、产品页还是帮助文档?
哪些信息是正文,哪些是补充说明?
内容由谁发布,是否有更新时间和来源?
用户能否从其他页面发现它?

当网页被压缩成一份孤立的Markdown文件时,被删除的可能不只是冗余代码,也包括帮助机器判断语义、关系和可信度的上下文。

这就是为什么“更干净”不一定意味着“信息更完整”。

对于搜索系统而言,页面的价值并不只存在于段落文字中,也存在于页面与页面之间的连接方式。

网站不是一堆独立文档,而是由链接、层级、模板、导航和内容关系构成的信息系统。

AI抓取、内容发现与内容理解是三件不同的事

讨论Markdown和llms.txt时,最常见的混淆,是把三个不同问题放在了一起:

第一,AI系统能否访问页面;
第二,AI系统能否发现页面;
第三,AI系统能否理解并使用页面内容。

Markdown主要改变的是内容表达格式。它可能让纯文本阅读更加直接,但并不会自动解决页面发现问题。

一个AI系统要使用某个网站的内容,首先需要知道这个网站和页面存在。页面发现仍然主要依赖公开网页、链接关系、站点地图、已有索引、外部引用和正常的抓取机制。

如果一个Markdown文件没有内部链接,也没有从网站其他位置被引用,仅仅把它放在服务器上,并不会自动让搜索系统更重视它。

同样,llms.txt也不能简单等同于robots.txt

robots.txt属于长期存在并被主流搜索爬虫广泛支持的抓取控制机制。它用于说明特定爬虫是否可以访问某些路径。

llms.txt目前更接近一种仍在探索中的提议。不同AI服务是否读取、如何读取、读取后如何使用,并没有形成统一标准。

截至目前,没有可靠依据表明,部署llms.txt能够提升Google自然搜索排名、AI Overview展示概率或内容引用频率。

因此,将llms.txt宣传为AI时代必不可少的SEO配置,超出了现有证据能够支持的范围。

为什么搜索系统不会只相信网站自己的“摘要文件”

llms.txt和Markdown副本还面临一个更深层的问题:可信度。

假设一个网站可以通过一份文本文件告诉AI:

“我是这个领域最专业的网站。”
“这些页面是我最重要的内容。”
“我的产品是市场上最好的。”
“你应该优先引用这些答案。”

搜索系统显然不能只因为网站自己这样声明,就把这些信息当成事实。

这与早期SEO中的关键词标签问题非常相似。只要网站可以自行填写、又缺少外部验证,这种字段就很容易被滥用。

搜索系统更愿意检查真实网页,包括页面可见内容、链接关系、站点结构、外部引用、内容一致性和用户能够实际访问的信息。

这并不意味着网站自我描述毫无价值,而是意味着:

网站自己提交的信息可以成为线索,但不能天然成为可信结论。

这也是为什么HTML页面仍然重要。它是用户实际看到和使用的页面,也是搜索系统能够交叉验证的公开内容。

如果HTML页面写的是一种内容,而Markdown副本写的是另一种内容,搜索系统还要面对版本冲突问题:究竟哪一份才是真实、最新、面向用户的内容?

双版本内容会制造新的技术债

为每个HTML页面生成Markdown版本,看起来只是增加一个输出格式,实际上会带来一系列工程问题。

内容同步问题

当HTML页面更新后,Markdown版本是否同步更新?

如果一份更新、另一份没有更新,AI系统可能读取到过期参数、旧政策、错误价格或已经失效的说明。

URL与规范版本问题

Markdown版本是否拥有独立URL?

如果有,它是否会被普通搜索引擎抓取?是否需要设置canonical?是否会形成重复内容?是否会进入站点地图?

如果没有独立URL,AI系统又通过什么稳定机制访问它?

模板和链接丢失问题

Markdown转换过程是否保留图片说明、表格、产品属性、脚注、引用、内部链接和交互内容?

复杂网页很难被无损转换为简单Markdown。转换越彻底,丢失的语义可能越多。

访问控制问题

Markdown版本与HTML版本的抓取权限是否一致?是否可能意外暴露原本需要登录才能查看的信息?是否会把内部说明、接口地址或草稿内容公开出去?

监测问题

企业是否能够在日志、分析工具或Search Console中区分HTML与Markdown的访问情况?增加这一套输出之后,能否证明它真的产生了价值?

任何新增技术层都需要维护成本。没有明确收益的双版本内容,很可能只是把一个未经验证的假设,变成长期技术债。

HTML对AI并不天然“不友好”

在一些AI SEO讨论中,HTML常被描述成一种过于复杂、陈旧、充满噪声的格式。

这种看法忽略了HTML的核心作用。

HTML并不只是为了让浏览器显示颜色和布局。它还提供了基本的语义结构。例如:

<h1><h2>表达标题层级;
<nav>表示导航区域;
<main>表示主要内容;
<article>表示相对独立的内容主体;
<table>表达数据之间的行列关系;
<a>表达页面之间的连接;
结构化数据能够进一步描述产品、文章、组织和事件。

当然,很多网站的HTML非常臃肿,也存在大量无用脚本、嵌套元素和低质量模板代码。但正确的解决方向,应当是改善HTML质量,而不是认为HTML本身已经不适合AI。

对网站负责人来说,更有价值的优化包括:

保持清晰的标题层级;
使用可抓取的标准链接;
让核心内容出现在页面HTML中;
减少无意义的模板噪声;
提供清晰的页面主题与作者信息;
使用准确的内部链接锚文本;
保证移动端和无障碍体验;
让结构化数据与可见内容保持一致。

这些工作同时服务于用户、传统搜索引擎和AI系统。

真正稳健的AI可读性,通常不是来自另一份特殊文件,而是来自一个结构清楚、内容一致、可以正常访问的网页。

不要把“方便AI阅读”误解成“有利于AI推荐”

即使Markdown确实更方便某些工具读取,也不能据此推导出它会获得更高的推荐概率。

“能够读取”只是最基础的一步。

一个系统最终是否引用或推荐某个页面,还会涉及内容是否相关、信息是否准确、来源是否可信、页面是否具有独特价值,以及内容能否满足当前用户的具体需求。

这与传统SEO中的逻辑类似:页面能够被抓取,不代表一定会被索引;能够被索引,不代表一定会获得排名;获得排名,也不代表一定能够满足用户。

所以需要明确区分:

机器可访问性,不等于搜索排名;
格式易解析,不等于内容可信;
部署AI专用文件,不等于获得AI引用;
内容被读取,不等于内容会被推荐。

当前很多GEO和AI SEO方案的问题,正是跳过了中间的判断过程,直接把一种技术格式包装成曝光结果。

llms.txt有没有合理使用场景

虽然目前没有证据表明llms.txt能够直接提升搜索或AI曝光,但这并不意味着它在所有场景下都毫无意义。

对于开发者文档、API平台、开放知识库或需要程序化访问的服务,一份结构清楚的说明文件,可能帮助特定代理理解:

网站提供哪些功能;
文档入口在哪里;
接口如何调用;
哪些内容允许自动化访问;
如何完成搜索、筛选或查询操作。

但这种价值更接近“工具说明”和“服务交互”,而不是“搜索排名优化”。

例如,一个AI代理已经进入某个电商网站后,需要知道如何搜索产品、筛选规格、比较选项或加入购物车。此时,面向代理的交互协议可能比简单的内容摘要更有意义。

这也是本期播客讨论中隐含的一个重要方向:

未来AI代理需要的,可能不是另一份静态网页,而是一套能够安全执行操作的标准化接口。

不过,这一方向仍处在发展阶段。WebMCP等方案值得关注,但不应在行业标准尚未形成之前,被包装成已经确定的SEO要求。

这期播客对GEO意味着什么

本期讨论并不意味着GEO不存在,也不意味着网站不需要考虑AI系统。

它真正否定的是一种过度简化的GEO思路:

只要增加Markdown、llms.txt、问答段落或某种AI标签,就能提高大模型引用概率。

GEO如果要成为一个可靠的工作体系,不能只建立在新格式上,而应当回到信息质量和证据体系。

一个更可信的GEO框架,应当至少包括:

让内容可以被发现

页面需要有稳定URL、内部链接和清晰的网站结构。重要内容不能只存在于交互组件、登录区域或无法发现的文件中。

让内容可以被理解

标题层级、页面主题、实体名称、属性关系、图片说明和结构化数据需要保持清楚一致。

让内容可以被验证

事实需要有来源,产品参数需要保持一致,研究结论需要说明方法,作者和企业身份需要能够核实。

让内容具有引用价值

网站需要提供其他页面无法轻易替代的信息,例如原创数据、实际测试、完整参数、操作流程、真实案例和明确结论。

让页面真正服务用户

内容不能为了机器读取而被切割成缺少上下文的句子。用户仍然需要完整解释、比较依据、风险说明和决策支持。

GEO不是把内容改写成机器喜欢的格式,而是提高信息在不同检索、生成和引用系统中的可发现性、可理解性与可验证性。

网站现在应该怎么做

对于绝大多数企业网站、内容网站和外贸独立站,没有必要因为AI焦虑,立即为全部页面建立Markdown副本。

更合理的优先顺序是:

第一,检查核心页面是否能够被正常抓取和渲染。
第二,改善网站导航、分类和内部链接。
第三,保证HTML中包含完整且有意义的核心内容。
第四,清理重复、过期和相互矛盾的信息。
第五,为重要结论补充来源、数据和验证方法。
第六,统一产品参数、企业信息和实体名称。
第七,检查结构化数据是否与页面可见内容一致。
第八,持续分析日志、Search Console和真实用户行为。

如果这些基础问题还没有解决,增加Markdown和llms.txt通常不会改变网站的根本竞争力。

对于准备尝试llms.txt的团队,也不必将其视为禁区。可以把它作为实验,但需要设置清晰的验证条件:

它是否被目标AI服务实际访问?
访问频率是多少?
是否带来可识别的引用或转化?
维护成本是多少?
是否与HTML内容保持同步?
是否产生重复、安全或合规风险?

没有监测、没有对照、没有结果验证的技术部署,只能算跟风,不能算策略。

真正值得记住的五个结论

第一,HTML仍然是公开网页发现和理解的基础。

AI搜索的发展,并没有让正常网页结构失效。导航、内部链接、语义标签和页面关系仍然具有价值。

第二,Markdown可以使用,但不是已证实的AI排名捷径。

它适合文档生产和特定技术场景,但没有充分证据表明,建立Markdown副本会直接改善Google或AI搜索表现。

第三,llms.txt目前不是AI时代的robots.txt。

它尚未形成统一支持和稳定用途,也不能替代抓取、索引、站点地图和正常网页发现机制。

第四,为AI删除网页上下文,可能适得其反。

内部链接、导航、视觉说明、页面层级和站点结构并非无关噪声,它们帮助系统理解内容处于什么环境之中。

第五,与其增加机器专用副本,不如先提高原始网页质量。

更清晰的HTML、更完整的信息、更可靠的证据和更好的用户体验,同时有利于传统搜索、AI搜索和真实用户。

结语:AI搜索时代,不要急着为机器复制一个互联网

每一次搜索技术发生变化,行业都会试图寻找一个简单的新入口。

过去是关键词密度、Meta Keywords和批量外链;现在可能是Markdown、llms.txt和AI专用页面。

这些探索并非毫无价值,但问题在于,我们很容易把“值得实验”提前说成“必须部署”,再把“技术可能性”包装成“排名确定性”。

Google这期《Search Off the Record》带来的真正提醒是:

不要因为AI能够读取另一种格式,就假设网站必须为AI重新制作一遍。

一个网站最重要的资产,仍然是公开、稳定、结构清楚的页面;真实、准确、能够验证的信息;以及用户和机器都能理解的内容关系。

AI搜索确实正在改变内容被发现和使用的方式。

但在标准尚未形成之前,最稳健的策略不是追逐每一个新文件,而是让网站本身成为一个更清楚、更可信、更值得引用的信息源。

未来真正获得AI可见度的网站,不一定是最早添加llms.txt的网站,而更可能是那些长期提供可靠信息、完整上下文和真实价值的网站。

最近文章

网站是否需要为AI做专门适配?

Google最新回应Markdown与llms.txt:AI搜索时代,网站真的需要为机器重做一遍吗? 当生成式AI开始进入搜索、内容发现和网页交互之后,一个新的建站观点正在流行: 为了让ChatGPT、Gemini、Claude等大语言模型更容易理解网站,企业是否应该把HTML页面再转换成Markdown?是否需要建立一套专门面向AI的内容版本?llms.txt会不会成为AI时代的robots.txt? 这些问题听起来很前沿,也很容易让网站负责人产生焦虑。尤其是在GEO、AEO和AI [...]

MECE原则与外贸独立站解决方案页写作指南!

MECE原则与外贸独立站解决方案页写作指南:把“产品合集页”写成客户愿意信任的场景决策页 外贸独立站的解决方案页,很多时候被写成了“产品合集页”。 页面标题写着Solution,里面却只是放几个产品卡片,再加几句“we provide [...]

Google 6月17日文档更新解读

Google 6月17日文档更新解读:网站换域名,不能只迁移“看得见的主站” 6月17日,Google Search [...]

目录