Sitemap 修复总结

✅ 已完成的修复

1. 配置文件更新

  • 文件: _config.yml
  • 修改: 添加了 urlbaseurl 配置
    url: "https://aichina.me"
    baseurl: ""
    

2. Robots.txt 创建

  • 文件: robots.txt
  • 内容:
    • 允许所有搜索引擎抓取
    • 排除不必要的目录(assets、bundle、vendor)
    • 指向 sitemap.xml 位置
    • 支持主流搜索引擎(Google、Bing、百度、360、搜狗)

3. 文档创建

  • 文件: SEO_SETUP_GUIDE.md
  • 内容: 完整的搜索引擎提交指南
    • Google Search Console 设置步骤
    • Bing Webmaster Tools 设置步骤
    • 百度搜索资源平台设置步骤
    • 验证和监控建议
    • 常见问题解答

📋 Sitemap 状态

当前配置

  • 插件: jekyll-sitemap(已启用)
  • 生成位置: /sitemap.xml
  • 访问地址: https://aichina.me/sitemap.xml
  • Robots.txt: https://aichina.me/robots.txt

Sitemap 内容

自动包含:

  • 网站首页
  • 所有 _pages 目录下的页面
  • 所有文章(如果有)

自动排除:

  • _config.ymlexclude 列出的目录
  • _ 开头的文件

🎯 下一步操作

1. 部署到 GitHub Pages

提交并推送代码后,sitemap 将在生产环境使用正确的 URL。

2. 验证网站所有权

按照 SEO_SETUP_GUIDE.md 中的步骤:

  • Google Search Console
  • Bing Webmaster Tools
  • 百度搜索资源平台

3. 提交 Sitemap

在各搜索引擎平台提交 sitemap.xml

4. 监控收录情况

  • 定期检查 Search Console
  • 关注抓取错误
  • 优化页面内容

📊 预期效果

收录时间

  • Google: 3-7 天
  • Bing: 5-10 天
  • 百度: 1-4 周

提升效果

  • ✅ 搜索引擎可以自动发现所有页面
  • ✅ 更快的索引速度
  • ✅ 更好的搜索排名
  • ✅ 更高的网站可见性

🔍 验证方法

本地测试

# 检查 sitemap
curl http://localhost:4000/sitemap.xml

# 检查 robots.txt
curl http://localhost:4000/robots.txt

生产环境测试

# 检查 sitemap
curl https://aichina.me/sitemap.xml

# 检查 robots.txt
curl https://aichina.me/robots.txt

在线工具

📝 注意事项

开发环境

在本地开发时,sitemap 可能显示 localhost:4000,这是正常的。部署到 GitHub Pages 后会自动使用正确的 URL。

GitHub Pages

确保仓库设置中已启用 GitHub Pages,并且:

  • Source 设置为 academic 分支
  • Custom domain 设置为 aichina.me
  • HTTPS 已启用

更新频率

  • Sitemap 会在每次构建时自动更新
  • 添加新页面后无需手动更新 sitemap
  • 搜索引擎会定期重新抓取 sitemap

🛠️ 故障排除

Sitemap 不显示所有页面

检查 _config.yml 中的 exclude 配置

URL 不正确

确认 _config.ymlurlbaseurl 设置正确

Robots.txt 无法访问

确认文件在根目录,且 Jekyll 配置中没有排除它

搜索引擎未收录

  • 确认已提交 sitemap
  • 等待足够的时间
  • 检查是否有抓取错误
  • 提高内容质量

✅ 完成状态

  • 修复 _config.yml URL 配置
  • 创建 robots.txt
  • 编写 SEO 设置指南
  • 验证 sitemap 生成
  • 验证 robots.txt 可访问
  • 提交代码到 GitHub
  • 验证生产环境 sitemap
  • 提交到搜索引擎