Sitemap 修复总结
✅ 已完成的修复
1. 配置文件更新
- 文件:
_config.yml - 修改: 添加了
url和baseurl配置url: "https://aichina.me" baseurl: ""
2. Robots.txt 创建
- 文件:
robots.txt - 内容:
- 允许所有搜索引擎抓取
- 排除不必要的目录(assets、bundle、vendor)
- 指向 sitemap.xml 位置
- 支持主流搜索引擎(Google、Bing、百度、360、搜狗)
3. 文档创建
- 文件:
SEO_SETUP_GUIDE.md - 内容: 完整的搜索引擎提交指南
- Google Search Console 设置步骤
- Bing Webmaster Tools 设置步骤
- 百度搜索资源平台设置步骤
- 验证和监控建议
- 常见问题解答
📋 Sitemap 状态
当前配置
- 插件: jekyll-sitemap(已启用)
- 生成位置:
/sitemap.xml - 访问地址: https://aichina.me/sitemap.xml
- Robots.txt: https://aichina.me/robots.txt
Sitemap 内容
自动包含:
- 网站首页
- 所有
_pages目录下的页面 - 所有文章(如果有)
自动排除:
_config.yml中exclude列出的目录- 以
_开头的文件
🎯 下一步操作
1. 部署到 GitHub Pages
提交并推送代码后,sitemap 将在生产环境使用正确的 URL。
2. 验证网站所有权
按照 SEO_SETUP_GUIDE.md 中的步骤:
- Google Search Console
- Bing Webmaster Tools
- 百度搜索资源平台
3. 提交 Sitemap
在各搜索引擎平台提交 sitemap.xml
4. 监控收录情况
- 定期检查 Search Console
- 关注抓取错误
- 优化页面内容
📊 预期效果
收录时间
- Google: 3-7 天
- Bing: 5-10 天
- 百度: 1-4 周
提升效果
- ✅ 搜索引擎可以自动发现所有页面
- ✅ 更快的索引速度
- ✅ 更好的搜索排名
- ✅ 更高的网站可见性
🔍 验证方法
本地测试
# 检查 sitemap
curl http://localhost:4000/sitemap.xml
# 检查 robots.txt
curl http://localhost:4000/robots.txt
生产环境测试
# 检查 sitemap
curl https://aichina.me/sitemap.xml
# 检查 robots.txt
curl https://aichina.me/robots.txt
在线工具
📝 注意事项
开发环境
在本地开发时,sitemap 可能显示 localhost:4000,这是正常的。部署到 GitHub Pages 后会自动使用正确的 URL。
GitHub Pages
确保仓库设置中已启用 GitHub Pages,并且:
- Source 设置为
academic分支 - Custom domain 设置为
aichina.me - HTTPS 已启用
更新频率
- Sitemap 会在每次构建时自动更新
- 添加新页面后无需手动更新 sitemap
- 搜索引擎会定期重新抓取 sitemap
🛠️ 故障排除
Sitemap 不显示所有页面
检查 _config.yml 中的 exclude 配置
URL 不正确
确认 _config.yml 中 url 和 baseurl 设置正确
Robots.txt 无法访问
确认文件在根目录,且 Jekyll 配置中没有排除它
搜索引擎未收录
- 确认已提交 sitemap
- 等待足够的时间
- 检查是否有抓取错误
- 提高内容质量
✅ 完成状态
- 修复 _config.yml URL 配置
- 创建 robots.txt
- 编写 SEO 设置指南
- 验证 sitemap 生成
- 验证 robots.txt 可访问
- 提交代码到 GitHub
- 验证生产环境 sitemap
- 提交到搜索引擎