简单爬虫的实现

本博客 hjy-xh,转载请申明出处

背景介绍

本着自娱自乐的心态做的一个仓库,方便以后总结归纳

我为什么做这个东西

每次手动更新过于繁琐,使用该脚本用于自动该仓库相关 Issue 的问答信息同步到源码中,解放双手,爱护键盘 ⌨️

u1s1,就是太懒了

主要模块

爬取流程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
s=>start: 开始
op1=>operation: 输入需要同步的Issue编号
op2=>operation: 确认是否改动相关源码
op3=>operation: 爬取页面信息
cond1=>condition: 判断该Issue是否填写相关信息
op4=>operation: 脚本改动源码
op5=>operation: Git提交相关操作
exit=>operation: 脚本退出
e=>end: 结束

s->op1->op2->op3->cond1->op4->op5->e
cond1(yes)->op4
cond1(no)->exit
exit->e

核心实现

  • 获取 DOM 节点的内容
  • 更新目标文件
  • 定制 (硬编码) 提交记录