!课堂笔记 很水 建议别看

初探网络爬虫

什么是网络爬虫

  • 通用网络爬虫
  • 聚焦网络爬虫
  • 增量式网络爬虫
  • 深层网络爬虫

数据组织形式

  • 结构化数据
  • 半结构化数据
  • 非结构化数据

应用场景

  • 搜索引擎
  • 舆情监测
  • 聚合平台
  • 出行类软件

合法性探究

  • robots协议
  • 反爬应对策略
    • 模拟UA
    • 降低访问频率
    • 设置IP代理
    • 设置防盗链
    • 识别验证码

实现技术探究

  • python
  • c++
  • scala
  • java
  • r
  • go
  • php