博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
入门爬虫的干货
阅读量:5730 次
发布时间:2019-06-18

本文共 1007 字,大约阅读时间需要 3 分钟。

hot3.png

如果学会了python的基本语法,我认为入门爬虫是很容易的。 我写的第一个爬虫大概只需要10分钟,自学的 scrapyd , 看官方文档花了20分钟,因为我英文不是很好,很多单词需要搜索一下。

(scrapy 并不是入门必须的) 再接触到了 requests , lxml ,配合基本库 urllib, urllib2 就几乎无所不能了。后来有人推荐我用 BeatufulSoup 之类的库,但其实原理都差不多。一、入门爬虫的干货 0. 爬虫的基本思路 a. 通过URL或者文件获取网页, b. 分析要爬取的目标内容所在的位置 c. 用元素选择器快速提取(Raw) 目标内容 d. 处理提取出来的目标内容 ( 通常整理合成一个 Json) e. 存储处理好的目标内容 (比如放到 MongoDB 之类的数据库,或者写进文件里。)

  1. 为什么我入门爬虫那么快?

答:我自己总结了一下,在接触爬虫之前:

a. 我挺了解HTTP 协议(看了《HTTP权威指南》), b. 我写过基于Flask框架的后端(大概三年前@ 在知乎上推荐Flask框架,然后我就自学了,用的是《Flask Web开发:基于Python的Web应用开发实战 》) c. 我写过前端(HTML+CSS+JS),了解什么是DOM ,会一点jquery。 d. 正则也是勉强够用的。 e. 本人大学也是计算机专业,学习挺认真的。 f. 所以算是厚积薄发。

2.那么毫无专业基础,也没有前后端基础的人应该怎么办?

答:那当然要超过半小时啦。先花点时间去大概了解以下内容:

a. HTTP协议的请求方法,请求头部,请求数据 b. 大概了解一下什么是 cookie c. 学一点HTML和元素选择器 d. 学会使用Chrome 的 开发者工具 磨刀不误砍柴工,当然如果有人带着,这些大概1-2小时就能过到能凑合用的程度了。如果没人带,就上网搜索学习一下,也很快的,估摸最多十小时。

3.Python 爬虫常用的库是哪些?入门应该掌握哪些库? 答:网上有很多相关的资料,但是我个人觉得新入门的人,不需要也不应该一下子接触所有的库。正如幼儿刚开始学说话的时候,不应该同时教普通话粤语闽南语英语。 我个人认为,学会 requests 和 lxml ,就可以入门爬虫了。

转载于:https://my.oschina.net/u/3720197/blog/1570267

你可能感兴趣的文章
nginx+tomcat实现负载均衡
查看>>
mysql 行转列列转行
查看>>
《设计模式系列》---桥接模式
查看>>
[Unity3d]Shader 着色器 学习前了解知识
查看>>
Linux中文件颜色所代表的属性和颜色
查看>>
Redrain duilib中事件委托存在的问题
查看>>
43、我的C#学习笔记9
查看>>
网站建表实践及优化
查看>>
字符串的简单操作
查看>>
C#新功能--命名参数与可选参数
查看>>
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(22)-权限管理系统-模块导航制作...
查看>>
strtok和strtok_r
查看>>
维辰超市:借助云商城成功转型新零售
查看>>
[Linux]Web性能测试http_load
查看>>
Airbnb 宣布放弃使用 React Native,回归使用原生技术
查看>>
中外RFID技术差异何在?
查看>>
web.xml中<load-on-start>n</load-on-satrt>作用
查看>>
python之路---进程
查看>>
1061. Dating (20)
查看>>
页面留白问题
查看>>