学习路径:
- Python数据预处理(一)一抽取多源数据文本信息
- Python开发简单爬虫
- Hacking tool
- 数据分析:pandas、statsmodels(科学研究建模)、sklearn(数据挖掘)
学习笔记
《[Python数据预处理》–伏草惟存
(一)抽取多源数据文本信息
- 将原始数据装入预处理黑匣子,产生出高质量数据用来适应相关技术或者算法模型。
(二)清洗文本数据
(三)文本特征向量化
(四)特征降维与可视化
《Python开发简单爬虫》–公众号_蚂蚁学Python
课程介绍
爬虫简介
简单爬虫架构
URL管理器
网页下载器
- URLlib2库-Python官方基础库
- 下载方法1:urlopen()
- 添加data和http header提交用户需要输入的数据
- requests-第三方包,功能更强大