当前位置:首页>编程日记>正文

python与excel结合能做什么-Python网络爬虫与文本数据分析

原标题:Python网络爬虫与文本数据分析

python与excel结合能做什么-Python网络爬虫与文本数据分析 配图01

课程介绍

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

数据的获取

文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

课程试听

课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~

试听二维码

目录

一、准备阶段

Win中的Python配置

Mac中的Python配置

二、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

三、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

实战:大众点评

实战:豆瓣读书

实战:Boss直聘

如何解析json数据

实战: 豆瓣电影

实战: 京东商城

如何用爬虫下载文档及多媒体文件

上市公司定期报告pdf批量下载

爬虫知识点总结

补充-用pandas采集表格数据

四、数据分析

Pandas基础知识

数据去重与缺失值处理

合并数据

重塑数据

选取表中指定记录(行)

选取表中指定字段(列)

描述性统计

在表中创建新字段(列)

批操作apply与agg

透视表pivot_table

数据分组groupby

时间序列时间点创建

日期数据的dt属性

日期行索引操作(选取指定日期的数据)

时间序列date_range

时间序列重采样resample

时间序列时间窗口rolling

实战:Kaggle titanic数据集探索性分析

实战:Boss直聘Python岗位分析

五、初识文本分析

文本分析在经管领域中的应用概述(1)

读取不同格式文件中的数据

实战:实战之如何将多个整理到一个excel中

中文分词及数据清洗

实战:词频统计

实战:中文情感分析(词典法)

实战:对excel中的文本进行情感分析

实战:共现法扩展情感词典(领域词典)

六、机器学习与文本分析

了解机器学习

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

实战:在线评论文本分类

文本相似性计算

实战:使用文本相似性识别变化(政策连续性)

实战:Kmeans聚类算法

实战:LDA话题模型

简化版的LDA

文本分析在经管领域中的应用概述(2)

领券购买

扫码领券购买

学习方式

电脑端学习,浏览器百度搜【腾讯课堂】,微信扫码登录账号,即可观看学习

手机端学习,安装【腾讯课堂app】,微信扫码登录账号,即可观看学习 返回搜狐,查看更多

责任编辑:


http://www.coolblog.cn/news/23cd4cae3ad69f9e.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • mysql commit 机制_1024MySQL事物提交机制
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • jquery 使用小技巧
  • 2019-9
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 科学计算工具NumPy(3):ndarray的元素处理
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • linux批量创建用户和密码
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • js常用阻止冒泡事件
  • 气泡图在开源监控工具中的应用效果
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • 【设计模式】 模式PK:策略模式VS状态模式
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • CSS小技巧——CSS滚动条美化
  • JS实现-页面数据无限加载
  • 阿里巴巴分布式服务框架 Dubbo
  • 最新DOS大全
  • Django View(视图系统)
  • 阿里大鱼.net core 发送短信
  • 程序员入错行怎么办?
  • 两张超级大表join优化
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 《看透springmvc源码分析与实践》读书笔记一
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • Arm芯片的新革命在缓缓上演
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 行为模式之Template Method模式
  • 通过Spark进行ALS离线和Stream实时推荐