笔记 20 数据科学与python简介
20.1 数据科学
- 核心:数据处理
- 研究对象:实际问题(跨学科)
- 方法:统计学 计算机科学 专业领域
- 数据科学家:
- 统计学水平高的程序员
- 编程水平高的统计学家
- 学术好奇心
- 沟通交流能力
- 产品经理
20.2 工作流程
- 数据收集
- 数据整理
- 数据探索
- 数据建模
- 模型评价
- 结果交流
20.3 PYTHON 入门
- 基础数据类型 NULL
- 数值类型
- int
- float
- bool(逻辑运算)
- 列表
- 从0开始
- 元素可变
- ()赋值为Tuples类型 元素不可变
- 字符串
- 文本处理
- python专长
- 字典
- {}包含
- : 指定属性值
- python中对象均有类型 可自定义
20.4 Python 工具包
- Numpy 数值计算包
- Pandas 数据清洗 缺失值 切分
- MatPlotLib 数据可视化
- sklearn 机器学习包
20.5 探索性数据分析
- ACES model
Letter | Step | Notes |
---|---|---|
A | Acquire the data and Assemble the data frame | Find data, import into Pandas |
C | Clean the data frame | Identify and limit columns, rows, indices, dates, etc. |
E | Explore global properties | Visualize! Basic plots and stats appropriate to the data set |
S | Subset comparisons | Look at (visualize!) initial emergenet variable relationships and subsets |
20.6 常见模型
- 线性模型
- 分类问题:logistic模型与朴素贝叶斯模型
- 无监督主成分分析
- 无监督聚类
20.6.1 高级模型
- 模型打包组合技术:bagging boosting 随机森林
- 支持向量机
- 深度神经网络