“集智课程”的版本间的差异

来自集智百科
跳转到: 导航搜索
数据科学入门教程
数据科学心法与机器学习实战
第538行: 第538行:
  
 
===数据科学心法与机器学习实战===
 
===数据科学心法与机器学习实战===
 
+
*1 数据无处不在
 
+
:*1.1 预测未来是人类的天性
 +
:*1.2 数据能为/不能为我们作什么?
 +
:*1.3 你该知道的15种数据推断与决策的低级错误
 +
:*1.4 从大数据切换至深度学习该注意的思维转变?
 +
*2 数据科学的方法论:定义商业问题、定义分析数据
 +
:*2.1 CRISP-DM 6大步骤
 +
:*2.2 如何将商业问题正确的转化为数据问题
 +
:*2.3 什么是预测?
 +
:*2.4 定义数据分析的时间窗
 +
:*2.5 取数的基本原则
 +
:*2.6 如何正确定义样本
 +
:*2.7 还有哪些外部数据是能够帮助我的?
 +
*3 数据科学的方法论:数据预处理
 +
:*3.1 传统的数据预处理原则
 +
:*3.2 数据基础探索(Data Explore Analysis)
 +
:*3.3 千万别误用的统计观念
 +
:*3.4 数据可视化
 +
:*3.5 概率分布、极端值与离群值
 +
:*3.6 数据转换
 +
:*3.7 数据清洗原则
 +
:*3.8 数据降维与特征选取
 +
:*3.9 深度学习中的数据预处理原则
 +
*4 分类问题的建模与评估方法
 +
:*4.1 分类问题:logistics regression, 随机森林算法, svm
 +
:*4.2 分类问题案例:金融信用评级、精准营销
 +
:*4.3 处理分类问题的关键
 +
:*4.4 如何评估分类模型
 +
:*4.5 欠拟合与过拟合
 +
:*4.6 实作:运用python演练分类问题
 +
*5 推估问题的建模与评测方法
 +
:*5.1 推估问题:回归、神经网络、时间序列
 +
:*5.2 推估问题案例:不动产价格预测、电力需求预测
 +
:*5.3 如何处理与时间周期相关的数据
 +
:*5.4 如何找出数值间的潜在关联
 +
:*5.5 如何评估推估模型
 +
:*5.6 实作:运用python演练推估问题
 +
*6 相似性问题的建模与评估方法
 +
:*6.1 相似性问题:聚类、最近邻居法
 +
:*6.2 无监督学习与监督式学习
 +
:*6.3 如何弭平人类感受与机器计算的相似性之间的落差
 +
:*6.4 找寻相似与相异
 +
:*6.5 处理聚类问题的关键步骤:降维
 +
:*6.6 实作:运用python演练聚类问题
 +
*7 数据科学实务案例:运营商如何基于数据留住客户
 +
:*7.1 运营商如何用数据设定留住客户的天罗地网
 +
:*7.2 从识别流失到找出能打动客户的理由
 +
:*7.3 模型结果如何与营销结合
 +
:*7.4 如何从庞大特征中找出关键特征
 +
:*7.5 如何监控模型有效性
 +
*8 数据科学实务案例:金融行业的案例建模与评估
 +
:*8.1 金融行业的信用评级模型
 +
:*8.2 过去二十年来标准的评分卡是怎么做的
 +
:*8.3 大数据与深度学习如何处理信用
 +
:*8.4 新巴赛尔协议中的风险观点
 +
:*8.5 如何将信用评分结果转换为征授信策略
 +
:*8.6 如何评估模型以及提前预警模型失效
 +
*9 数据科学实务案例:推荐算法的案例建模与评估
 +
:*9.1 产品内容推荐:购物车规则、协同式过滤、消费行为向量表征
 +
:*9.2 推荐算法的前世今生
 +
:*9.3 推荐算法实践案例:电商产品推荐
 +
:*9.4 网络行为的追踪机制
 +
:*9.5 我能透过网页收集哪些数据
  
 
== 人工智能思维拓展系列课程==
 
== 人工智能思维拓展系列课程==

2019年8月16日 (五) 22:43的版本

Buissness集智学园封面.jpg


目录

基础通识专题

PyThon入门系列教程

  • 安装Python
  • 基本功能:print、基础数学运算、variable
  • while / for循环
  • if else 判断
  • 定义函数、函数参数、默认参数
  • 全局变量
  • 外部模块安装
  • 读写文件
  • class 类、类的 init 功能
  • 使用 input 处理输入
  • 元组和列表
  • list 列表
  • dictionary 字典
  • 多维列表
  • 引入模块
  • 自定义模块
  • 使用continue和break
  • try 错误处理
  • zip lambda map
  • 浅谈复制、深复制
  • 使用 pickle 保存数据
  • 使用 set 找不同

Numpy|Pandas数据处理神器

  • 为什么要使用 Numpy 和 Pandas
  • 安装方法
  • Numpy 的基本属性
  • 创建 Numpy 的 array
  • Numpy 基础运算 #1
  • Numpy 基础运算 #2
  • Numpy 使用索引
  • Numpy 合并 array
  • Numpy 分割 array
  • Numpy 复制和深复制
  • Pandas 基本介绍
  • Pandas 选择数据
  • Pandas 设置值
  • Pandas 处理丢失数据
  • Pandas 导入导出数据
  • Pandas 使用 concat 合并数据
  • Pandas 使用 merge 合并数据
  • Pandas 使用 plot 建立图表

Tensorflow 入门系列教程

  • 什么是神经网络
  • 为什么选 Tensorflow
  • 安装Tensorflow
  • 神经网络在干嘛
  • Tensorflow的处理结构
  • 会话控制
  • Variable 变量
  • Placehoder 传入值
  • 激励函数
  • 机器翻译原理简介
  • 添加层: add_layer()
  • 建造神经网络
  • 结果可视化
  • 优化器:optimizer
  • 网络可视化:Tensorboard
  • Classification 分类学习
  • Dropout 解决 过拟合
  • 卷积神经网络:CNN
  • 神经网络的保存和读取
  • 循环神经网络:RNN
  • 回归问题的可视化
  • 无监督学习:Autoencoder
  • scope 命名方法
  • 批标准化:Batch Normalization

机器学习神经网络入门

  • 什么是机器学习
  • 什么是神经网络模型
  • 什么是卷积神经网络
  • 什么是循环神经网络 RNN
  • 什么是 LSTM RNN
  • 什么是自编码器
  • 什么是生成式对抗网络(GAN)


计算机视觉专题

计算机视觉与深度学习

  • 1 计算机视觉中的深度学习概述
  • 1.1 人工神经网络的发展简史与现状
  • 1.2 神经网络基本组成:全连接、卷积、池化、激活函数
  • 1.3 深度学习常用技术:数据预处理、网络初始化、过拟合抑制、优化器与学习率
  • 1.4 计算机视觉的热门任务:图像分类、物体检测、图像分割、风格转换、图像生成、视频类等
  • 1.5 深度学习常用平台
  • 2 机器学习中的归一化
  • 2.1 神经网络常见特征归一化技术
  • 2.2 特征归一化技术的应用场景
  • 3 激活函数、过拟合抑制、其他网络训练的黑科技
  • 3.1 激活函数发展历史
  • 3.2 激活函数的定义、性质
  • 3.3 激活函数的实例:优缺点和应用场景分析。
  • 3.4 dropout等其他过拟合抑制技术
  • 3.5 数据预处理、网络初始化、损失函数、优化器与学习率
  • 4 常用深度神经网络模型简介
  • 4.1 热门判别模型结构:包括 NIN, Inception, ResNet, DenseNet等。
  • 5 进阶模型:GAN与AutoEncoder
  • 5.1 热门生成模型结构:包括 Autoencoder等
  • 5.2生成模型与判别模型的结合:GAN
  • 6 典型应用——物体检测
  • 6.1 物体检测一般流程
  • 6.2 物体检测常见技术
  • 6.3 主流物体检测框架
  • 7 深度实例分析——可控人脸变换和高准确率人脸识别
  • 7.1 特征提取与分离的基本概念
  • 7.2 本方法通过学习提取特征的具体流程
  • 7.3 方法效果展示与分析

PyTorch入门 ——计算机视觉

  • 1 当“深度学习”遇上Pytorch
  • 1.1 深度学习、机器学习
  • 1.2 反向传播算法在神经网络中的作用
  • 1.3 深度学习算法中的架构与训练方法
  • 1.4 两种最重要的深度网络:CNN、RNN
  • 1.5 深度学习的本质
  • 2 “共享单车”需要我
  • 2.1 神经网络预测器1
  • 2.1.1 神经元细胞
  • 2.1.2 神经网络
  • 2.1.3 神经网络的工作原理
  • 2.2 神经网络预测器2
  • 2.2.1 数据预处理
  • 2.2.2 利用Pytorch构建神经网络
  • 2.2.3 预测结果及其分析
  • 2.3 对神经网络的解剖
  • 2.4 神经网络分类器
  • 3 我卷卷卷——卷积神经网络
  • 3.1 将卷积过程理解为模板匹配
  • 3.2 卷积核与特征图的对应
  • 3.3 池化操作
  • 3.4 Dropout:防止过拟合的一种方法
  • 3.5 数据集:训练、校验、测试
  • 3.6 卷积神经网络的代码实现
  • 4 神经网络如何“移情别恋”——迁移学习
  • 4.1 迁移学习
  • 4.2 迁移学习的两种方式
  • 4.3 预训练的方式效果更好
  • 4.4 风格迁移
  • 4.4.1 让内容和风格相差最小
  • 4.4.2 Gram矩阵的计算
  • 5 “镜像网络”与“猫鼠游戏”
  • 5.1 图像生成
  • 5.2 反卷积操作的内容与含义
  • 5.3 GAN——一套新的机器学习框架
  • 5.4 优化技巧:Adam、batch normalization 、权重初始化、激活函数


GAN专题论文研读

  • 1 基础原理之GAN的诞生
  • 1.1 引言
  • 1.1.1 GAN产生的大环境
  • 1.1.2 其它相关方法
  • 1.2 核心思想
  • 1.3 优化目标的有效性
  • 1.4 优化方法的有效性
  • 1.5 实验分析&后续工作
  • 1.6 总结:文章特色&GAN特色
  • 2 GAN的数据生成篇
  • 2.1 GAN的数据生成——从无到有:条件式
  • 2.1.1 InfoGAN
  • 2.1.2 cGAN
  • 2.1.3 DCGAN
  • 2.2 GAN的数据生成——从无到有:渐进式
  • 2.2.1 LAPGAN
  • 2.2.2 StackGAN
  • 2.2.3 pix2pix
  • 2.2.4 pix2pixHD
  • 2.3 GAN的数据生成——从A到B的迁移学习
  • 2.3.1 cycleGAN
  • 2.3.2 DualGAN
  • 2.3.3 DiscoGAN
  • 2.3.4 StarGAN
  • 3 GAN的模型训练篇
  • 3.1 GAN”不好训“的理论分析
  • 3.1.1 问题一:D无法提供梯度帮助
  • 3.1.2 问题二:训练效果不稳定
  • 3.2 WGAN:GAN 的理论改进
  • 3.2.1 KL距离、JS距离、TV距离的不合理性
  • 3.2.2 Wasserstein距离的合理性、连续性及证明
  • 3.2.3 Wassertein距离的近似计算与近似条件
  • 3.2.4 WGAN的优化目标与优化过程
  • 3.2.5 WGAN与GAN相比的优点
  • 3.3 DCGAN:基于启发式的 GAN 训练技巧
  • 3.3.1 DCGAN
  • 3.3.2 Improved Techniques for Training GANs
  • 3.4 D2GAN:从 GAN 结构出发改善训练效果
  • 3.4.1 KL距离与 reverse-KL距离
  • 3.4.2 D2GAN 的工作原理及公式分析
  • 3.4.3 D2GAN 效果的实验验证
  • 4 GAN的典型应用
  • 4.1 perceptual loss中图像生成任务应用的核心优势:
  • 4.1.1 DNN前向推断的高效性
  • 4.1.2 优化目标:feature map的鲁棒性
  • 4.2 在迁移学习与超分辨率任务中perceptual loss的应用
  • 4.3 generating videos with scene dynamics
  • 4.3.1 用对抗的方法生成视频
  • 4.3.2 从大量无标签视频数据中
  • 4.3.3 双流结构学习其中的一些dynamics
  • 4.3.4 方法特色:利用时空卷积结构;前景、背景分开建模
  • 4.4 cross-domain的image caption
  • 4.4.1 强化学习
  • 4.4.2 对抗训练
  • 4.4.3 domain critic and multi-modal critic
  • 5 GAN的特征学习
  • 5.1 两类传统无监督学习方法介绍
  • 5.1.1 产生式无监督学习方法
  • 5.1.2 判别式无监督学习方法
  • 5.2 无标签样本集合的问题分析与解决方法
  • 5.2.1 缺乏真实标签时如何定义划分标准的好坏
  • 5.2.2 GAN 的判别器 D 只能辨真假,不能分类别
  • 5.3 CatGAN 中生成器 G 和判别器 D 的表达式
  • 5.3.1 无监督形式
  • 5.3.2 半监督形式:增加一项交叉损失项
  • 6 GAN的姿态迁移
  • 6.1 目标域无标签的无监督领域自适应问题
  • 6.2 双判别器生成对抗网络的设计架构
6.2.1 生成对抗学习
  • 6.2.2 带有分类约束的判别器
  • 7 GANImation
  • 7.1 论文的主要贡献:
  • 7.1.1 可以控制到每个AU(action unit)的幅度,而不只是离散的集中表情
  • 7.1.2 引入注意力机制,增强鲁棒性
  • 7.2 模型的整体框架
  • 7.2.1 生成器结构
  • 7.2.2 判别器结构
  • 7.2.3 损失函数
  • 7.2.4 具体实现
  • 8 GAN论文串讲
  • 8.1 GAN前期课程的回顾
  • 8.2 2018年GAN的新进展
  • 8.3 时令论文解读:非监督式学习的视频解耦表示


自然语言处理专题

中文自然语言理解(NLU)在金融领域的应用

  • 1 从中文NLP码农到中文NLU世界
  • 1.1 自然语言处理(NLP)到自然语言理解(NLU)的任务差异
  • 1.2 语言难在哪?中文又难在哪?
  • 1.3 深度学习如何产生语意表征
  • 1.4 RNN, LSTM, GRU用序列的角度理解语言
  • 1.5 作业项目:词神林夕养成计划
  • 2 从语言序列中判断语义
  • 2.1 序列到序列(Seq2Seq)模型观念
  • 2.2 不只教建模,当然还要教标注
  • 2.3 注意力(Attention)重新发明了序列到序列
  • 2.4 作业项目:学习做好语言标注的基本功
  • 3 对语言最强大的降维攻击武器——词向量
  • 3.1 Bengio的神经概率语言模型(NPLM)
  • 3.2 Word2Vec技术介绍
  • 3.3 制作词向量的数据清洗
  • 3.4 还有哪些有趣的语言向量?
  • 3.5 捡拾低垂的语意果子--类比推理、实体枚举
  • 3.6 知识图谱抽取、同义字推断
  • 3.7 降维可视化
  • 3.8 作业项目:掐头去尾找重点:投研报告打开的正确方式
  • 4 用机器视觉解放长文本
  • 4.1 谁说中文必须要分词,让机器学会「看中文」
  • 4.2 中文的造字法则,如何能让形音义三位一体
  • 4.3 用字向量从分词任务中解脱
  • 4.4 文字卷积(Text CNN)进行语意识别
  • 4.5 从卷积的角度看语言
  • 4.6 中文的数据增强技巧
  • 4.7 作业项目:使用文字卷积评估长文本语意
  • 5 别忘了这些传统NLP任务
  • 5.1 温故而知新,被遗忘的依存句法分析
  • 5.2 句法结构来判读歧异
  • 5.3 从句法结构到复杂实体关系理解
  • 5.4 作业项目:人脑搞晕的股权结构关系,没关系有深度学习在
  • 6 提枪上战场:基于自然语言理解的交易信号预测
  • 6.1 情感序列识别或者是篇章情感识别
  • 6.2 深度特征到市场预测
  • 6.3 解决过拟合
  • 6.4 结业项目:基于自然语言理解的交易信号预测

PyTorch入门 ——自然语言理解

  • 1 词汇的星空
  • 1.1 NLP总体介绍
  • 1.2 词向量介绍
  • 1.3 Bengio的神经概率语言模型(NPLM)
  • 1.3.1 NPLM的Pytorch实现
  • 1.3.2 《三体》中的词向量
  • 1.3.3 中文分词与预处理
  • 1.3.4 运用Sklearn包进行PCA降维
  • 1.4 Word2Vec技术介绍
  • 1.4.1 Skip Gram模型
  • 1.4.2 负采样技术
  • 1.4.3 gensim的Word2Vec包
  • 1.4.4 加载大型词向量
  • 1.4.5 降维可视化
  • 1.4.6 运用词向量进行类比推理
  • 1.4.7 运用词向量进行查询与搜索

2 机器也懂感情?

  • 2.1 文本分类任务介绍
  • 2.2 词袋模型分类器
  • 2.2.1 京东购物评论页面的抓取
  • 2.2.2 大型语料的生成与预处理
  • 2.2.3 训练、校验与测试数据集的划分
  • 2.2.4 构造词袋向量
  • 2.2.5 利用PyTorch构造神经网络
  • 2.2.6 解剖词袋神经网络
  • 2.2.7 词袋神经网络为何会犯错?
  • 2.3 RNN
  • 2.3.1 什么是RNN?
  • 2.3.2 RNN工作基本原理
  • 2.3.3 手工实现一个RNN
  • 2.3.4 RNN的缺点
  • 2.4 LSTM
  • 2.4.1 什么是LSTM?
  • 2.4.2 LSTM的工作原理
  • 2.4.3 如何运用PyTorch实现一个LSTM?

3 神经网络莫扎特——LSTM

  • 3.1 走进序列的世界
  • 3.2 教会LSTM上下文无关语法
  • 3.2.1 有限状态自动机
  • 3.2.2 上下文无关语法
  • 3.2.3 梯度爆炸与梯度消失
  • 3.2.4 LSTM的本质是什么?
  • 3.2.5 LSTM如何学会上下文无关语法?
  • 3.2.6 LSTM的变种GRU
  • 3.3 LSTM作曲家
  • 3.3.1 MIDI音乐的本质是什么?
  • 3.3.2 mido包:用Python操纵MIDI音乐
  • 3.3.3 音乐生成器的设计与训练
  • 3.3.4 PyTorch中如何使用GPU?
  • 3.3.5 Floyd——一个好用、便宜的GPU计算平台

4 彩云小译——机器翻译

  • 4.1 彩云小译简介
  • 4.2 机器翻译概述
  • 4.3 神经机器翻译原理
  • 4.3.1 双向LSTM
  • 4.3.2 编码器-解码器解构
  • 4.3.3 注意力机制概述
  • 4.3.4 Beam search原理
  • 4.4 神经机器翻译的PyTorch实现
  • 4.4.1 双语语料的准备
  • 4.4.2 双向LSTM的实现
  • 4.4.3 注意力机制的实现
  • 4.4.4 翻译效果的评估
  • 4.5 机器翻译++
  • 4.5.1 机器翻译的最新进展
  • 4.5.2 看图说话

5 游戏高手

  • 5.1 为什么要让AI玩游戏?
  • 5.2 强化学习简介
  • 5.3 深度强化学习原理
  • 5.3.1 深度强化学习的多种途径
  • 5.3.2 DQN网络工作原理
  • 5.3.3 DQN表现结果
  • 5.4 DQN玩Flappy Bird的PyTorch实现
  • 5.4.1 PyGame:用Python模拟游戏的包
  • 5.4.2 Flappy Bird的Python实现
  • 5.4.3 DQN的PyTorch实现
  • 5.4.4 效果评估
  • 5.5 我们离通用AI还有多远?
  • 5.5.1 Marcus Hutte的AIXI简介
  • 5.5.2 哥德尔机是否是终极?

如何打造你自己的聊天机器人

  • 1 聊天机器人的前世今生
  • 1.1 聊天机器人的分布与功能
  • 1.2 常见的聊天机器人应用
  • 1.3 聊天机器人的知识库与个人化
  • 1.4 梳理传统聊天机器人和当下聊天机器人的异同
  • 2 聊天机器人的关键技术
  • 2.1 基于检索的聊天机器人架构解析
  • 2.2 基于生成模型的聊天机器人构架解析
  • 2.3 RNN、LSTM语言模型简介
  • 2.4 序列模型、编码器解码器简介
  • 2.5 语言生成任务的挑战
  • 2.6 注意力机制
  • 2.7 分析开发聊天机器人中的基础框架、重要概念和关键技术
  • 3 任务驱动型聊天机器人
  • 3.1 任务驱动型聊天机器人的结构回顾
  • 3.2 NNDIAL工作流程分析及源码解析
  • 3.3 基于注意力机制的生成模型
  • 3.4 CamRest676对话数据集
  • 3.5 任务驱动型聊天机器人的经典工作
  • 4 开放领域聊天机器人
  • 4.1 基于检索的聊天机器人
  • 4.1.1 语料特征及特征来源
  • 4.1.2 比较语句的相似性
  • 4.1.3 相似语句语料:Quora
  • 4.2 基于检索的聊天机器人的训练流程
  • 4.2.1 数据预处理
  • 4.2.2 特征工程,特征统计与关键特征提取
  • 4.3 基于检索的多轮对话机器人
  • 4.3.1 架构原理及代码解析
  • 4.4 基于生成模型的聊天机器人
  • 4.4.1 基本架构分析
  • 4.4.2 RNN、LSTM、Seq2Seq、Encoder-Decoder
  • 4.4.3 注意力机制
  • 4.5 基于生成模型的相关工作和技术难点
  • 5 聊天机器人与外部知识
  • 5.1 聊天机器人的常识性知识系统
  • 5.2 聊天机器人的记忆系统(上下文与历史对话)
  • 5.3 聊天机器人的情绪/个人化
  • 5.4 改进聊天机器人用户体验的相关工作
  • 6 聊天机器人与增强学习
  • 6.1 基于增强学习的聊天机器人的最终任务
  • 6.2 基于增强学习的对话系统结构分析
  • 6.3 KB-InfoBot原理解析
  • 6.4 Soft-KB Lookup via Attention
  • 6.5 强化学习中的状态(State):Belief Tracker
  • 6.6 增强学习中可采取的技巧

自然语言处理与深度学习

  • 1 Word2Vec:词向量技术的基础与模型
  • 1.1 词嵌入问题以及目前词嵌入方法的分类
  • 1.2 Word2Vec的简单历史与介绍
  • 1.3 CBOW和Skip-Gram算法简介
  • 1.4 Skip-Gram的工作原理
  • 1.5 负采样及其目的
  • 2 Word2Vec:编码与实践
  • 2.1 Google版本Word2Vec使用方法及程序中各个参数的含义
  • 2.2 Gensim版本的Word2Vec的使用及代码、数据集、在线资源、可视化方法等
  • 3 词嵌入的相关问题
  • 3.1 Glove:通过上下文和当前词的共同出现次数的算法
  • 3.1.1 Glove的全局性与Word2Vec的局部性
  • 3.2 Word2Vec的局限性及解决方法
  • 3.3 更多解决词嵌入问题的方法
  • 3.3.1 可解释的关系、语法资源、非单词单元的嵌入
  • 3.3.2 非英语的嵌入问题
  • 4 神经网络基础
  • 4.1 神经网络的发展历史
  • 4.1.1 从MP模型到Hebb学习率、Hopfield网络
  • 4.1.2 CNN模型,ImageNet比赛和深度学习
  • 4.2 多层感知机
  • 4.2.1 什么是多层感知机、XOR问题、多层感知机的激活函数
  • 4.2.2 什么是反向传播算法、梯度下降算法,以及自适应梯度下降算法
  • 4.3 正则化防止过拟合
  • 4.3.1 根据贝叶斯理论来选择正则化的形式
  • 5 RNN在自然语言处理中的应用
  • 5.1 RNN的发展历程:从Hopfield Network到GRU
  • 5.2 RNN的结构及其训练
  • 5.2.1 RNN中的反向传播算法
  • 5.2.2 梯度消失问题
  • 5.3 RNN在NLP中应用
  • 5.3.1 语言模型、序列标注、翻译、对话等
  • 6 自然语言中的RNN实战
  • 6.1 深度学习流行框架
  • 6.1.1 偏向底层化Torch、Theano、TensorFlow
  • 6.1.2 模块化或高层次的Keras、Lasagne、Blocks
  • 6.2 古诗词生成
  • 6.2.1 古诗词生成的基本框架、生成模型的基本介绍
  • 6.2.2 N-Gram、基于RNN的语言模型
  • 6.3 自然语言处理的相关任务
  • 6.3.1 命名实体识别、语词标注、句法分析
  • 6.3.2 注意力机制、记忆机制
  • 7 自然语言处理中的卷积神经网络
  • 7.1 自然语言处理中的CNN的特点
  • 7.1.1 提炼语言中的多层次信息
  • 7.1.2 考虑多个词汇的各种可能组合
  • 7.2 CNN的工作原理
  • 7.2.1 卷积操作、池化操作、特征图(feature map)
  • 7.3 自然语言处理中的CNN模型变种和改进
  • 7.3.1 动态池化、可变窗口大小、字符级别的CNN模型、高速公路网络
  • 8 情感分析
  • 8.1 情感分析介绍
  • 8.1.1 什么是情感分析,应用场景,以及语义相关任务的分类
  • 8.2 语义分析的框架
  • 8.3 语义分析数据集:Stanford Sentiment Treebank
  • 8.4 Deep Averaging Network(DAN)模型
  • 9 机器翻译
  • 9.1 机器翻译的技术背景与最新进展
  • 9.2 编码-解码框架
  • 9.3 注意力机制
  • 9.4 残差网络
  • 9.5 特殊的辅助机制
  • 9.6 机制翻译的最新进展
  • 10 自然语言生成
  • 10.1 语言生成发展简史
  • 10.1.1 早期的模板匹配、语言模板
  • 10.1.2 生成春联、天气预报、看图说话
  • 10.1.3 故事生成、机器自动对话
  • 10.2 语言生成的主流框架
  • 10.2.1 基于编码-解码(Encoder-decoder)框架到端到端(End2End)架构
  • 10.2.2 可变编码-解码(Variational encoder-decoder)方法
  • 10.2.3 可变自编码(Variational autoencoder)方法
  • 10.3 语言生成的常见问题
  • 10.3.1 语义漂移、高频模式、文不对题等,以及相应的解决方案
  • 10.4 谷歌对话系统Allo架构

数据科学专题

数据科学入门教程

  • 1 什么是机器学习?
  • 1.1 机器学习的基础框架
  • 1.2 监督式学习与非监督式学习
  • 1.3 欠拟合与过拟合
  • 1.4 机器学习的不同学派
  • 1.5 从机器学习到深度学习
  • 2 机器学习能为我们做些什么?
  • 2.1 机器学习中「输入」与「输出」的概念
  • 2.2 什么是监督式学习与非监督式学习
  • 2.3 什么是数据的测量
  • 2.4 机器学习的主要规则(算法)形态
  • 2.5 哪些是千万别犯的错误推论
  • 3 如何对数据问正确的问题
  • 3.1 如何定义一个“好问题”
  • 3.2 人与机器解决问题的方法差异
  • 3.3 如何清楚定义一个输出目标变量
  • 3.4 透过训练-测试两组数据来验证是否为规则
  • 4 占卜、语言与预测
  • 4.1 关联性与因果性
  • 4.2 明确事件发生的时间先后顺序的逻辑
  • 4.3 做有意义的预测
  • 4.4 数据科学是关于时间的科学
  • 4.5 如何规划一个预测问题的现在、过去与未来
  • 5 样本的玄机
  • 5.1 选择样本一定要具有代表性
  • 5.2 大数据帮助我们更好理解世界
  • 5.3 样本选取的原则
  • 5.3.1 样本需要覆盖完整的时窗周期
  • 5.3.2 排除常识,找到真正需要分析的对象
  • 5.3.3 将样本分割为训练集与测试集
  • 5.3.4 训练模型时最好黑白分明
  • 6 数据的清洗术
  • 6.1 数据清洗流程回顾
  • 6.2 数据颗粒度把控
  • 6.3 需要被处理的类型数据及变量类型转换
  • 6.4 数据正规化
  • 6.5 缺失数据、噪声处理及深度学习的优势
  • 7 分类算法
  • 7.1 分类算法的基础思想
  • 7.2 Logistic 回归
  • 7.3 决策树与随机森林
  • 7.4 支持向量机
  • 7.5 不要用的分类评价指标
  • 7.6 正确评价分类算法

数据科学心法与机器学习实战

  • 1 数据无处不在
  • 1.1 预测未来是人类的天性
  • 1.2 数据能为/不能为我们作什么?
  • 1.3 你该知道的15种数据推断与决策的低级错误
  • 1.4 从大数据切换至深度学习该注意的思维转变?
  • 2 数据科学的方法论:定义商业问题、定义分析数据
  • 2.1 CRISP-DM 6大步骤
  • 2.2 如何将商业问题正确的转化为数据问题
  • 2.3 什么是预测?
  • 2.4 定义数据分析的时间窗
  • 2.5 取数的基本原则
  • 2.6 如何正确定义样本
  • 2.7 还有哪些外部数据是能够帮助我的?
  • 3 数据科学的方法论:数据预处理
  • 3.1 传统的数据预处理原则
  • 3.2 数据基础探索(Data Explore Analysis)
  • 3.3 千万别误用的统计观念
  • 3.4 数据可视化
  • 3.5 概率分布、极端值与离群值
  • 3.6 数据转换
  • 3.7 数据清洗原则
  • 3.8 数据降维与特征选取
  • 3.9 深度学习中的数据预处理原则
  • 4 分类问题的建模与评估方法
  • 4.1 分类问题:logistics regression, 随机森林算法, svm
  • 4.2 分类问题案例:金融信用评级、精准营销
  • 4.3 处理分类问题的关键
  • 4.4 如何评估分类模型
  • 4.5 欠拟合与过拟合
  • 4.6 实作:运用python演练分类问题
  • 5 推估问题的建模与评测方法
  • 5.1 推估问题:回归、神经网络、时间序列
  • 5.2 推估问题案例:不动产价格预测、电力需求预测
  • 5.3 如何处理与时间周期相关的数据
  • 5.4 如何找出数值间的潜在关联
  • 5.5 如何评估推估模型
  • 5.6 实作:运用python演练推估问题
  • 6 相似性问题的建模与评估方法
  • 6.1 相似性问题:聚类、最近邻居法
  • 6.2 无监督学习与监督式学习
  • 6.3 如何弭平人类感受与机器计算的相似性之间的落差
  • 6.4 找寻相似与相异
  • 6.5 处理聚类问题的关键步骤:降维
  • 6.6 实作:运用python演练聚类问题
  • 7 数据科学实务案例:运营商如何基于数据留住客户
  • 7.1 运营商如何用数据设定留住客户的天罗地网
  • 7.2 从识别流失到找出能打动客户的理由
  • 7.3 模型结果如何与营销结合
  • 7.4 如何从庞大特征中找出关键特征
  • 7.5 如何监控模型有效性
  • 8 数据科学实务案例:金融行业的案例建模与评估
  • 8.1 金融行业的信用评级模型
  • 8.2 过去二十年来标准的评分卡是怎么做的
  • 8.3 大数据与深度学习如何处理信用
  • 8.4 新巴赛尔协议中的风险观点
  • 8.5 如何将信用评分结果转换为征授信策略
  • 8.6 如何评估模型以及提前预警模型失效
  • 9 数据科学实务案例:推荐算法的案例建模与评估
  • 9.1 产品内容推荐:购物车规则、协同式过滤、消费行为向量表征
  • 9.2 推荐算法的前世今生
  • 9.3 推荐算法实践案例:电商产品推荐
  • 9.4 网络行为的追踪机制
  • 9.5 我能透过网页收集哪些数据

人工智能思维拓展系列课程

迎接AI时代

人工智能创业与未来社会

机器学习思维

复杂系统专题

系统科学概论

复杂性思维

复杂系统中的幂律分布

个人工具
名字空间
操作
导航
工具箱