人工智能(artificial intelligence,AI)
指由人制造出来的机器所表现出来的智能。通常人工智能是指通过计算机系统使用数学和逻辑来模拟人类用于学习新信息并进行决策的推理过程。
介绍
- 预计2030预计达到13万亿美元规模,主要对零售、自动驾驶、预测等
- AI可以做什么:Anything you can do with 1 second of thought, we can probably now or soon automate.
- spam filtering
- speech recognition
- machine translation
- online advertising
- Self-driving car
- visual inspection
- 哪些容易实现
- Learning a simple concept
- Lots of data available
- 分类
机器学习(Machine Learning)
:输入 A -> 输出 B 的过程
- Field of study that gives computers the ability to learn without being explicitly programmed (Arthur Samuel, 1959)
- 使计算机无需明确编程就能学习的研究领域
数据科学(Data science)
- science of extracting knowledge and insights from data
- 从数据中提取知识和见解的科学
神经网络(Artificial Neural Network,ANN,人工神经网络)
- 一种人工智能方法,用于教计算机以受人脑启发的方式处理数据
- 这种
机器学习(Machine Learning)
过程,也称为深度学习(Deep learning)
,它使用类似于人脑的分层结构中的互连节点或神经元(neuron)
无监督学习(unsupervised learning)
强化学习 reinforcement learning
图形建模 Graphical models
计划 planning
知识图表 knowledge graph
NLP(Natural Language Processing, 自然语言处理)
是人工智能和语言学领域的分支学科,主要探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。
- 关系
- AI > ML > DL/NN
数据科学(Data science)
会交叉 AI、ML、DL/NN 等
- 数据集越大,神经网络(small/medium/large neural net)规模越大,效果约好
- 按功能分
- 根据数据和过去的经验做出决策(A -> B)
- 识别异常时间
- 解释视觉输入
- 对话和交流
- 语义推理
- 团队
- ML项目可以组建内部团队,也可以外包
- DS项目几乎都组建内部团队
四个主要组成部分
- 专家系统:作为专家处理正在审查的情况,并产生预期或预期的绩效
- 启发式问题解决:包括评估小范围的解决方案,并可能涉及一些猜测,以找到接近最佳的解决方案
- 自然语言处理:在自然语言中实现人机之间的交流
- 计算机视觉:自动生成识别形状和功能的能力
三要素
算法:深度学习框架
AI算力训练框架:
- TensorFlow:一个开源软件库,用于各种感知和语言理解任务的机器学习。
- TensorBoard
Caffe
(快速特征嵌入的卷积结构,Convolutional Architecture for Fast Feature Embedding
)是一个深度学习框架,最初开发于加利福尼亚大学柏克莱分校。Caffe在BSD许可下开源,使用C++编写,带有Python接口。
- CNTK
- PyTorch 是一个开源的Python机器学习库,基于Torch,底层由C++实现,应用于人工智能领域,如自然语言处理。PyTorch主要有两大特征:类似于NumPy的张量计算,可使用GPU加速
- 百度飞桨PaddlePaddle致力于让深度学习技术的创新与应用更简单。具有以下特点:同时支持动态图和静态图,兼顾灵活性和效率;精选应用效果最佳算法模型并提供官方支持;真正源于产业实践,提供业界最强的超大规模并行深度学习能力;推理引擎一体化设计,提供训练到多端推理的无缝对接;唯一提供系统化技术服务与支持的深度学习平台。
- AIStation 是浪潮面向人工智能企业训练场景的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,为用户提供极致高性能的AI计算资源,实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合,有效打通开发环境、计算资源与数据资源,提升开发效率。
- Keras:一个用Python编写的开源神经网络库,能够在TensorFlow、Microsoft Cognitive Toolkit、Theano或PlaidML之上运行。
- MXNet
- H2O
- Scikit-learn
- R
- Weka
算力
按资源位置分:
- Cloud
- on-premises
- Edge(边缘计算),如自动驾驶、语音识别场景,传输数据需要消耗大量网络带宽等
CPU
CPU(Computer process, Central Processing Unit, 中央处理器)
GPU
GPU(Graphics Processing Unit, 图形处理单元)
CUDA (Compute Unified Device Architecture,统一计算设备架构)
是由英伟达 NVIDIA
所推出的一种集成技术,是该公司对于 GPGPU
的正式名称。通过该技术用户可利用 NVIDIA
的 GeForce 8
以后的 GPU
和较新的 Quadro GPU
进行计算。
cuDNN (NVIDIA CUDA® Deep Neural Network library)
是 NVIDIA
专门针对深度神经网络(Deep Neural Networks)
中的基础操作而设计基于 GPU
的加速库。它可以集成到更高级别的机器学习框架中,如Tensorflow等。强调性能、易用性和低内存开销。
CUDA
可以看作是一个工作台,上面配有很多工具,如锤子、螺丝刀等。cuDNN
是基于 CUDA
的深度学习GPU加速库,它就相当于工作的工具,比如扳手。
OpenCV
的全称是 Open Source Computer Vision Library
,是一个跨平台的计算机视觉库。
数据集
Datasets
开发工具
- Kaggle:是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。2017年3月8日谷歌宣布收购Kaggle。
- Arxiv(research publications)
转型的步骤
- 执行试点项目以获得动力(execute pilot project to gain momentum)
- 组件内部的AI团队(Build an in-house AI Team)
- 广泛培训AI(Provide broad AI training)
- 制定AI策略(Develop an AI strategy)
- 发展内部和外部的沟通(Develop internal an external communications)
学习路线
以吴恩达人工智能课:
- AI For Everyone(Coursera)
- Machine Learning(Coursera)
- CS229 Machine Learning(stanford)
- 深度学习专项课程(Deeplearning.ai)
- CS230 Deep Learning(stanford)
- TensorFlow in Pratice(Deeplearning.ai)
- TensorFlow: Data and Deployment(Deeplearning.ai)