赶紧收藏！全面盘点人工智能专业术语梳理

↑↑↑ 点击上方蓝字

关注AI世界公众号

专注AI的新媒体，分享AI领域的新思想。

半个多世纪的某个夏天，麦卡锡、明斯基等众科学家们举办了一次Party，共同研究用机器模拟智能的问题，也是在那时，“人工智能（AI）”的理念正式被提出！

如今人工智能商业化正在快速推进中，比如我们熟悉的图像识别、语音识别、自然语言理解等都已被应用到众多领域中。

但相关概念的了解程度，相信多数人还只停留在「听说过」、「知道」这一阶段。为此，我们整理了一批领域内相关术语，从 A 到 Z，希望能让你对人工智有更清晰和全面的认识。大数据作为人工智能发展的基石，部分概念也会在下文中有所涉及。

# A #

聚合(Aggregation) – 搜索、合并、显示数据的过程。

算法(Algorithms) – 一组用于人工智能、神经网络或其他机器的规则或指令，以帮助它自己学习；分类、聚类、推荐和回归是四种最常见的类型。

分析法(Analytics) – 用于发现数据的内在涵义。

异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”，用来表示异常的词有以下几种：outliers，exceptions，surprises，contaminants。他们通常可提供关键的可执行信息。

人工智能（Artificial intelligence）– 机器模拟人类智力和行为做出决策、执行任务的能力。

人工神经网络（ANN）– 这种学习模型，模拟人脑运作，从而解决传统计算机系统难以解决的任务。

自主计算（Autonomic computing）– 系统自适应自我管理自身资源用于高级计算功能的能力，而无需用户输入。

# B #

行为分析法(Behavioural Analytics) – 这种分析法是根据用户的行为如“怎么做”、“为什么这么做”、以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式。

大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人。

生物测定术(Biometrics) – 根据个人的特征进行身份识别。

B字节 (BB: Brontobytes) – 约等于 1000 YB(Yottabytes)，相当于未来数字化宇宙的大小。1 B字节包含了 27 个 0！

商业智能(Business Intelligence) – 是一系列理论、方法学和过程，使得数据更容易被理解。

# C #

分类分析(Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据。

云计算(Cloud computing) – 构建在网络上的分布式计算系统，数据是存储于机房外的（即云端）。

聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果。

复杂结构的数据(Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据，这类数据不能简单地由结构化查询语言或工具(SQL)解析。

相关性分析(Correlation analysis) – 是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关。

聊天机器人（Chatbots）– 聊天机器人（简称chatbot）通过文本对话、语音命令来模拟与人类用户进行对话。它们是有AI功能的计算机程序的常用界面。

认知计算（Cognitive computing）– 一种模仿人类大脑思维方式的计算模型。通过使用数据挖掘、自然语言处理和模式识别来进行自学习（self-learning）。

卷积神经网络（CNN）– 一种识别和处理图像的神经网络。

# D #

数据挖掘（Data mining）– 通过查看数据集以发现和挖掘其中模式，从而进一步使用数据。

数据科学（Data science）– 结合统计、信息科学、计算机科学的科学方法、科学系统和科学过程的交叉学科，通过结构化或非结构化数据提供对现象的洞察。

决策树（Decision tree）– 一个基于分支的树模型，绘制决策及其可能后果的模型图，与流程图类似。

深度学习（Deep learning）– 机器通过由层叠信息层组成的人工神经网络自主模仿人类思维模式的能力。

数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库。

数据库即服务(Database-as-a-Service) – 部署在云端的数据库，即用即付，例如亚马逊云服务(AWS: Amazon Web Services)。

数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

数据道德准则(Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化，保证数据的简洁、安全及隐私。

数据订阅(Data feed) – 一种数据流，例如Twitter订阅和RSS

数据建模(Data modelling) – 使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义。

数据集(Data set)– 大量数据的集合。

数据虚拟化(Data virtualization) – 数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。

去身份识别(De-identification) – 也称为匿名化(anonymization)，确保个人不会通过数据被识别。

判别分析(Discriminant analysis) – 将数据分类；按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。

分布式文件系统(Distributed File System) – 提供简化的，高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据。

# E #

探索性分析(Exploratory analysis) – 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

E字节(EB: Exabytes) – 约等于 1000 PB(petabytes), 约等于 1 百万 GB。如今全球每天所制造的新信息量大约为 1 EB。

提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库。

# F #

Fluent – 一种可随时间变化的条件。

故障切换(Failover) – 当系统中某个服务器发生故障时，能自动地将运行任务切换到另一个可用服务器或节点上。

容错设计(Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。

# G #

游戏 AI（Game AI）– 使用算法替代随机性的一种适用于游戏的AI特定形式。这种计算行为用于非玩家角色（NPC），对于玩家的操作生成类似人类的智力和基于反应的行为。

图形数据库(Graph Databases) – 运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。

网格计算(Grid computing) – 将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。

# H #

Hadoop – 一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。

Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用。

HDFS – Hadoop分布式文件系统(Hadoop Distributed File System)，是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

# I #

内存数据库(IMDB: In-memory) – 一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。

物联网(Internet of Things) – 在普通的设备中装上传感器，使这些设备能够在任何时间任何地点与网络相连。

# J #

法律上的数据一致性(Juridical data compliance) – 当你使用的云计算解决方案，将你的数据存储于不同的国家或不同的大陆时，就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。

# K #

键值数据库(KeyValue Databases) – 数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

知识工程（Knowledge engineering）– 侧重于建立以知识为基础的系统，包括科学、技术和社会在内的所有方面。

# L #

延迟(Latency) – 表示系统时间的延迟。

负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上，以获得最优结果和最大的系统利用率。

位置信息(Location data) – GPS信息，即地理位置信息。

日志文件(Log file) – 由计算机系统自动生成的文件，记录系统的运行过程。

# M #

M2M数据(Machine2Machine data) – 两台或多台机器间交流与传输的内容。

机器数据(Machine data) – 由传感器或算法在机器上产生的数据。

机器智能（Machine intelligence）– 涵盖机器学习、深度学习和古典学习算法在内的总括术语。

机器感知（Machine perception）– 系统接收和解释来自外部世界数据的能力，类似于人类使用感官。这通常需要借助外接硬件完成，尽管软件也同样需要。

机器学习(Machine learning) – 人工智能的一部分，专注于算法，允许机器在不经过编程的情况下学习，并随着新数据的摄入而改变。

MapReduce – 是处理大规模数据的一种软件框架(Map: 映射，Reduce: 归纳)。

大规模并行处理(MPP: Massively Parallel Processing) – 同时使用多个处理器(或多台计算机)处理同一个计算任务。

元数据(Metadata) – 被称为描述数据的数据，即描述数据数据属性(数据是什么)的信息。

MongoDB – 一种开源的非关系型数据库(NoSQL database)。

多维数据库(Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序，优化数据仓库的一种数据库。

多值数据库(MultiValue Databases) – 是一种非关系型数据库(NoSQL), 一种特殊的多维数据库：能处理 3 个维度的数据。主要针对非常长的字符串，能够完美地处理 HTML 和 XML 中的字串。

# N #

自然语言处理(Natural Language Processing) – 是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。

网络分析(Network analysis) – 分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。

NewSQL – 一个优雅的、定义良好的数据库系统，比 SQL 更易学习和使用，比 NoSQL 更晚提出的新型数据库。

NoSQL – 顾名思义，就是“不使用 SQL ”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据。

# O #

对象数据库(Object Databases) – (也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarative programming)访问对象。

基于对象图像分析(Object-based Image Analysis) – 数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。

操作型数据库(Operational Databases) – 这类数据库可以完成一个组织机构的常规操作，对商业运营非常重要，一般使用在线事务处理，允许用户访问、收集、检索公司内部的具体信息。

优化分析(Optimization analysis) – 在产品设计周期依靠算法来实现的优化过程，在这一过程中，公司可以设计各种各样的产品并测试这些产品是否满足预设值。

本体论(Ontology) – 表示知识本体，用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(数据被提高到哲学的高度，被赋予了世界本体的意义，成为一个独立的客观数据世界)。

异常值检测(Outlier detection) – 异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。

# P #

模式识别(Pattern Recognition) – 通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测。

P字节(PB: Petabytes) – 约等于 1000 TB(terabytes), 约等于 1 百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为 1 PB。

平台即服务(PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务。

预测分析(Predictive analysis) – 大数据分析方法中最有价值的一种分析方法，这种方法有助于预测个人未来(近期)的行为，例如某人很可能会买某些商品，可能会访问某些网站，做某些事情或者产生某种行为。通过使用各种不同的数据集，例如历史数据，事务数据，社交数据，或者客户的个人信息数据，来识别风险和机遇。

公共数据(Public data) – 由公共基金创建的公共信息或公共数据集。

# Q #

数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为。

# R #

循环神经网络（RNN）– 一种理解顺序信息、识别模式、并根据这些计算产生输出的神经网络。

再识别(Re-identification) – 将多个数据集合并在一起，从匿名化的数据中识别出个人信息。

回归分析(Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(自变量，因变量，二者不可互换)。

RFID – 射频识别，这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据。

实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据。

推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

路径分析(Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的。

# S #

半结构化数据(Semi-structured data) – 半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题。

监督学习（Supervised learning）– 机器学习的一种，其输出数据集训练机器产生所需的算法，如老师监督学生；比无监督学习更常见。

群体行为（Swarm behavior）– 从数学建模者的角度来看，这是从个体遵循的简单规则衍生出的新生行为，不涉及任何集中协调。

相似性搜索(Similarity searches) – 在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据。

智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态，有助于提高效率。

软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件。

空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律。

SQL – 在关系型数据库中，用于检索数据的一种编程语言。

结构化数据(Structured data) -可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。

# T #

T字节(TB: Terabytes) – 约等于 1000 GB(gigabytes)。1 TB容量可以存储约 300 小时的高清视频。

时序分析(Time series analysis) – 分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。

拓扑数据分析(Topological Data Analysis)– 拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。

交易数据(Transactional data) – 随时间变化的动态数据。

透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。

# U #

非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。

无监督学习（Unsupervised learning）– 一种机器学习算法，通过不带标签响应的输入数据组成的数据集进行推理。最常见的无监督学习方法是聚类分析。

# V #

价值(Value) – (大数据 4V 特点之一) 所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

可变性(Variability) – 也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。

多样(Variety) – (大数据 4V 特点之一) 数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据。

高速(Velocity) – (大数据 4V 特点之一) 在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。

真实性(Veracity) – 数据的正确性。组织机构需要确保数据的真实性，才能保证数据分析的正确性。

可视化(Visualization) – 只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。

大量(Volume) – (大数据 4V 特点之一) 指数据量，范围从Megabytes至Brontobytes。

# X #

XML数据库(XML Databases) – XML 数据库是一种以XML格式存储数据的数据库。XML 数据库通常与面向文档型数据库相关联，开发人员可以对XML 数据库的数据进行查询，导出以及按指定的格式序列化。

# Y #

Y字节 (Yottabytes) – 约等于 1000 ZB (Zettabytes)，约等于 250 万亿张 DVD 的数据容量。现今，整个数字化宇宙的数据量为 1 YB，并且将每 18 年翻一番。

# Z #

Z字节 (ZB: Zettabytes) – 约等于 1000 EB (Exabytes), 约等于 1 百万 TB。

-END-

后台回复“5G”或“资料”免费获取海量学习资料

申请加入“AI世界产业研究院”社群

我知道你们都“在看”哦！

赶紧收藏！全面盘点人工智能专业术语梳理

相关阅读

AI产业研究中心

AI产业研究中心

举报文章问题

举报评论问题

用户登录×