- web3127
- AI114
- NLP75
- Math37
- Deep Learning29
- ML20
- Metaverse11
- Althgorim10
- Blockchain7
- Bitcoin6
- WEB36
- BlockChain3
- Graph3
- OCR2
DN4j is N-Dimensional Arrays for Java.
主要特点
-
多用途多维数组对象
-
多平台功能,包括GPU
-
线性代数和信号处理功能
由于易用性上存在的缺口,Java、Scala 和 Clojure 编程人员无法充分利用NumPy或Matlab等数据分析方面最强大的工具。
Breeze 等其他库则不支持多维数组或张量,而这却是深度学习和其他任务的关键。
ND4J 和 ND4S 正得到国家级实验室的使用,以完成气候建模等任务。这类任务要求完成计算密集的模拟运算。
Deeplearning4j示例所使用的基准数据集不会对数据加工管道造成任何障碍,因为我们已通过抽象化将这些障碍去除。
但在实际工作中,用户接触的是未经处理的杂乱数据,需要先预处理、向量化,再用于定型神经网络,进行聚类或分类。
DataVec是我们的机器学习向量化库,可以按神经网络的学习需求定制数据预加工方法。(DataVec Javadoc)
加载标签
深度学习领域最难解决的问题之一和神经网络本身没有关系:这个问题就是如何获取格式恰当的合适数据。
深度学习和其他类型的机器学习都需要优质的定型数据集才能正常运作。定型数据集是大量已知数据的集合,它的收集和建立需要时间,
也需要特定领域的专业知识——要懂得从何处、以何种方式来收集有意义的信息。定型数据集在深度学习网络的定型过程中起到基准的作用。
网络先要学习重构定型集中的数据,然后才能去处理从未遇到过的数据。
在定型阶段,具备相关知识的人类需要找到合适的原始数据并将其转换为深度学习算法所能理解的数值表示形式,即向量。
建立定型数据集的过程可以算是“预预定型”。
DataVec帮助克服机器学习及深度学习实现过程中最重大的障碍之一:将数据转化为神经网络能够识别的格式。
神经网络所能识别的是向量。
因此,对许多数据科学家而言,在开始用数据定型自己的算法之前,首先必须要解决向量化的问题。
如果您的数据以CSV(逗号分隔值)格式储存在平面文件中,必须先转换为数值格式再加以摄取,又或者您的数据是一些有标签的图像的目录结构,
那么 DataVec 这款工具就可以帮助您组织数据,以供在Deeplearning4J中使用。
主要特点
-
DataVec 采用输入/输出格式系统(就像Hadoop MapReduce用InputFormat来确定具体的InputSplit和RecordReader一样,
DataVec也会用不同的RecordReader来将数据序列化) -
支持所有主要的输入数据类型(文本、CSV、音频、图像、视频),每种类型都有相应的输入格式
-
采用输出格式系统来指定一种与实现无关的向量格式(ARFF、SVMLight等)
-
可以为特殊输入格式(如某些罕见的图像格式)进行扩展;也就是说,您可以编写自定义的输入格式,让余下的基本代码来处理转换加工管道
-
让向量化成为“一等公民”
-
内置数据转换及标准化工具
神经网络需要处理的数据有许多种不同的来源和类型,例如日志文件、文本文档、表格数据、图像、视频等。
神经网络数据加工的目标是将各类数据转换为一系列存放于多维数组(Multi-Dimensional Array)中的值。
数据可能还需要进行各种预处理,包括转换、缩放、标准化、变换、合并、划分为定型与测试数据集、随机排序等。本页主要介绍目前可用的数据加工工具及其使用方法。
-
记录读取器
-
标准化器
-
转换
自动编码器是一种用于降维的神经网络,这也就是说,它可以用于特征选择和提取。
隐藏层数量多于输入的自动编码器有可能会学习恒等函数(输出直接等于输入的函数),进而变得无用。
降噪自动编码器是基本自动编码器的一种扩展,是加入了随机因素的自动编码器。降噪自动编码器采用对输入进行随机污染(即引入噪声)的方式来减少学习恒等函数的风险,
自动编码器必须将污染后的输入重构,或称降噪。
受限玻尔兹曼机由 Geoff Hinton 发明,
是一种用于降维、分类、回归、协同过滤、特征学习和主题建模的算法。
RBM是有两个层的浅层神经网络,它是组成深度置信网络的基础部件。RBM的第一个层称为可见层,又称输入层,而第二个层是隐藏层。
深度自动编码器由两个对称的深度置信网络组成,
其中一个深度置信网络通常有四到五个浅层,构成负责编码的部分,另一个四到五层的网络则是解码部分。
这些层都是受限玻尔兹曼机(RBM),即构成深度置信网络的基本单元,
它们有一些特殊之处,我们将在下文中介绍。以下是简化的深度自动编码器架构示意图,下文会作具体说明。