Apache Hadoop-03-HDFS Distributed File System 分布式文件系统
HDFS
Hadoop文件系统是使用分布式文件系统设计开发的。它运行在商用硬件上。与其他分布式系统不同,HDFS是高度容错的,并且使用低成本硬件设计。
HDFS拥有大量的数据并提供更容易的访问。为了存储这样巨大的数据,文件存储在多个机器。这些文件以冗余方式存储,以在发生故障时避免系统可能的数据丢失。
HDFS还使应用程序可用于并行处理。
特点
它适用于在分布式存储和...
2017-12-04 21:47:35 |
Apache
Apache-Hadoop-02-big data 大数据入门简介
Hadoop 系列教程
主要记录了 Hadoop 各个组件的基本原理,处理过程和关键的知识点
ps: 本文并不是第一次关于 hadoop,本篇内容更倾向于理论和基础知识。
后期会学习 spark,我想二者定有很多相似之处。就从这个入手。
本博客入门过一遍,也提供日后查阅。
Hadoop 拓展
大数据概述
90% 的世界数据...
2017-12-04 21:47:35 |
Apache
Apache Hadoop-01-hello world 入门例子
Hadoop
Apache™ Hadoop® 项目致力于开发可靠、可扩展、分布式计算的开源软件。
该项目包括以下模块:
Hadoop Common:支持其他 Hadoop 模块的通用工具。
Hadoop Distributed File System (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop...
2017-12-04 21:47:35 |
Apache
DL4j-13-data pipeline
构建数据管道
Deeplearning4j示例所使用的基准数据集不会对数据加工管道造成任何障碍,因为我们已通过抽象化将这些障碍去除。
但在实际工作中,用户接触的是未经处理的杂乱数据,需要先预处理、向量化,再用于定型神经网络,进行聚类或分类。
DataVec是我们的机器学习向量化库,可以按神经网络的学习需求定制数据预加工方法。(DataVec Javadoc)
加载标签
Imag...
2017-12-04 11:57:50 |
Deep Learning
DL4j-12-data sets ml
数据集与机器学习
深度学习领域最难解决的问题之一和神经网络本身没有关系:这个问题就是如何获取格式恰当的合适数据。
深度学习和其他类型的机器学习都需要优质的定型数据集才能正常运作。定型数据集是大量已知数据的集合,它的收集和建立需要时间,
也需要特定领域的专业知识——要懂得从何处、以何种方式来收集有意义的信息。定型数据集在深度学习网络的定型过程中起到基准的作用。
网络先要学习重构定型集中的数...
2017-12-03 12:21:35 |
Deep Learning
Glup
Gulp
What is gulp?
Automation - gulp is a toolkit that helps you automate painful or time-consuming tasks in your development workflow.
Platform-agnostic - Integrations are buil...
2017-12-03 12:00:37 |
HTML
VIS
VIS
VIS is A dynamic, browser based visualization library. The library is designed to be easy to use,
to handle large amounts of dynamic data, and to enable manipulation of and interaction with t...
2017-12-03 11:28:00 |
HTML
Coveralls
Coveralls
Coveralls DELIVER BETTER CODE.
前端开源项目持续集成三剑客
Quick Start
login
sign-up, 使用 github 登录。
直接会进行对应授权。
add more repos
添加需要覆盖的代码项目。 ADD SOME REPOS
add .coveralls.yml
如果...
2017-12-02 14:54:35 |
CI