架构设计

全系使用python实现。因为都是python的类库,互相之间调用方便。

从数据抓取,数据处理,到数据展示数据运算都是python实现。

最终的数据都到前端展示出来。主要分为4个文件夹。

jobs 抓取数据并存储实现类。

libs 通用工具类。

web 前端展示框架。

tf 机器学习文件夹,推测数据。

项目使用hdf5 数据格式进行存储。如果要是单机跑数据。需要将服务部署到一起。

要是分布式部署需要使用 nfs 或者存储到,分布式的文件系统上。

将服务拆分。分开跑数据。

hdf5数据格式本身就是压缩的。所以会节省磁盘空间。

然后在安装年月日的目录进行拆分。初期估计也不会太多,完全可以单机跑起来。

所以数据可以存储为:/data/stock/yyyy/yyyMM/yyyyMMdd.hdf5

或者可以使用mysql+分区表存储数据。也可以实现存储股票数据。

并且速度也挺快的。

核心功能

最核心的功能是预测。

计算

pandas

可视化

poltly

金融指标计算

stockstats

http://wiki.mbalib.com/

机器学习

scikit-learn

量化计算

QuantLib

example

整合库

quantos

数据

opendata

参考资料

http://tushare.org/index.html

tushare-pro