架构设计
全系使用python实现。因为都是python的类库,互相之间调用方便。
从数据抓取,数据处理,到数据展示数据运算都是python实现。
最终的数据都到前端展示出来。主要分为4个文件夹。
jobs 抓取数据并存储实现类。
libs 通用工具类。
web 前端展示框架。
tf 机器学习文件夹,推测数据。
项目使用hdf5 数据格式进行存储。如果要是单机跑数据。需要将服务部署到一起。
要是分布式部署需要使用 nfs 或者存储到,分布式的文件系统上。
将服务拆分。分开跑数据。
hdf5数据格式本身就是压缩的。所以会节省磁盘空间。
然后在安装年月日的目录进行拆分。初期估计也不会太多,完全可以单机跑起来。
所以数据可以存储为:/data/stock/yyyy/yyyMM/yyyyMMdd.hdf5
或者可以使用mysql+分区表存储数据。也可以实现存储股票数据。
并且速度也挺快的。
核心功能
最核心的功能是预测。
计算
pandas
可视化
poltly
金融指标计算
stockstats
http://wiki.mbalib.com/
机器学习
scikit-learn
量化计算
QuantLib
整合库
quantos
数据
opendata
参考资料
http://tushare.org/index.html