Posts
小于 1 分钟
目录
A B测试从0到1
AI技术内参
- 001 _ 聊聊2017年KDD大会的时间检验奖002 _ 精读2017年KDD最佳研究论文003 _ 精读2017年KDD最佳应用数据科学论文004 _ 精读2017年EMNLP最佳长论文之一005 _ 精读2017年EMNLP最佳长论文之二006 _ 精读2017年EMNLP最佳短论文007 _ 精读2017年ICCV最佳研究论文008 _ 精读2017年ICCV最佳学生论文009 _ 如何将“深度强化学习”应用到视觉问答系统?010 _ 精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?011 _ 精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?012 _ 精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?013 _ WSDM 2018论文精读:看谷歌团队如何做位置偏差估计014 _ WSDM 2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息015 _ WSDM 2018论文精读:深度学习模型中如何使用上下文信息?016 _ The Web 2018论文精读:如何对商品的图片美感进行建模?017 _ The Web 2018论文精读:如何改进经典的推荐算法BPR?018 _ The Web 2018论文精读:如何从文本中提取高元关系?019 _ SIGIR 2018论文精读:偏差和“流行度”之间的关系020 _ SIGIR 2018论文精读:如何利用对抗学习来增强排序模型的普适性?021 _ SIGIR 2018论文精读:如何对搜索页面上的点击行为进行序列建模?022 _ CVPR 2018论文精读:如何研究计算机视觉任务之间的关系?023 _ CVPR 2018论文精读:如何从整体上对人体进行三维建模?024 _ CVPR 2018论文精读:如何解决排序学习计算复杂度高这个问题?025 _ ICML 2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉026 _ ICML 2018论文精读:聊一聊机器学习算法的“公平性”问题027 _ ICML 2018论文精读:优化目标函数的时候,有可能放大了“不公平”?028 _ ACL 2018论文精读:问答系统场景下,如何提出好问题?029 _ ACL 2018论文精读:什么是对话中的前提触发?如何检测?030 _ ACL 2018论文精读:什么是“端到端”的语义哈希?复盘 7 _ 一起来读人工智能国际顶级会议论文
- 079 _ 广告系统概述080 _ 广告系统架构081 _ 广告回馈预估综述082 _ Google的点击率系统模型083 _ Facebook的广告点击率预估模型084 _ 雅虎的广告点击率预估模型085 _ LinkedIn的广告点击率预估模型086 _ Twitter的广告点击率预估模型087 _ 阿里巴巴的广告点击率预估模型088 _ 什么是“基于第二价位的广告竞拍”?089 _ 广告的竞价策略是怎样的?090 _ 如何优化广告的竞价策略?091 _ 如何控制广告预算?092 _ 如何设置广告竞价的底价?093 _ 聊一聊“程序化直接购买”和“广告期货”094 _ 归因模型:如何来衡量广告的有效性095 _ 广告投放如何选择受众?如何扩展受众群?096 _ 如何利用机器学习技术来检测广告欺诈?复盘 4 _ 广告系统核心技术模块
- 058 _ 简单推荐模型之一:基于流行度的推荐模型059 _ 简单推荐模型之二:基于相似信息的推荐模型060 _ 简单推荐模型之三:基于内容信息的推荐模型061 _ 基于隐变量的模型之一:矩阵分解062 _ 基于隐变量的模型之二:基于回归的矩阵分解063 _ 基于隐变量的模型之三:分解机064 _ 高级推荐模型之一:张量分解模型065 _ 高级推荐模型之二:协同矩阵分解066 _ 高级推荐模型之三:优化复杂目标函数067 _ 推荐的Exploit和Explore算法之一:EE算法综述068 _ 推荐的Exploit和Explore算法之二:UCB算法069 _ 推荐的Exploit和Explore算法之三:汤普森采样算法070 _ 推荐系统评测之一:传统线下评测071 _ 推荐系统评测之二:线上评测072 _ 推荐系统评测之三:无偏差估计073 _ 现代推荐架构剖析之一:基于线下离线计算的推荐架构074 _ 现代推荐架构剖析之二:基于多层搜索架构的推荐系统075 _ 现代推荐架构剖析之三:复杂现代推荐架构漫谈076 _ 基于深度学习的推荐模型之一:受限波兹曼机077 _ 基于深度学习的推荐模型之二:基于RNN的推荐系统078 _ 基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统复盘 2 _ 推荐系统核心技术模块
- 031 _ 经典搜索核心算法:TF-IDF及其变种032 _ 经典搜索核心算法:BM25及其变种(内附全年目录)033 _ 经典搜索核心算法:语言模型及其变种034 _ 机器学习排序算法:单点法排序学习035 _ 机器学习排序算法:配对法排序学习036 _ 机器学习排序算法:列表法排序学习037 _ “查询关键字理解”三部曲之分类038 _ “查询关键字理解”三部曲之解析039 _ “查询关键字理解”三部曲之扩展040 _ 搜索系统评测,有哪些基础指标?041 _ 搜索系统评测,有哪些高级指标?042 _ 如何评测搜索系统的在线表现?043 _ 文档理解第一步:文档分类044 _ 文档理解的关键步骤:文档聚类045 _ 文档理解的重要特例:多模文档建模046 _ 大型搜索框架宏观视角:发展、特点及趋势047 _ 多轮打分系统概述048 _ 搜索索引及其相关技术概述049 _ PageRank算法的核心思想是什么?050 _ 经典图算法之HITS051 _ 社区检测算法之“模块最大化 ”052 _ 机器学习排序算法经典模型:RankSVM053 _ 机器学习排序算法经典模型:GBDT054 _ 机器学习排序算法经典模型:LambdaMART055 _ 基于深度学习的搜索算法:深度结构化语义模型056 _ 基于深度学习的搜索算法:卷积结构下的隐含语义模型057 _ 基于深度学习的搜索算法:局部和分布表征下的搜索模型复盘 1 _ 搜索核心技术模块
- 127 _ 数据科学家基础能力之概率统计128 _ 数据科学家基础能力之机器学习129 _ 数据科学家基础能力之系统130 _ 数据科学家高阶能力之分析产品131 _ 数据科学家高阶能力之评估产品132 _ 数据科学家高阶能力之如何系统提升产品性能133 _ 职场话题:当数据科学家遇见产品团队134 _ 职场话题:数据科学家应聘要具备哪些能力?135 _ 职场话题:聊聊数据科学家的职场规划136 _ 如何组建一个数据科学团队?137 _ 数据科学团队养成:电话面试指南138 _ 数据科学团队养成:Onsite面试面面观139 _ 成为“香饽饽”的数据科学家,如何衡量他们的工作呢?140 _ 人工智能领域知识体系更新周期只有5~6年,数据科学家如何培养?141 _ 数据科学家团队组织架构:水平还是垂直,这是个问题142 _ 数据科学家必备套路之一:搜索套路143 _ 数据科学家必备套路之二:推荐套路144 _ 数据科学家必备套路之三:广告套路145 _ 如何做好人工智能项目的管理?146 _ 数据科学团队必备的工程流程三部曲147 _ 数据科学团队怎么选择产品和项目?148 _ 曾经辉煌的雅虎研究院149 _ 微软研究院:工业界研究机构的楷模150 _ 聊一聊谷歌特立独行的混合型研究复盘 6 _ 数据科学家与数据科学团队是怎么养成的?
- 097 _ LDA模型的前世今生098 _ LDA变种模型知多少099 _ 针对大规模数据,如何优化LDA算法?100 _ 基础文本分析模型之一:隐语义分析101 _ 基础文本分析模型之二:概率隐语义分析102 _ 基础文本分析模型之三:EM算法103 _ 为什么需要Word2Vec算法?104 _ Word2Vec算法有哪些扩展模型?105 _ Word2Vec算法有哪些应用?106 _ 序列建模的深度学习利器:RNN基础架构107 _ 基于门机制的RNN架构:LSTM与GRU108 _ RNN在自然语言处理中有哪些应用场景?109 _ 对话系统之经典的对话模型110 _ 任务型对话系统有哪些技术要点?111 _ 聊天机器人有哪些核心技术要点?112 _ 什么是文档情感分类?113 _ 如何来提取情感“实体”和“方面”呢?114 _ 文本情感分析中如何做意见总结和搜索?复盘 3 _ 自然语言处理及文本处理核心技术模块
- 115 _ 什么是计算机视觉?116 _ 掌握计算机视觉任务的基础模型和操作117 _ 计算机视觉中的特征提取难在哪里?118 _ 基于深度学习的计算机视觉技术(一):深度神经网络入门119 _ 基于深度学习的计算机视觉技术(二):基本的深度学习模型120 _ 基于深度学习的计算机视觉技术(三):深度学习模型的优化121 _ 计算机视觉领域的深度学习模型(一):AlexNet122 _ 计算机视觉领域的深度学习模型(二):VGG & GoogleNet123 _ 计算机视觉领域的深度学习模型(三):ResNet124 _ 计算机视觉高级话题(一):图像物体识别和分割125 _ 计算机视觉高级话题(二):视觉问答126 _ 计算机视觉高级话题(三):产生式模型复盘 5 _ 计算机视觉核心技术模块
My SQL实战45讲
- 09 _ 普通索引和唯一索引,应该怎么选择?10 _ MySQL为什么有时候会选错索引?11 _ 怎么给字符串字段加索引?12 _ 为什么我的MySQL会“抖”一下?13 _ 为什么表数据删掉一半,表文件大小不变?14 _ count(_)这么慢,我该怎么办?15 _ 答疑文章(一):日志和索引相关问题16 _ “order by”是怎么工作的?17 _ 如何正确地显示随机消息?18 _ 为什么这些SQL语句逻辑相同,性能却差异巨大?19 _ 为什么我只查一行的语句,也执行这么慢?20 _ 幻读是什么,幻读有什么问题?21 _ 为什么我只改一行的语句,锁这么多?22 _ MySQL有哪些“饮鸩止渴”提高性能的方法?23 _ MySQL是怎么保证数据不丢的?24 _ MySQL是怎么保证主备一致的?25 _ MySQL是怎么保证高可用的?26 _ 备库为什么会延迟好几个小时?27 _ 主库出问题了,从库怎么办?28 _ 读写分离有哪些坑?29 _ 如何判断一个数据库是不是出问题了?30 _ 答疑文章(二):用动态的观点看加锁31 _ 误删数据后除了跑路,还能怎么办?32 _ 为什么还有kill不掉的语句?33 _ 我查这么多数据,会不会把数据库内存打爆?34 _ 到底可不可以使用join?35 _ join语句怎么优化?36 _ 为什么临时表可以重名?37 _ 什么时候会使用内部临时表?38 _ 都说InnoDB好,那还要不要使用Memory引擎?39 _ 自增主键为什么不是连续的?40 _ insert语句的锁为什么这么多?41 _ 怎么最快地复制一张表?42 _ grant之后要跟着flush privileges吗?43 _ 要不要使用分区表?44 _ 答疑文章(三):说一说这些好问题45 _ 自增id用完怎么办?
Spark性能调优实战
- 20 _ RDD和DataFrame:既生瑜,何生亮?21 _ Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上)22 _ Catalyst物理计划:你的SQL语句是怎么被优化的(下)?23 _ 钨丝计划:Tungsten给开发者带来了哪些福报?24 _ Spark 3.0(一):AQE的3个特性怎么才能用好?25 _ Spark 3.0(二):DPP特性该怎么用?26 _ Join Hints指南:不同场景下,如何选择Join策略?27 _ 大表Join小表:广播变量容不下小表怎么办?28 _ 大表Join大表(一):什么是“分而治之”的调优思路?29 _ 大表Join大表(二):什么是负隅顽抗的调优思路?30_ 应用开发:北京市小客车(汽油车)摇号趋势分析31 _ 性能调优:手把手带你提升应用的执行性能
- 08 _ 应用开发三原则:如何拓展自己的开发边界?09 _ 调优一筹莫展,配置项速查手册让你事半功倍!(上)10 _调优一筹莫展,配置项速查手册让你事半功倍!(下)11 _ 为什么说Shuffle是一时无两的性能杀手?12 _ 广播变量(一):克制Shuffle,如何一招制胜!13 _ 广播变量(二):如何让Spark SQL选择Broadcast Joins?14 _ CPU视角:如何高效地利用CPU?15 _ 内存视角(一):如何最大化内存的使用效率?16 _ 内存视角(二):如何有效避免Cache滥用?17 _ 内存视角(三):OOM都是谁的锅?怎么破?18 _ 磁盘视角:如果内存无限大,磁盘还有用武之地吗?19 _ 网络视角:如何有效降低网络开销?
SQL必知必会
- 01丨了解SQL:一门半衰期很长的语言02丨DBMS的前世今生03丨学会用数据库的方式思考SQL是如何执行的04丨使用DDL创建数据库&数据表时需要注意什么?05丨检索数据:你还在SELECT _ 么?06丨数据过滤:SQL数据过滤都有哪些方法?07丨什么是SQL函数?为什么使用SQL函数可能会带来问题?08丨什么是SQL的聚集函数,如何利用它们汇总表的数据?09丨子查询:子查询的种类都有哪些,如何提高子查询的性能?10丨常用的SQL标准有哪些,在SQL92中是如何使用连接的?11丨SQL99是如何使用连接的,与SQL92的区别是什么?12丨视图在SQL中的作用是什么,它是怎样工作的?13丨什么是存储过程,在实际项目中用得多么?14丨什么是事务处理,如何使用COMMIT和ROLLBACK进行操作?15丨初识事务隔离:隔离的级别有哪些,它们都解决了哪些异常问题?16丨游标:当我们需要逐条处理数据时,该怎么做?17丨如何使用Python操作MySQL?18丨SQLAlchemy:如何使用Python ORM框架来操作MySQL?19丨基础篇总结:如何理解查询优化、通配符以及存储过程?
- 20丨当我们思考数据库调优的时候,都有哪些维度可以选择?21丨范式设计:数据表的范式有哪些,3NF指的是什么?22丨反范式设计:3NF有什么不足,为什么有时候需要反范式设计?23丨索引的概览:用还是不用索引,这是一个问题24丨索引的原理:我们为什么用B+树来做索引?25丨Hash索引的底层原理是什么?26丨索引的使用原则:如何通过索引让SQL查询效率最大化?27丨从数据页的角度理解B+树查询28丨从磁盘I_O的角度理解SQL查询的成本29丨为什么没有理想的索引?30丨锁:悲观锁和乐观锁是什么?31丨为什么大部分RDBMS都会支持MVCC?32丨查询优化器是如何工作的?33丨如何使用性能分析工具定位SQL执行慢的原因?34丨答疑篇:关于索引以及缓冲池的一些解惑35丨数据库主从同步的作用是什么,如何解决数据不一致问题?36丨数据库没有备份,没有使用Binlog的情况下,如何恢复数据?37丨SQL注入:你的SQL是如何被注入的?
从0开始学大数据
分布式数据库30讲
- 09|原子性:2PC还是原子性协议的王者吗?10 _ 原子性:如何打破事务高延迟的魔咒?11|隔离性:读写冲突时,快照是最好的办法吗?12 _ 隔离性:看不见的读写冲突,要怎么处理?13 _ 隔离性:为什么使用乐观协议的分布式数据库越来越少_14 _ 隔离性:实现悲观协议,除了锁还有别的办法吗?15 _ 分布式事务串讲:重难点回顾+思考题答疑+知识全景图16 _ 为什么不建议你使用存储过程?17 _ 为什么不建议你使用自增主键?18 _ HTAP是不是赢者通吃的游戏?19 _ 查询性能优化:计算与存储分离架构下有哪些优化思路?20 _ 关联查询:如何提升多表Join能力?21 _ 查询执行引擎:如何让聚合计算加速?22|RUM猜想:想要读写快还是存储省?又是三选二23 _ 数据库查询串讲:重难点回顾+思考题答疑+知识全景图
后端技术面试 38 讲
- 21丨分布式架构:如何应对高并发的用户请求22 _ 缓存架构:如何减少不必要的计算?23 _ 异步架构:如何避免互相依赖的系统间耦合?24 _ 负载均衡架构:如何用10行代码实现一个负载均衡服务?25 _ 数据存储架构:如何改善系统的数据存储能力?26 _ 搜索引擎架构:如何瞬间完成海量数据检索?27 _ 微服务架构:微服务究竟是灵丹还是毒药?28 _ 高性能架构:除了代码,你还可以在哪些地方优化性能?29 _ 高可用架构:我们为什么感觉不到淘宝应用升级时的停机?30 _ 安全性架构:为什么说用户密码泄漏是程序员的锅?31 _ 大数据架构:大数据技术架构的思想和原理是什么?32 _ AI与物联网架构:从智能引擎到物联网平台33 _ 区块链技术架构:区块链到底能做什么?答疑丨互联网需要解决的技术问题是什么?
- 08丨软件设计的方法论:软件为什么要建模?09丨软件设计实践:如何使用UML完成一个设计文档?10 _ 软件设计的目的:糟糕的程序员比优秀的程序员差在哪里?11丨软件设计的开闭原则:如何不修改代码却能实现需求变更?12 _ 软件设计的依赖倒置原则:如何不依赖代码却可以复用它的功能?13丨软件设计的里氏替换原则:正方形可以继承长方形吗?14 _ 软件设计的单一职责原则:为什么说一个类文件打开最好不要超过一屏?15丨软件设计的接口隔离原则:如何对类的调用者隐藏类的公有方法?16 _ 设计模式基础:不会灵活应用设计模式,你就没有掌握面向对象编程17 _ 设计模式应用:编程框架中的设计模式18 _ 反应式编程框架设计:如何使程序调用不阻塞等待,立即响应?19 _ 组件设计原则:组件的边界在哪里?20 _ 领域驱动设计:35岁的程序员应该写什么样的代码?答疑丨对于设计模式而言,场景到底有多重要?
图解 Google V8
大规模数据处理实战
- 12 _ 我们为什么需要Spark?13 _ 弹性分布式数据集:Spark大厦的地基(上)14 _ 弹性分布式数据集:Spark大厦的地基(下)15 _ Spark SQL:Spark数据查询的利器16 _ Spark Streaming:Spark的实时流计算API17 _ Structured Streaming:如何用DataFrame API进行实时数据分析_18 _ Word Count:从零开始运行你的第一个Spark应用19 _ 综合案例实战:处理加州房屋信息,构建线性回归模型20 _ 流处理案例实战:分析纽约市出租车载客信息21 _ 深入对比Spark与Flink:帮你系统设计两开花
安全攻防技能30讲
实用密码学
性能测试实战30讲
技术面试官识人手册
技术领导力实战笔记
推荐系统三十六式
数据中台实战课
数据分析实战45讲
- 01丨数据分析全景图及修炼指南02丨学习数据挖掘的最佳路径是什么?03丨Python基础语法:开始你的Python之旅04丨Python科学计算:用NumPy快速处理数据05丨Python科学计算:Pandas06 _ 学数据分析要掌握哪些基本概念?07 _ 用户画像:标签化就是数据的抽象能力08 _ 数据采集:如何自动化采集数据?09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论10丨Python爬虫:如何自动化下载王祖贤海报?11 _ 数据科学家80%时间都花费在了这些清洗任务上?12 _ 数据集成:这些大号一共20亿粉丝?13 _ 数据变换:考试成绩要求正态分布合理么?14丨数据可视化:掌握数据领域的万金油技能15丨一次学会Python数据可视化的10种技能16丨数据分析基础篇答疑
- 17 丨决策树(上):要不要去打篮球?决策树来告诉你18丨决策树(中):CART,一棵是回归树,另一棵是分类树19丨决策树(下):泰坦尼克乘客生存预测20丨朴素贝叶斯分类(上):如何让机器判断男女?21丨朴素贝叶斯分类(下):如何对文档进行分类?22丨SVM(上):如何用一根棍子将蓝红两色球分开?23丨SVM(下):如何进行乳腺癌检测?24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?25丨KNN(下):如何对手写数字进行识别?26丨K-Means(上):如何给20支亚洲球队做聚类?27丨K-Means(下):如何使用K-Means对图像进行分割?28丨EM聚类(上):如何将一份菜等分给两个人?29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?31丨关联规则挖掘(下):导演如何选择演员?32丨PageRank(上):搞懂Google的PageRank算法33丨PageRank(下):分析希拉里邮件中的人物关系34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?36丨数据分析算法篇答疑
数据结构与算法之美
- 05 _ 数组:为什么很多编程语言中数组都从0开始编号?06 _ 链表(上):如何实现LRU缓存淘汰算法_07 _ 链表(下):如何轻松写出正确的链表代码?08 _ 栈:如何实现浏览器的前进和后退功能?09 _ 队列:队列在线程池等有限资源池中的应用10 _ 递归:如何用三行代码找到“最终推荐人”?11 _ 排序(上):为什么插入排序比冒泡排序更受欢迎?12 _ 排序(下):如何用快排思想在O(n)内查找第K大元素?13 _ 线性排序:如何根据年龄给100万用户数据排序?14 _ 排序优化:如何实现一个通用的、高性能的排序函数?15 _ 二分查找(上):如何用最省内存的方式实现快速查找功能?16 _ 二分查找(下):如何快速定位IP对应的省份地址?17 _ 跳表:为什么Redis一定要用跳表来实现有序集合?18 _ 散列表(上):Word文档中的单词拼写检查功能是如何实现的?19 _ 散列表(中):如何打造一个工业级水平的散列表?20 _ 散列表(下):为什么散列表和链表经常会一起使用?21 _ 哈希算法(上):如何防止数据库中的用户信息被脱库?22 _ 哈希算法(下):哈希算法在分布式系统中有哪些应用?23 _ 二叉树基础(上):什么样的二叉树适合用数组来存储?24 _ 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?25 _ 红黑树(上):为什么工程中都用红黑树这种二叉树?26 _ 红黑树(下):掌握这些技巧,你也可以实现一个红黑树27 _ 递归树:如何借助树来求解递归算法的时间复杂度?28 _ 堆和堆排序:为什么说堆排序没有快速排序快?29 _ 堆的应用:如何快速获取到Top 10最热门的搜索关键词?30 _ 图的表示:如何存储微博、微信等社交网络中的好友关系?31 _ 深度和广度优先搜索:如何找出社交网络中的三度好友关系?32 _ 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?33 _ 字符串匹配基础(中):如何实现文本编辑器中的查找功能?34 _ 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?35 _ Trie树:如何实现搜索引擎的搜索关键词提示功能?36 _ AC自动机:如何用多模式串匹配实现敏感词过滤功能?37 _ 贪心算法:如何用贪心算法实现Huffman压缩编码?38 _ 分治算法:谈一谈大规模计算框架MapReduce中的分治思想39 _ 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想40 _ 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?41 _ 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题42 _ 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
朱赟的技术管理课
机器学习40讲
- 11 _ 基础线性回归:一元与多元12 _ 正则化处理:收缩方法与边际化13 _ 线性降维:主成分的使用14 _ 非线性降维:流形学习15 _ 从回归到分类:联系函数与降维16 _ 建模非正态分布:广义线性模型17 _ 几何角度看分类:支持向量机18 _ 从全局到局部:核技巧19 _ 非参数化的局部模型:K近邻20 _ 基于距离的学习:聚类与度量学习21 _ 基函数扩展:属性的非线性化22 _ 自适应的基函数:神经网络23 _ 层次化的神经网络:深度学习24 _ 深度编解码:表示学习25 _ 基于特征的区域划分:树模型26 _ 集成化处理:Boosting与Bagging27 _ 万能模型:梯度提升与随机森林总结课 _ 机器学习的模型体系
检索技术核心20讲
- 06 _ 数据库检索:如何使用B+树对海量磁盘数据建立索引?07 _ NoSQL检索:为什么日志系统主要用LSM树而非B+树?08 _ 索引构建:搜索引擎如何为万亿级别网站生成索引?09 _ 索引更新:刚发布的文章就能被搜到,这是怎么做到的?10 _ 索引拆分:大规模检索系统如何使用分布式技术加速检索?11|精准Top K检索:搜索结果是怎么进行打分排序的?12 _ 非精准Top K检索:如何给检索结果的排序过程装上“加速器”?13 _ 空间检索(上):如何用Geohash实现“查找附近的人”功能?14 _ 空间检索(下):“查找最近的加油站”和“查找附近的人”有何不同?15 _ 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?16 _ 最近邻检索(下):如何用乘积量化实现“拍照识花”功能?测一测 _ 高性能检索系统的实战知识,你掌握了多少?特别加餐 _ 高性能检索系统中的设计漫谈
浏览器工作原理与实践
深入浅出区块链
- 第10讲 _ 深入区块链技术(二):P2P网络第11讲 _ 深入区块链技术(三):共识算法与分布式一致性算法第12讲 _ 深入区块链技术(四):PoW共识第13讲 _ 深入区块链技术(五):PoS共识机制第14讲 _ 深入区块链技术(六):DPoS共识机制第15讲 _ 深入区块链技术(七):哈希与加密算法第16讲 _ 深入区块链技术(八): UTXO与普通账户模型第17讲 _ 去中心化与区块链交易性能第18讲 _ 智能合约与以太坊第19讲 _ 上手搭建一条自己的智能合约第20讲 _ 区块链项目详解:比特股BTS第21讲 _ 引人瞩目的区块链项目:EOS、IOTA、Cardano第22讲 _ 国内区块链项目技术一览第23讲 _ 联盟链和它的困境第9讲 _ 深入区块链技术(一):技术基础
深入浅出计算机组成原理
- 17 _ 建立数据通路(上):指令+运算=CPU18 _ 建立数据通路(中):指令+运算=CPU19 _ 建立数据通路(下):指令+运算=CPU20 _ 面向流水线的指令设计(上):一心多用的现代CPU21 _ 面向流水线的指令设计(下):奔腾4是怎么失败的?22 _ 冒险和预测(一):hazard是“危”也是“机”23 _ 冒险和预测(二):流水线里的接力赛24 _ 冒险和预测(三):CPU里的“线程池”25 _ 冒险和预测(四):今天下雨了,明天还会下雨么?26 _ Superscalar和VLIW:如何让CPU的吞吐率超过1?27 _ SIMD:如何加速矩阵乘法?28 _ 异常和中断:程序出错了怎么办?29 _ CISC和RISC:为什么手机芯片都是ARM?30 _ GPU(上):为什么玩游戏需要使用GPU?31 _ GPU(下):为什么深度学习需要使用GPU?32 _ FPGA和ASIC:计算机体系结构的黄金时代33 _ 解读TPU:设计和拆解一块ASIC芯片34 _ 理解虚拟机:你在云上拿到的计算机是什么样的?
- 35 _ 存储器层次结构全景:数据存储的大金字塔长什么样?36 _ 局部性原理:数据库性能跟不上,加个缓存就好了?37 _ 高速缓存(上):“4毫秒”究竟值多少钱?38 _ 高速缓存(下):你确定你的数据更新了么?39 _ MESI协议:如何让多核CPU的高速缓存保持一致?40 _ 理解内存(上):虚拟内存和内存保护是什么?41 _ 理解内存(下):解析TLB和内存保护42 _ 总线:计算机内部的高速公路43 _ 输入输出设备:我们并不是只能用灯泡显示“0”和“1”44 _ 理解IO_WAIT:I_O性能到底是怎么回事儿?45 _ 机械硬盘:Google早期用过的“黑科技”46 _ SSD硬盘(上):如何完成性能优化的KPI?47 _ SSD硬盘(下):如何完成性能优化的KPI?48 _ DMA:为什么Kafka这么快?49 _ 数据完整性(上):硬件坏了怎么办?50 _ 数据完整性(下):如何还原犯罪现场?51 _ 分布式计算:如果所有人的大脑都联网会怎样?
- 05 _ 计算机指令:让我们试试用纸带编程06 _ 指令跳转:原来if...else就是goto07 _ 函数调用:为什么会发生stack overflow?08 _ ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?09 _ 程序装载:“640K内存”真的不够用么?10 _ 动态链接:程序内部的“共享单车”11 _ 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?12 _ 理解电路:从电报机到门电路,我们如何做到“千里传信”?13 _ 加法器:如何像搭乐高一样搭电路(上)?14 _ 乘法器:如何像搭乐高一样搭电路(下)?15 _ 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?16 _ 浮点数和定点数(下):深入理解浮点数到底有什么用?
深度学习推荐系统实战
- 15 _ 协同过滤:最经典的推荐模型,我们应该掌握什么?16 _ 深度学习革命:深度学习推荐模型发展的整体脉络是怎样的?17 _ Embedding+MLP:如何用TensorFlow实现经典的深度学习模型?18|Wide&Deep:怎样让你的模型既有想象力又有记忆力?19|NeuralCF:如何用深度学习改造协同过滤?20 _ DeepFM:如何让你的模型更好地处理特征交叉?21|注意力机制、兴趣演化:推荐系统如何抓住用户的心?22|强化学习:让推荐系统像智能机器人一样自主学习23| 实战:如何用深度学习模型实现Sparrow RecSys的个性化推荐功能?模型实战准备(一) _ TensorFlow入门和环境配置模型实战准备(二) _ 模型特征、训练样本的处理特别加餐 _ “银弹”不可靠,最优的模型结构该怎么找?
说透芯片
跟月影学可视化
- 31 _ 针对海量数据,如何优化性能?32 _ 数据之美:如何选择合适的方法对数据进行可视化处理?33 _ 数据处理(一):可视化数据处理的一般方法是什么?34 _ 数据处理(二):如何处理多元变量?35_ 设计(一):如何让可视化设计更加清晰?36 _ 设计(二):如何理解可视化设计原则?37 _ 实战(一):如何使用图表库绘制常用数据图表?38 _ 实战(二):如何使用数据驱动框架绘制常用数据图表?39 _ 实战(三):如何实现地理信息的可视化?40_ 实战(四):如何实现3D地球可视化(上)?41 _ 实战(五):如何实现3D地球可视化(下)?42 _ 如何整理出我们自己的可视化工具集?
透视 HTTP协议