带你认识存储的本质 - 状态
带你认识存储的本质 - 状态
带你认识存储的本质 - 状态
课程概述
存储系统和数据库系统往往是后端服务的最后一环,提供数据存储、查询能力。本课程会先用模拟案例导入,向学员介绍存储系统、数据库系统的特点,然后解析多个主流产品,最后分享存储和数据库结合新技术演进的方向。本节课程主要包含以下内容:
- 模拟案例
- 存储 & 数据库简介
- 主流产品剖析
- 新技术演进
课前材料 (必须)
跟存储 & 数据库系统相关的材料很多,涵盖开源项目、博客、论文等。下面提供部分资料作为参考
- The Google File System
static.googleusercontent.com/media/resea…
作为各种开源分布式文件系统的鼻祖,GFS论文里面提到的架构非常经典,值得一学。
- The Linux Programming Interface(第13章 FILE I/O BUFFERING)
本书介绍了很多Linux内核子系统的实现,其中第13章着重讲了单机的文件IO。学习完Linux中的文件IO栈,对单机存储系统会有更深的认识。
课程详情
经典案例
通过一个模拟案例,描述了数据是怎么产生,在后端系统里怎么流通,最后怎么写入到存储/数据库系统。
存储 & 数据库简介
- 存储系统概览
- 存储系统特点
- 存储器层级结构
- 单机存储栈
- RAID技术
- 数据库系统概览
- 关系型数据库特点
- 非关系型数据库特点
- 数据库 vs 经典存储
- 数据库使用方式
主流产品剖析
- 单机存储产品
- 单机文件系统
- 单机key-value存储
- 分布式存储产品
- HDFS
- Ceph
- 单机数据库产品
- 关系型数据库 —— PG、MySQL
- 非关系型数据库 —— ES、MongoDB、Redis
- Elasticsearch使用案例
- 分布式数据库产品
- 问题与挑战
- 解决方案
新技术演进
- SPDK
- 人工智能
- 新硬件加速
课后思考
- 写入存储系统的粒度太大,会不会导致数据原子性问题?例如一次性写100MB,如果系统突然crash,会不会只有一部分数据持久化了,另一部分丢失了?如果要解决原子性问题,一般会设计什么机制?
- 在从应用程序到存储介质的链路上,无论读还是写,数据可能要被拷贝好几次,这几次拷贝能不能去掉?如果我们去掉大部分拷贝操作,会有什么副作用,要怎么缓解副作用?
- 一个关系型数据库大概率是会被并发访问的,如果要保证并发安全,除了在行数据上加悲观锁还有其他方式吗?
- 在数据库领域,把数据按行存和按列存各有好处,你能从性能优先的角度设计出一种混合存储格式吗?
带你认识存储的本质 - 状态
https://zhangzhao219.github.io/2023/02/10/ByteDanceYouthTrainCamp/ByteDanceYouthTrainCamp-Day15/