副本放置&Copyset Replication
在分布式存储系统 中说明了,在一定情况下,copyset的数量不是越多越好,在恢复时间确定的情况下,找到合适的copyset的数量可以降低数据丢失的概率。
在分布式存储系统 中说明了,在一定情况下,copyset的数量不是越多越好,在恢复时间确定的情况下,找到合适的copyset的数量可以降低数据丢失的概率。
最近团队在对存储系统做一些性能测试,期间遇到了不少问题,测试过程中得出的结果也没有很好的数据支撑,所以尝试了非常多的方法来对性能问题进行定位。
小王童鞋是挺厉害的,使用了非常多的工具进行性能问题定位,包括iosnoop对IO请求进行跟踪、iostat进行磁盘状态记录、go-pprof从runtime层面收集性能profile数据、使用go-torch对profile生成直观的火焰图、使用trace2heatmap对延迟数据生产热力图 等等。
各种存储系统,数据库、文件系统,在性能上无不都在与磁盘做斗争。希望能够尽量发挥系统有限的资源,提供最大化的性能。其中涉及到的技术包括
大规模对象存储究竟应该采用什么样子的存储物理架构?如何规划物理机架部署?如何进行网络部署?通过学习一些经典系统如GFS、HDFS,并且结合自身在这方面的经验和需求进行了一些总结。
考虑的因素包括
从上文分布式存储系统可靠性-系统估算示例 中详细分析了系统可靠性量化的估算手段,并且给出了示例代码,代码的主要输入参数为如下所示。
|
|
前一阵子团队来一新人,分享了其所从事物联网相关领域的事件经验。其主要核心逻辑是收集处理来自海量的物联网设备上报的一些信息。比如大楼电路、温度、湿度等一些周期性的上报信息,记录这些信息的方式为使用HBase。其中一点是使用Salt 来避免数据分布的不均匀特性。
| EntityID | TimeStamp | Temp | Current| humidity|