Skip to content

Stell 论坛工程文章与讨论

围绕基础架构、分布式系统、可靠性与平台工程的论坛式知识库。

Tag 搜索

输入 tag 关键词,查看 tag 与文章的倒排索引。

输入关键词后显示匹配 tag 及对应文章。

最近更新

服务治理发布 2026/06/11更新 2026/06/11

从 JWT 到 SPIRE:微服务间零信任身份体系的标准实现与落地边界

系统分析微服务零信任身份体系中的 JWT、mTLS、SPIFFE/SPIRE、节点认证、工作负载认证、Kubernetes 准入控制、ServiceAccount 边界、CA/KMS/HSM 与服务间授权。

阅读方向:适合在为微服务平台设计服务间零信任身份、工作负载身份、mTLS、JWT 校验、准入策略或授权控制时阅读。

安全运维发布 2026/06/11更新 2026/06/11

HashiCorp Vault:企业密钥治理与动态凭证管理的安全中枢

研究 HashiCorp Vault 作为企业身份驱动型密钥管理与敏感数据保护平台的产品定位和架构价值,覆盖密钥管理、动态凭证、加密即服务、PKI、审计、生产加固、高可用、ROI、接入场景、企业案例、版本状态、许可证边界与当前工程问题。

阅读方向:适合在评估 Vault 用于企业密钥治理、数据库动态凭证、CI/CD 密钥管理、Kubernetes 密钥注入、内部 PKI、Transit 加密、审计合规或零信任凭证基础设施时阅读。

服务治理发布 2026/06/11更新 2026/06/11

SPIRE:企业零信任体系中的工作负载身份控制平面

研究 SPIRE 在企业零信任体系中的产品定位与架构价值,覆盖 SPIFFE、工作负载身份、SVID、信任域、联邦互信、mTLS、Envoy SDS、Vault 与云 IAM 集成、大规模部署成本、ROI、企业使用场景、采用方、当前版本与仍存在的工程问题。

阅读方向:适合在评估 SPIRE、SPIFFE、工作负载身份、服务间 mTLS、无密钥访问、跨云身份联邦或企业零信任身份基础设施时阅读。

基础设施发布 2026/06/11更新 2026/06/11

排序算法研究:定义、分类、性能边界与主流语言默认实现

系统研究排序算法,覆盖排序定义、稳定性、原地排序、比较排序与非比较排序、冒泡排序、插入排序、选择排序、快速排序、归并排序、TimSort、堆排序、计数排序、桶排序、基数排序、速度与空间取舍,以及 Java、Python、Go 的默认排序实现。

阅读方向:适合在比较排序算法、评估稳定性与辅助空间、选择快速排序/TimSort/堆排序/计数排序/基数排序,或理解 Java、Python、Go 默认排序行为时阅读。

服务治理发布 2026/06/11更新 2026/06/11

Sidecar 模式的收益、成本与 ROI:基于服务网格数据面的客观分析

客观分析云原生与微服务架构中的 Sidecar 模式,覆盖服务网格数据面、统一治理、零信任安全、可观测性、流量治理、资源成本、延迟、运维复杂度、排障成本、ROI、Ambient Mesh、ztunnel、waypoint proxy 与 eBPF 趋势。

阅读方向:适合在评估是否为微服务治理引入 sidecar、服务网格、Ambient Mesh、Envoy、ztunnel、waypoint proxy 或 eBPF 数据面时阅读。

服务治理发布 2026/06/11更新 2026/06/11

流量治理规则体系的标准化设计研究

结构化研究分布式系统、微服务与服务网格中的流量治理规则,覆盖东西向与南北向流量、内部与外部网关、集中式网关、客户端路由、服务发现元数据、流量分流、灰度发布、本地性路由、重试、超时、熔断、Istio Gateway、VirtualService、DestinationRule、Envoy 与 xDS。

阅读方向:适合在为分布式系统设计流量路由、网关治理、服务网格流量策略、灰度发布、客户端负载均衡、本地性路由、重试、超时或熔断时阅读。

平台战略发布 2026/06/11更新 2026/06/11

企业服务器与 SSD 资源节约路径研究:基于官方技术文档的客观分析

基于云平台、Kubernetes、Linux、Docker 与主流数据库官方机制,客观归纳企业节省服务器资源与 SSD 资源的技术路径。

阅读方向:适合在设计云服务器、Kubernetes 工作负载、SSD 卷、容器节点与数据库存储的资源治理规则时阅读。

服务治理发布 2026/06/11更新 2026/06/11

高可用分布式限流系统设计:从单机令牌桶到异步配额分配模型

系统分析高并发与突发流量下的服务端限流设计,覆盖本地限流、全局限流、令牌桶、漏桶、Redis 热点、配额预分配、异步上报、边缘削峰、分区限流、故障降级与高可用架构。

阅读方向:适合在为 API 网关、服务网格、高 QPS 服务、租户配额、反滥用、Redis 计数器或异步配额协调设计分布式限流时阅读。

分布式系统发布 2026/06/11更新 2026/06/11

Java Redis 客户端选型调研:Jedis、Lettuce、Redisson 与 Spring Data Redis 的比较分析

围绕 Jedis、Lettuce、Redisson、Spring Data Redis、Spring Boot 集成、RedisTemplate、ReactiveRedisTemplate、分布式锁、连接池、多路复用、序列化、TTL、缓存清理、拓扑刷新、TLS 与生产使用边界,对 Java Redis 客户端选型进行客观调研。

阅读方向:适合在为 Java 或 Spring Boot 应用选择 Redis 客户端、比较 Jedis/Lettuce/Redisson/Spring Data Redis、设计 Redis 缓存访问、引入分布式锁或加固生产 Redis 使用方式时阅读。

数据库发布 2026/06/11更新 2026/06/11

MySQL 与 PostgreSQL 的体系化对比调研

基于 MySQL 与 PostgreSQL 官方文档,系统比较二者在项目治理、许可协议、存储架构、事务隔离、SQL 兼容、JSON、索引、扩展、复制、备份、安全、运维和元数据系统适配性上的差异。

阅读方向:适合在为 OLTP 系统、元数据平台、配置中心或关系型数据库基础设施选择 MySQL 与 PostgreSQL 时阅读。

服务治理发布 2026/06/11更新 2026/06/11

Open API 标准设计方式研究

面向大型企业基础架构平台,系统研究 Open API 的 HTTP 语义、OpenAPI Specification 3.1.1、安全认证、授权、配额限流、网关架构、业务复用、可观测性与性能优化。

阅读方向:适合在为企业平台设计外部开放接口、OpenAPI 契约、API 网关、OAuth 授权、租户配额、限流、可观测性与性能治理时阅读。

并发工程发布 2026/06/11更新 2026/06/11

并发锁:从硬件原子性到用户态同步抽象

分层研究并发锁与同步机制,覆盖硬件原子原语、CAS、自旋锁、内存顺序、Linux sleeping locks、CPU-local locks、spinning locks、mutex、rw_semaphore、RCU、seqlock、Java synchronized、ReentrantLock、ReentrantReadWriteLock、StampedLock、Semaphore、Atomic、LongAdder、CopyOnWrite、Go channel、Mutex、RWMutex、sync.Map、sync/atomic、CopyOnWrite + Merge 与锁选择取舍。

阅读方向:适合在比较互斥锁、自旋锁、CAS、读写锁、StampedLock、RCU、seqlock、CopyOnWrite、channel、原子原语,或为 Java、Go、Linux 与高并发系统选择同步机制时阅读。

服务治理发布 2026/06/11更新 2026/06/11

从切片到对象:Go 与 Java 内存使用模型的结构性差异

围绕 Go 与 Java 的内存使用模型,分析二者在数据表示、数组、切片、对象模型、函数传参、逃逸分析、GC 与运行时能力上的结构性差异。

阅读方向:适合在比较 Go 与 Java 的基础设施服务选型、内存敏感场景和运行时工程取舍时阅读。

并发工程发布 2026/06/11更新 2026/06/11

Java 并发锁从用户态到内核态的实现链路研究

系统研究 Java 并发锁从语言语义到 JVM 与操作系统执行路径的实现链路,覆盖 synchronized、monitorenter、monitorexit、HotSpot mark word、轻量级锁、锁膨胀、ObjectMonitor、AQS、LockSupport、park/unpark、ReentrantLock、ReentrantReadWriteLock、StampedLock、Semaphore、Atomic、LongAdder、CopyOnWriteArrayList,以及 Java 锁进入内核相关阻塞路径的触发条件。

阅读方向:适合在分析 Java 锁实现、synchronized monitor 路径、HotSpot 轻量级锁、ObjectMonitor 膨胀、AQS 队列、LockSupport park/unpark,或 Java 并发从用户态到内核态的边界时阅读。

Java 工程发布 2026/06/11更新 2026/06/11

从 J2EE 到 Jakarta EE:企业级 Java 规范体系的演进、命名空间迁移与开发者影响

系统研究 J2EE 到 Java EE 与 Jakarta EE 的演进,覆盖企业级 Java 平台模型、容器、Java EE 规范演进、Eclipse Foundation 移交、javax 到 jakarta 命名空间迁移、Tomcat 10、Spring Boot 3、Spring Framework 6、Servlet 5+、Jakarta EE 11、Jakarta EE 12,以及开发者升级实践影响。

阅读方向:适合在将 Java Web 应用从 javax 迁移到 jakarta、从 Tomcat 9 升级到 Tomcat 10、从 Spring Boot 2 升级到 Spring Boot 3、从 Spring Framework 5 升级到 Spring Framework 6,或理解 J2EE/Java EE 到 Jakarta EE 演进时阅读。

服务治理发布 2026/06/11更新 2026/06/11

Istio 产品深度研究:服务网格能力、治理规则、企业接入成本与当前状态

深度研究 Istio 作为服务网格产品的定位与能力,覆盖 Envoy、Istiod、Kubernetes CRD、xDS、流量路由、认证、授权、熔断、限流、服务发现、VM 与裸金属接入、网关集成、可观测性、OpenTelemetry、ambient mesh、企业案例与 Istio 当前产品方向。

阅读方向:适合在评估 Istio 服务网格能力、企业接入成本、治理规则迁移、VM 或裸金属接入、网关集成、ambient mesh 与可观测架构时阅读。

数据库发布 2026/06/11更新 2026/06/11

InfluxDB 技术调研:面向时序数据的实时存储与分析系统

系统调研 InfluxDB 作为专用时序数据库和实时数据平台的产品定位、数据模型、Line Protocol、存储引擎、SQL 与 InfluxQL 查询、Telegraf 生态、监控、可观测性、IoT、网络遥测、竞品格局、适用边界、限制与生产使用情况。

阅读方向:适合在评估 InfluxDB 是否适用于指标存储、实时监控、IoT 传感器数据、基础设施可观测性、网络遥测、保留策略管理,或在 InfluxDB、Prometheus、TimescaleDB、VictoriaMetrics、Timestream、ClickHouse 之间选型时阅读。

服务治理发布 2026/06/11更新 2026/06/11

从数据分级到脱敏加密:互联网企业安全信息治理实践

面向互联网企业,系统梳理跨法域安全信息分类、个人信息保护、敏感数据控制、脱敏、去标识化、匿名化、加密、密钥管理与全生命周期治理。

阅读方向:适合在建设企业级数据分类分级、脱敏、加密、密钥管理、数据导出、日志治理和生命周期控制时阅读。

应用契约发布 2026/06/11更新 2026/06/11

Java HTTP Client 选型调研:内置客户端与主流第三方客户端的客观比较

围绕 JDK HttpClient、HttpURLConnection、Apache HttpClient、OkHttp、Jetty HttpClient、Reactor Netty HttpClient、AsyncHttpClient、Spring RestClient、Spring WebClient、OpenFeign 与 Retrofit,对 Java HTTP Client 的协议支持、同步异步模型、连接复用、可定制性、易用性、稳定性和场景化选型规则进行客观比较。

阅读方向:适合在为普通 REST 调用、Spring MVC、Spring WebFlux、SDK、企业级 HTTP 治理、协议栈定制、高并发异步调用或声明式 API Client 选择 Java HTTP Client 时阅读。

服务治理发布 2026/06/11更新 2026/06/11

全链路灰度的设计与实现:面向百级应用调用链的流量标识、路由隔离与治理策略

面向大型企业微服务体系,系统分析全链路灰度中的统一灰度上下文、传播规范、服务路由、网关分流、消息隔离、配置选择、治理规则、数据边界、观测、回滚与清理。

阅读方向:适合在为大型微服务系统设计全链路灰度、灰度泳道、流量路由、配置隔离、消息隔离或回滚治理时阅读。

并发工程发布 2026/06/11更新 2026/06/11

Goroutine 问题排查:官方依据、观测入口与常见错误清单

基于 Go 官方文档整理 goroutine 排查实践,覆盖 goroutine 生命周期边界、runtime.NumGoroutine、runtime.Stack、net/http/pprof、goroutine profile、block profile、mutex profile、runtime/trace、go vet、race detector、goroutine 泄漏、死锁、channel 阻塞、closed channel panic、WaitGroup 误用、Mutex 与 RWMutex 竞争、context 取消、main 生命周期、panic、无界 goroutine 创建、外部 I/O 阻塞、select 等待与标准排查流程。

阅读方向:适合在诊断 Go 服务中的 goroutine 泄漏、死锁、channel 阻塞、WaitGroup 误用、锁竞争、context 泄漏、数据竞争、panic、无界 goroutine 创建或外部 I/O 阻塞时阅读。

并发工程发布 2026/06/11更新 2026/06/11

Go 运行时 G/M/P 调度模型、网络 I/O 与并发安全研究

系统研究 Go goroutine 与运行时 G/M/P 调度模型,覆盖 G、M、P 定义,用户态调度、Linux task_struct 映射、goroutine 生命周期、netpoll、网络 I/O、GOMAXPROCS、系统调用、channel 通信、context 取消、WaitGroup、Mutex、RWMutex、Go 内存模型与竞态检测。

阅读方向:适合在研究 Go goroutine 调度、G/M/P 内部机制、网络 I/O 行为、系统调用阻塞、Linux 线程映射、goroutine 生命周期管理或并发安全实践时阅读。

并发工程发布 2026/06/11更新 2026/06/11

Go 并发同步机制调研:Channel 与 sync 包并发原语的语义、原理与使用边界

系统研究 Go 并发同步机制,覆盖 Channel 语义、有缓冲与无缓冲 Channel、FIFO 特性、happens-before 关系、运行时 hchan 内部结构、发送/接收/关闭/select 操作、只读与只写 Channel、sync.Mutex、sync.RWMutex、sync.Cond、sync.Once、sync.WaitGroup、sync.Map、sync.Pool、sync/atomic,以及 Channel 与锁的选择边界。

阅读方向:适合在比较 Go Channel、互斥锁、读写锁、条件变量、WaitGroup、sync.Map、sync.Pool、atomic 操作,或判断并发问题应建模为通信还是共享状态保护时阅读。

服务治理发布 2026/06/11更新 2026/06/11

数据加解密体系的设计与落地解决方案研究:以信封加密、密钥管理与 Vault/KMS 实现为中心

系统研究企业数据加解密体系,覆盖对称与非对称加密、认证加密、信封加密、根密钥、KEK、DEK、密钥存储、轮转、本地与远程加密、HashiCorp Vault Transit、云 KMS、HSM、BYOK、SDK 设计与审计控制。

阅读方向:适合在设计企业级加密平台、KMS/Vault 接入、信封加密 SDK、密钥轮转、字段加密、对象加密和密钥审计控制时阅读。

并发工程发布 2026/06/11更新 2026/06/11

深入 Go `context` 机制:定义、问题域、使用方式、注意事项与典型场景

系统解释 Go context 包,覆盖 Context 接口语义、deadline、取消信号、请求级值、父子取消传播、CancelFunc、WithCancel、WithDeadline、WithTimeout、WithValue、Cause、WithoutCancel、显式参数传递、goroutine 取消、HTTP 服务端与客户端 context、数据库操作、RPC 调用、并发流水线与常见使用注意事项。

阅读方向:适合在设计 Go API 边界、请求取消、超时传播、goroutine 生命周期控制、HTTP 客户端/服务端调用、数据库取消、RPC 调用链或请求级元数据传播时阅读。

数据库发布 2026/06/11更新 2026/06/11

ClickHouse 技术调研:面向实时分析的列式 OLAP 数据库

系统调研 ClickHouse 作为实时分析列式 OLAP 数据库的产品定位、技术特征、可观测性、时序分析、数据仓库、数据湖加速、AI/ML 分析、竞品格局、负载边界、使用限制与生产应用情况。

阅读方向:适合在评估 ClickHouse 是否适用于实时分析、可观测性存储、时序分析、数仓加速、数据湖查询或高并发分析看板时阅读。

服务治理发布 2026/06/11更新 2026/06/11

配置中心设计实践:从配置模型到高可用读写架构

从配置中心产生背景、主流系统能力边界、配置类型模型、作用域模型和存储架构出发,系统分析企业级配置中心的高可用读写架构。

阅读方向:适合在设计配置中心、拆分读写路径、建模配置作用域,或降低运行态配置分发链路 DB 依赖时阅读。

安全运维发布 2026/06/11更新 2026/06/11

X.509 证书:从 HTTPS 到零信任,现代系统身份认证的基础容器

系统研究 X.509 证书作为现代 PKI 基础身份容器的定位,覆盖 HTTPS、TLS、mTLS、服务网格、工作负载身份、内部 PKI、证书字段、v3 扩展、SAN、KU、EKU、Basic Constraints、CA 信任链、吊销、证书透明度、不同语言生态支持、开发者实践、证书生命周期自动化与后量子迁移准备。

阅读方向:适合在设计或审查 HTTPS、mTLS、内部 PKI、CA 层级、服务证书、工作负载身份、证书校验、证书生命周期自动化或后量子证书迁移方案时阅读。

服务治理发布 2026/06/11更新 2026/06/11

熔断规则在分布式系统中的作用、类型与可配置性研究

系统研究分布式系统与服务网格中的熔断机制,覆盖故障隔离、快速失败、反压、恢复探测、资源限额、连续错误、失败率、慢调用、异常分类、实例摘除、重试保护、Istio DestinationRule、Envoy 与 Resilience4j。

阅读方向:适合在为分布式系统设计熔断规则、故障隔离、实例摘除、重试保护、服务网格流量策略或应用侧韧性能力时阅读。

服务治理发布 2026/06/11更新 2026/06/11

鉴权规则体系的标准化设计研究

结构化研究分布式系统与服务网格中的认证、授权、访问控制规则、JWT、OAuth 2.0、Istio 安全策略、链路级认证、请求级授权、ABAC、策略决策与执行点以及配置粒度。

阅读方向:适合在设计认证授权规则、JWT 校验、OAuth 访问控制、Istio AuthorizationPolicy、ABAC、服务网格安全或资源级权限系统时阅读。

安全运维发布 2026/05/22更新 2026/05/28

acme.sh + Nginx 接入 HTTPS 完整操作指南

基于 stellhub.top 的真实 HTTPS 接入过程,整理 acme.sh、Let's Encrypt、Nginx、HTTP-01 验证、证书安装、自动续期和常见故障排查流程。

阅读方向:适合在为自建网站、博客、API 网关或 SaaS 服务配置 HTTPS、申请 Let's Encrypt 证书、排查 ACME HTTP-01 验证或 Nginx TLS 配置问题时阅读。

AI 工程发布 2026/05/15更新 2026/05/28

AI 时代下,互联网应用应该何去何从:从流量经济到算力经济的范式迁移

从边际成本、token 成本、模型分层、上下文工程、工作流嵌入、价值计费和成本治理等角度,分析 AI 时代互联网应用从流量经济转向算力经济后的产品与架构选择。

阅读方向:适合在评估互联网产品 AI 化、设计 AI 成本治理、模型路由、上下文基础设施和商业定价模型时阅读。

AI 工程发布 2026/05/27更新 2026/05/28

AI 时代下木桶理论的重构

基于劳动分工理论、AI 劳动力影响研究和 AI 风险治理框架,分析生成式 AI 如何改变木桶理论的适用边界,并说明 AI 更适合作为长板放大器而非完全补齐短板的替代品。

阅读方向:适合在思考 AI 对个人能力模型、团队分工、组织效率、技能重构和超级个体/超级团队关系的影响时阅读。

网络可靠性发布 2026/05/18更新 2026/05/28

Connection reset by peer:TCP RST、连接生命周期与工程排查体系研究

系统解释 Connection reset by peer 与 TCP RST 的协议语义、生命周期位置、常见工程根因和排查治理方法。

阅读方向:适合在排查连接重置、长连接断开、连接池复用失败、idle timeout 或注册中心 watch 异常时阅读。

网络可靠性发布 2026/05/18更新 2026/05/28

警惕无意识的“短连接”:深挖中间件客户端频繁创建引发的连接雪崩

分析在高频路径反复创建 HTTP、gRPC、注册中心、配置中心和中间件 SDK 客户端时,如何绕过连接复用并触发连接雪崩。

阅读方向:适合在排查连接风暴、降级路径客户端创建、HTTP client 生命周期、gRPC channel 复用或中间件 SDK 资源抖动问题时阅读。

网络可靠性发布 2026/05/24更新 2026/05/28

如何做连接治理:面向高并发服务的连接生命周期、故障定位与运维 SOP 研究

系统说明高并发服务中的 TCP、HTTP/gRPC、数据库、连接池、代理层、conntrack 和文件描述符治理方法,覆盖连接生命周期、容量模型、超时分类、CLOSE_WAIT、TIME_WAIT 以及标准化排障 SOP。

阅读方向:适合在治理连接数过多、连接超时、连接池耗尽、CLOSE_WAIT/TIME_WAIT 堆积、数据库 Too many connections、conntrack 表满或 fd 耗尽问题时阅读。

云原生发布 2026/05/18更新 2026/05/28

从 Linux 内核视角理解 Kubernetes 与 Docker:Pod / 容器的创建、运行、系统调用与销毁机制

从 Pod 生命周期、CRI、containerd、Docker、runc、Linux syscall、namespace、nsproxy 与 cgroup 视角解释容器创建、运行和销毁机制。

阅读方向:适合在理解 Kubernetes 容器运行时链路、OCI runtime、namespace/cgroup 隔离机制,或排查容器启动与系统调用行为时阅读。

分布式系统发布 2026/05/04更新 2026/05/28

分布式系统中的一致性挑战及其解决路径

从 FLP、CAP、PACELC 到 Paxos、Raft、Zab、PBFT,再到 Spanner、etcd 与 KRaft,系统梳理一致性问题的理论边界与工程落地。

阅读方向:适合在补分布式系统理论基础,或想把共识协议和工业系统实现串起来时阅读。

基础设施发布 2026/05/04更新 2026/05/28

分布式系统注册中心意义、问题与主流实现

围绕服务发现、健康检查、治理元数据和多环境隔离,分析注册中心为什么会成为微服务系统的基础设施刚需,以及主流实现分别适合什么场景。

阅读方向:适合在做注册中心选型,或梳理服务发现能力边界与演进路径时阅读。

配置工程发布 2026/05/04更新 2026/05/28

最佳 DSL 语言:CUE

从类型约束、复用能力、一致性校验与多环境配置治理几个维度,分析为什么 CUE 更适合作为复杂系统中的声明式配置 DSL。

阅读方向:适合在评估配置语言选型、统一 Schema 与数据表达,或准备建设平台级配置工程体系时阅读。

搜索基础设施发布 2026/05/26更新 2026/05/28

超大型企业基于 Elasticsearch 存储应用日志的工程实践研究

基于 Elasticsearch data stream、index template、ILM、ECS、字段映射、重复日志合并、多租户隔离和超长日志治理,系统分析超大型企业使用 Elasticsearch 存储应用日志的工程实践。

阅读方向:适合在设计企业级日志平台、治理 Elasticsearch 日志索引、处理异常风暴、规划多租户隔离或优化日志存储成本时阅读。

搜索基础设施发布 2026/05/22更新 2026/05/28

Elasticsearch 底层架构:Lucene 存储、集群协调与复制机制分析

系统分析 Elasticsearch 基于 Lucene 的底层存储结构、倒排索引、Doc Values、BKD Tree、FST、segment、translog、集群协调、Zen2 和 primary-backup 分片复制机制。

阅读方向:适合在理解 Elasticsearch 为什么不是普通 KV 存储、Lucene 查询效率来源、分片复制一致性、Zen2 集群协调或读写路径时阅读。

应用契约发布 2026/05/04更新 2026/05/28

错误码规范

以 HTTP、gRPC 与 OpenTelemetry 为主标准,统一定义基础错误码、业务异常扩展方式、错误响应载体与观测映射规则。

阅读方向:适合在设计 API 错误模型、跨协议错误响应、业务异常扩展与可观测错误聚合时优先阅读。

操作系统发布 2026/05/18更新 2026/05/28

Linux 文件描述符研究:从“一切皆文件”到 fd 的内核抽象与工程实践

系统梳理 Linux 文件描述符的来源、open file description、VFS、inode、socket、epoll、继承语义和线上工程实践。

阅读方向:适合在学习 Linux I/O 模型、排查 fd 泄漏、理解 socket/epoll 生命周期,或设计高并发服务资源治理时阅读。

Java 工程发布 2026/05/20更新 2026/05/28

gRPC Java 基于 Netty 的分层封装与执行模型研究

系统分析 gRPC Java 如何在 Netty HTTP/2 transport 之上封装 Stub、Channel、Transport、Stream、Call、Interceptor、Listener 和 Observer 等 RPC 语义抽象。

阅读方向:适合在理解 gRPC Java 与 Netty 的分层边界、Interceptor 与 ChannelHandler 的区别、RPC call 生命周期或异步流式执行模型时阅读。

服务可靠性发布 2026/05/24更新 2026/05/28

局部性能优化导致系统可用性下降的典型案例分析

分析线程池、超时、重试、缓存、连接池、聚合接口、异步化、读写分离、批处理、本地缓存、限流、发布、资源隔离、幂等和可观测性等局部优化如何影响系统高可用,并给出工程治理清单。

阅读方向:适合在做高并发/高性能优化、制定稳定性治理规范、压测评审、故障复盘、发布灰度和容量边界设计时阅读。

操作系统发布 2026/05/18更新 2026/05/28

Linux 进程间通信机制及 mmap 用户态调用路径研究

系统梳理 Linux IPC 机制,包括信号、管道、FIFO、UNIX Domain Socket、消息队列、共享内存、mmap、futex、eventfd、epoll,以及 mmap 在多语言用户态到内核系统调用的路径。

阅读方向:适合在学习 Linux 进程间通信、共享内存、mmap 调用链、事件循环或跨语言本机通信方案选型时阅读。

性能工程发布 2026/05/18更新 2026/05/28

Java 序列化性能调研:JDK、Jackson JSON、Jackson Smile、Protobuf、Kryo、Hessian2

基于 java-serialization-compare 项目的测试结果,对 JDK 原生序列化、Jackson JSON、Jackson Smile、Protobuf、Kryo 和 Hessian2 的体积、性能、生态、跨语言能力、schema 演进和安全边界进行横向对比。

阅读方向:适合在评估 Java 服务 RPC、消息队列、缓存、对象持久化或中间件数据交换的序列化方案时阅读。

Java 工程发布 2026/05/18更新 2026/05/28

从 JDK 8 / 11 / 17 迁移至 JDK 21 及以上版本的技术指南

系统分析从 JDK 8、JDK 11、JDK 17 迁移到 JDK 21 及以上版本的路径、收益来源、升级成本、ROI、风险控制、观测手段与回归测试策略。

阅读方向:适合在规划企业 Java 运行时升级、评估 JDK 21/JDK 25、验证虚拟线程或 Generational ZGC 收益,以及设计灰度和回归策略时阅读。

消息中间件发布 2026/05/22更新 2026/05/28

云原生时代消息中间件架构演进研究:以 Apache Kafka 与 Apache Pulsar 为中心

以 Apache Kafka 与 Apache Pulsar 为中心,分析云原生时代消息中间件的架构演进、状态组织、存储分离、多租户、容器化和有状态系统设计边界。

阅读方向:适合在比较 Kafka 与 Pulsar 架构、评估中间件是否应无状态化、容器化部署或采用存储分离方案时阅读。

服务治理发布 2026/05/06更新 2026/05/28

面向微服务内部调用的负载均衡架构选择

系统比较网关负载均衡与客户端负载均衡,给出微服务内部调用场景下的默认架构选择、算法建议与落地实践。

阅读方向:适合在设计微服务内部调用链路、选择负载均衡策略或规划服务治理演进路径时阅读。

平台战略发布 2026/05/04更新 2026/05/28

为什么企业要自研中间件

从技术演进、企业规模与组织治理三个维度,讨论企业为什么会在开源、二开、自研之间反复摇摆,以及基础架构团队的真正边界。

阅读方向:适合在评估中间件建设边界、平台团队职责和企业规模对技术决策影响时阅读。

Java 工程发布 2026/05/20更新 2026/05/28

Netty 参数调优研究:基于问题现象、参数语义与官方文档的系统化分析

系统分析 Netty 4.1 在连接建立、读写缓冲、背压、线程模型、内存分配、连接保活和 Linux native transport 等方面的参数语义、问题现象与调优边界。

阅读方向:适合在排查 Netty 连接突增、小包延迟、写缓冲堆积、EventLoop 阻塞、direct memory 增长或 Linux native transport 选型时阅读。

Java 工程发布 2026/05/18更新 2026/05/28

基于 epoll 的 NIO 网络模型演进与多框架实现研究

围绕 Linux epoll 机制分析 NIO 网络模型演进、epoll 系统调用语义、select/poll/epoll 差异,以及 Netty、Go、Redis、Nginx 的事件驱动实现和虚拟线程边界。

阅读方向:适合在理解 Linux NIO 网络模型、Netty native epoll、Go runtime netpoll、Redis/Nginx 事件模型,或评估虚拟线程与 EventLoop 边界时阅读。

可观测性发布 2026/05/04更新 2026/05/28

可观测规范

以 OpenTelemetry 与 Kubernetes 为主标准,统一定义资源语义、日志 KV 视角、上下文传播、客户端与服务端指标模型及平台落地职责,Stellar 仅承担最小补差角色。

阅读方向:适合在准备统一日志、链路、指标语义并推动平台化落地时优先阅读。

可观测性发布 2026/05/22更新 2026/05/28

告别 ELK 依赖?在 OpenTelemetry 时代重新定义日志治理

从本机文件、集中采集、ELK 平台化到 OpenTelemetry 标准化,系统分析日志治理演进、Java/Go 日志 SDK 选择、Collector 管线、Kafka 缓冲、Gateway 取舍和自定义 Collector 工程价值。

阅读方向:适合在重新设计企业日志治理、从 ELK 中心化采集迁移到 OpenTelemetry、选择 Java/Go 日志 SDK 或设计 Collector 到 Kafka 日志链路时阅读。

可观测性发布 2026/05/22更新 2026/05/28

Prometheus 与 VictoriaMetrics 的技术比较及迁移方法研究

系统比较 Prometheus 与 VictoriaMetrics 的系统定位、数据写入、查询兼容性、存储结构、性能机制,并整理从 Prometheus 迁移到 VictoriaMetrics 的标准路径。

阅读方向:适合在评估 Prometheus 长期存储、VictoriaMetrics 替换方案、vmagent/vmalert 迁移、PromQL 兼容性或大规模时序数据存储架构时阅读。

网络协议发布 2026/05/15更新 2026/05/28

基于 TCP 的自定义应用层协议研究:以 Kafka、Redis、MySQL 为例

结合 Kafka、Redis 和 MySQL,分析基础设施系统为什么会在 TCP 之上设计自定义应用层协议,以及这种设计在性能、语义表达和协议演进上的价值。

阅读方向:适合在评估基础设施通信协议、比较 HTTP 与自定义协议边界,或设计高性能中间件传输层时阅读。

服务可靠性发布 2026/05/06更新 2026/05/28

软件开发中的重试策略最佳实践

从线程池、消息队列、HTTP 和 gRPC 四类典型场景出发,系统总结生产环境中的重试边界、策略选择、幂等要求与落地规范。

阅读方向:适合在设计服务容错机制、治理下游瞬时故障或统一企业级重试规范时阅读。

服务治理发布 2026/05/04更新 2026/05/28

面向超大型企业的微服务命名体系研究

提出一种五段式服务命名模型,用来统一组织边界、业务语义与技术职责表达,支撑超大型企业的服务发现、治理和可观测体系演进。

阅读方向:适合在设计企业级服务命名规范、统一注册中心命名空间,或梳理服务治理规则时优先阅读。

服务可靠性发布 2026/05/12更新 2026/05/28

中间件站点可靠性工程研究

围绕中间件与微服务体系,系统梳理 SLI、SLO、SLA 的定义方法,以及可观测性与服务治理如何形成可靠性闭环。

阅读方向:适合在设计中间件可靠性指标、错误预算机制或构建可观测驱动的服务治理体系时阅读。

消息中间件发布 2026/05/22更新 2026/05/28

基于分布式日志模型的企业级消息队列自研架构研究:以 Stellflow 为例

以 Stellflow 为例,系统归纳企业级消息队列自研架构中的分布式日志模型、数据面协议、Broker 请求链路、存储层、Controller Quorum、Replica、高吞吐数据面和 OpenTelemetry-first 可观测性。

阅读方向:适合在设计企业级消息队列、自研分布式日志系统、规划 Broker/Controller 架构、复制高水位、协议演进或可观测指标体系时阅读。

基础设施发布 2026/05/22更新 2026/05/28

企业级注册中心的架构模型、核心设计与自研实现路径研究:以 StellMap 为例

系统归纳企业级注册中心的服务发现、一致性模型、存储模型、Watch 机制、跨 Region 同步、运维部署,并以 StellMap 总结轻量级强一致自研注册中心实现路径。

阅读方向:适合在比较注册中心架构、设计 CP/AP 服务发现、自研 Raft 注册中心、研究 StellMap 模块化实现或跨 Region 目录同步时阅读。

操作系统发布 2026/05/18更新 2026/05/28

深入研究 Linux task_struct 的设计哲学:从进程描述符到统一任务模型

从统一 task 模型解释 Linux task_struct 如何连接调度、内存、文件、信号、权限、命名空间、cgroup、I/O 和观测等内核子系统。

阅读方向:适合在理解 Linux 进程线程模型、clone 资源共享、内核调度实体或用户态轻量线程边界时阅读。

可靠性工程发布 2026/05/26更新 2026/05/28

高可用、高性能与高并发设计取舍研究

基于 AWS、Google SRE、Azure 与 Kubernetes 等可靠性工程资料,分析高可用、高性能和高并发之间在资源、时间、一致性和复杂度上的冲突,并提出生产系统取舍框架。

阅读方向:适合在进行系统架构评审、容量规划、压测复盘、稳定性治理、限流熔断设计或三高目标取舍时阅读。

性能工程发布 2026/05/12更新 2026/05/28

如何将系统吞吐量提升 10 倍?网络通信全链路优化指南

从批量化、少拷贝、顺序 I/O、zero-copy、pipeline 与减少重复编解码六个方向,系统梳理网络通信链路的高吞吐优化方法。

阅读方向:适合在排查系统吞吐瓶颈、设计高吞吐数据链路或规划网络与存储联合优化方案时阅读。

服务可靠性发布 2026/05/08更新 2026/05/28

网络通信中的超时定义与设置

系统梳理客户端、服务端、代理网关与 gRPC 中的超时类型、根因模型、观测方法和配置原则,强调以阶段化定位和端到端 deadline 治理超时问题。

阅读方向:适合在排查超时根因、设计分层超时模型或统一服务间通信超时规范时阅读。

链路追踪发布 2026/05/04更新 2026/05/28

大型企业跨语言微服务链路追踪技术调研方案

对 OpenTelemetry、Tempo、Jaeger、SkyWalking 与 Zipkin 进行平台化对比,给出大型企业链路追踪底座的推荐架构与落地路径。

阅读方向:适合在选型企业级 Trace 平台、设计统一采集链路或规划可观测底座升级时优先阅读。

可观测性发布 2026/05/26更新 2026/05/28

分布式链路追踪的发展历程

梳理分布式链路追踪从 Dapper、EagleEye、Zipkin、Jaeger、SkyWalking 到 OpenTelemetry 与 Tempo 的演进路径,说明其如何从调用链可视化发展为云原生可观测性标准。

阅读方向:适合在理解链路追踪历史、评估可观测性架构、规划 OpenTelemetry 接入或比较 Zipkin、Jaeger、SkyWalking、Tempo 等系统时阅读。

分布式系统发布 2026/05/27更新 2026/05/28

微服务架构下事务一致性治理的客观分析

从 XA、2PC、Saga、TCC、本地消息表、Transactional Outbox、幂等、领域边界和对账补偿等角度,分析现代微服务为什么不再默认使用传统强一致分布式事务。

阅读方向:适合在设计跨服务一致性方案、评估 XA/2PC 成本、选择 Saga 或 TCC、治理消息双写或重构微服务事务边界时阅读。

性能工程发布 2026/05/15更新 2026/05/28

快不等于优:局部性能最优并不等价于系统整体最优

以 OpenTelemetry Collector、配置中心 Sidecar 和日志 Agent 为案例,结合 Amdahl 定律、Little 定律、尾延迟与云原生官方实践,分析容器内通信机制的系统化选型。

阅读方向:适合在评估容器内进程通信、Sidecar 数据共享、日志采集、遥测上报或共享内存优化方案时阅读。

并发工程发布 2026/05/18更新 2026/05/28

虚拟线程的本质、运行时调度与 Linux 内核线程模型研究

对比 Java 虚拟线程、Go goroutine 与 Linux task_struct,解释用户态调度、阻塞卸载、clone 调用链和内核线程模型的边界。

阅读方向:适合在评估 Java 虚拟线程、Go goroutine、M:N 调度、阻塞 I/O 与 Linux 内核线程关系时阅读。

性能工程发布 2026/05/20更新 2026/05/28

Linux 系统中的数据加载、访问、传输与零拷贝机制研究

研究 Linux 数据访问路径、虚拟内存到物理内存映射、页缓存、task_struct、mm_struct、files_struct、address_space,以及 Direct Memory、sendfile、mmap + write 等零拷贝机制。

阅读方向:适合在学习 Linux 数据路径、页缓存行为、Java NIO transferTo、mmap、Direct Memory 或零拷贝性能实验时阅读。

按主题分类

按问题域归拢,而不是按传统专题策展方式组织。

按年份归档

2026

Powered by VitePress and GitHub Discussions.