面基记录 • 知之愈多，未知亦夥

针对多年经验的 Java 后端开发社招面试,面试官通常会从 技术深度、系统设计能力、项目经验、软技能 等多维度考察。以下是常见考察方向及典型问题分类:

一、Java 核心与底层原理

JVM 与内存管理

详细解释 JVM 内存结构(堆、栈、方法区、元空间)。

在面试中回答 JVM 内存结构时，建议采用 总分总结构，结合技术细节和实际场景，突出对底层机制的理解。以下是优化后的回答模板：

1. 总述 JVM 内存结构

JVM 内存结构是 Java 程序运行的核心基础，主要分为 堆（Heap）、虚拟机栈（JVM Stack）、方法区（Method Area） 和 元空间（Metaspace），不同区域分工明确，共同支撑 Java 的跨平台特性和内存管理机制。

2. 分模块详细解释

(1) 堆（Heap）

- 核心作用：
  - 所有对象实例和数组的内存分配区域（通过 `new` 关键字创建的对象）。
  - 唯一会被垃圾回收器（GC）管理的区域，是 GC 调优的重点。
- 内存划分：
  - 新生代（Young Generation）：
    - Eden 区：对象初次分配的区域（默认占新生代 80%）。
    - Survivor 区（From/To）：用于 Minor GC 后存活对象的暂存（默认各占 10%）。
  - 老年代（Old Generation）：长期存活的对象晋升到此区域（Major GC 触发）。
- 关键问题：
  - OOM 场景：堆内存不足时抛出 `OutOfMemoryError`（如大对象分配、内存泄漏）。
  - 调优参数：`-Xms`（初始堆大小）、`-Xmx`（最大堆大小）、`-XX:NewRatio`（新生代/老年代比例）。

(2) 虚拟机栈（JVM Stack）

- 核心作用：
  - 每个线程私有的内存区域，存储方法调用的 栈帧（Stack Frame）。
  - 栈帧包含 局部变量表、操作数栈、动态链接、方法出口。
- 内存特点：
  - 连续内存分配，访问速度快，但容量有限（默认 1MB，可通过 `-Xss` 调整）。
  - 方法调用过深或局部变量过多时，会抛出 `StackOverflowError`。
- 典型场景：
  - 递归调用未收敛时，栈深度超过限制。
  - 大量局部变量（如超大数组）占用栈空间。

(3) 方法区（Method Area）与元空间（Metaspace）

- 方法区（逻辑概念）：
  - 存储 类信息（Class 元数据）、常量、静态变量、即时编译器编译后的代码。
  - JDK 8 前：通过永久代（PermGen）实现，固定大小易导致 `OOM`。
  - JDK 8+：由元空间（Metaspace）取代，使用本地内存（Native Memory），默认无上限。
- 元空间优势：
  - 避免永久代的 `OOM` 问题（如动态加载大量类时）。
  - 自动扩展内存，通过 `-XX:MaxMetaspaceSize` 限制上限。
- 关键问题：
  - 反射生成的类、动态代理类可能占用元空间内存。
  - 字符串常量池（String Table）在 JDK 7 后移至堆中。

3. 总结与扩展

- 内存协作关系：
  - 堆存储对象实例，栈存储方法调用链，方法区/元空间存储类的元数据。
  - 静态变量（方法区）引用堆中的对象（如 `static Object obj = new Object()`）。
- 面试扩展点：
  - 调优案例：Metaspace 的 `OOM` 通常由类加载器泄漏引起（如未关闭的 Tomcat 热部署）。
  - 工具使用：通过 `jstat -gcutil` 监控堆内存，`jmap` 分析堆转储。
  - 设计思想：JVM 通过划分不同内存区域，实现内存安全隔离和高效回收。

4. 回答示例（简洁版）

“JVM 内存结构主要分为堆、栈、方法区和元空间：

- 堆 是对象实例的存储区域，由 GC 管理，分新生代和老年代；
- 栈 是线程私有的，存储方法调用的栈帧，与程序执行流程紧密相关；
- 方法区 存储类的元数据，JDK 8 后由元空间实现，使用本地内存避免永久代的 OOM 问题。
  实际开发中，堆内存溢出和元空间泄漏是常见问题，需要通过工具分析和参数调优解决。”

5. 加分技巧

1. 结合项目经验：
   “在之前的项目中，我们遇到过 Metaspace 的 OOM，最终定位是动态代理类未释放，通过限制 `MaxMetaspaceSize` 并优化类加载逻辑解决了问题。”

2. 对比其他语言：
   “与 C++ 手动管理内存不同，JVM 通过堆、栈的分工和 GC 机制，降低了内存泄漏风险，但需要开发者理解内存模型以优化性能。”

3. 引述权威资料：
   “《深入理解 Java 虚拟机》中提到，方法区的设计演变体现了 JVM 对动态语言支持能力的提升。”

通过这种结构化、场景化的回答，既能展示技术深度，又能体现解决实际问题的能力，符合高级工程师的面试预期。

垃圾回收算法(标记-清除、G1、ZGC)及调优实战。

一、核心算法解析

1. 标记-清除（Mark-Sweep）
   - 流程：
     - 标记阶段：从GC Roots出发，递归标记所有存活对象（需Stop-The-World）。
     - 清除阶段：线性遍历堆，回收未被标记的内存块。
   - 特点：
     - 优点：实现简单，无对象移动开销。
     - 缺点：内存碎片化，可能引发多次STW。
   - 适用场景：老年代回收（需配合其他算法处理碎片）。

2. G1（Garbage-First）
   - 堆结构：划分为多个Region（1MB~32MB），动态分配Eden/Survivor/Old。
   - 回收阶段：
     - Young GC：回收Eden/Survivor区，STW时间短。
     - Mixed GC：回收部分Old Region（基于回收效益预测）。
     - Full GC（备选）：Serial Old收集器兜底。
   - 核心参数：
     - `-XX:MaxGCPauseMillis=200`：目标最大停顿时间。
     - `-XX:InitiatingHeapOccupancyPercent=45`（IHOP）：触发并发周期的堆占用阈值。
   - 调优案例：
     - 频繁Full GC：增大堆或降低IHOP，避免Mixed GC滞后。
     - 大对象分配：调整RegionSize避免Humongous分配。

3. ZGC（Z Garbage Collector）
   - 核心技术：
     - 染色指针：利用64位指针高位存储标记/转移状态（Linux需映射到42位地址空间）。
     - 读屏障：即时处理指针状态，实现并发转移。
   - 阶段：
     - 并发标记：遍历对象图，标记存活对象。
     - 并发转移：移动对象，消除碎片（无需STW）。
   - 参数示例：
     - `-XX:+UseZGC -Xmx16g`：启用ZGC并设置最大堆。
     - `-XX:ConcGCThreads=4`：调整并发线程数。
   - 调优重点：确保堆足够大（避免分配速率超过并发回收能力），监控页面缓存（`/proc/sys/vm/`参数优化）。

 二、调优实战策略

1. 通用步骤：
   - 日志分析：启用`-Xlog:gc*`（JDK9+）或`-XX:+PrintGCDetails`，关注STW时长、频率及内存变化。
   - 内存分析：结合堆转储（`jmap`）及分析工具（MAT、JProfiler）定位泄漏或大对象。
   - 参数调整：阶梯式调整关键参数（如堆大小、GC线程），监控变化。

2. 场景案例：
   - 高延迟服务（G1）：设置`MaxGCPauseMillis=100`，但需监控是否引发Full GC（可能需增大堆或降低IHOP）。
   - ZGC内存不足：堆占用接近`Xmx`时，观察GC日志中的“Allocation Stall”，适当增加`Xmx`或优化代码减少分配。
   - CMS碎片化（标记-清除衍生）：切换至G1/ZGC，或定期Full GC压缩（`-XX:+UseCMSCompactAtFullCollection`）。

 三、算法对比与选型建议

| 特性          | 标记-清除          | G1                          | ZGC                     |
|---------------|--------------------|-----------------------------|-------------------------|
| 最大堆    | 一般（<10GB）      | 大（～100GB）               | 极大（TB级）            |
| 停顿时间  | 高（全堆STW）      | 可控（～200ms）             | 极低（<10ms）           |
| 吞吐量    | 中                 | 高                          | 中高                    |
| 适用场景  | 传统应用，小堆     | 平衡吞吐与延迟（默认选择）  | 实时系统，超大堆        |

选型指南：
- 中小规模应用：G1（JDK8+默认）均衡性好。
- 低延迟需求：ZGC（JDK11+）或Shenandoah。
- 传统架构：CMS（JDK8及之前）但逐步淘汰。

 四、进阶调优工具
- JFR/JMC：实时监控GC事件及堆压力。
- Perf工具：分析GC导致的CPU波动。
- Tuning指南：参考Oracle官方G1/ZGC专项文档，针对版本优化（如JDK17的ZGC改进）。

通过深入理解各算法原理及结合实战调优，可有效平衡应用吞吐、延迟及内存效率。

如何排查 OOM(内存泄漏 vs 内存溢出)?

排查 OOM（Out Of Memory）问题需要区分是内存泄漏（Memory Leak）还是内存溢出（Memory Overflow），两者表现相似但原因不同。以下是排查步骤和区分方法：

1. 内存泄漏 vs 内存溢出
- 内存泄漏
  对象已不再使用，但因错误引用无法被垃圾回收（GC），导致内存逐渐耗尽。
  特点：内存使用率随时间持续增长，直到 OOM。

- 内存溢出
  应用需要的内存超过了 JVM 堆内存（或直接内存、元空间等）的最大限制。
  特点：可能是突发性内存需求（如加载大文件）或堆内存设置过小。

2. 排查工具
- 内存快照工具
  `jmap`（生成 Heap Dump）、`jcmd`、VisualVM、Eclipse MAT、JProfiler。
- 监控工具
  `jstat`（实时监控 GC）、`jconsole`、Arthas、Prometheus + Grafana。
- GC 日志分析
  启用 JVM 参数 `-XX:+HeapDumpOnOutOfMemoryError` 和 `-Xloggc:<path>`。

3. 排查步骤
步骤 1：确认 OOM 类型
- 查看 OOM 错误信息
  检查日志中 OOM 发生的区域：
  - `java.lang.OutOfMemoryError: Java heap space` → 堆内存溢出。
  - `java.lang.OutOfMemoryError: Metaspace` → 元空间溢出。
  - `java.lang.OutOfMemoryError: Direct buffer memory` → 直接内存溢出。
  - `java.lang.OutOfMemoryError: unable to create new native thread` → 线程数超限。

步骤 2：分析内存使用趋势
- 监控内存占用
  使用 `jstat -gc <pid>` 或 `jconsole` 观察内存是否持续增长（内存泄漏）或突然飙升（内存溢出）。
  - 内存泄漏：多次 Full GC 后，老年代内存占用不下降。
  - 内存溢出：内存瞬间申请量超过堆上限。

步骤 3：生成并分析 Heap Dump
- 生成 Heap Dump
  jmap -dump:format=b,file=heap.hprof <pid>

- 分析工具
  使用 Eclipse MAT 或 JProfiler 分析：
  - 查看 Dominator Tree 或 Histogram，找到占用内存最多的对象。
  - 检查 GC Roots 引用链，确认对象是否被意外持有（如静态集合、未关闭的连接等）。

步骤 4：检查 GC 日志

- 启用 GC 日志
  添加 JVM 参数：
  -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:./gc.log

- 分析 GC 行为
  - 频繁 Full GC 且内存回收效率低 → 可能内存泄漏。
  - Young GC 后对象无法晋升到老年代 → 可能内存溢出。

步骤 5：代码审查

- 常见内存泄漏场景
  - 静态集合（如 `static Map`）未清理。
  - 未关闭资源（数据库连接、文件流、线程池）。
  - 监听器或回调未注销。
  - 内部类持有外部类引用（如 Handler 引用 Activity）。
- 内存溢出场景
  - 一次性加载超大文件到内存（如 Excel 解析）。
  - 递归调用导致栈溢出（`StackOverflowError` 是 OOM 的一种）。

步骤 6：验证与修复

- 内存泄漏
  修复无效引用，优化代码逻辑（如使用弱引用 `WeakReference`）。
- 内存溢出
  - 调整 JVM 参数：增大堆（`-Xmx`）、元空间（`-XX:MaxMetaspaceSize`）或直接内存（`-XX:MaxDirectMemorySize`）。
  - 优化代码：分页加载数据、使用流式处理。

4. 常见案例

案例 1：内存泄漏

- 现象：应用运行几天后 OOM。
- 分析：Heap Dump 显示 `HashMap` 中缓存了大量无用对象。
- 修复：改用 LRU 缓存或定期清理。

 案例 2：内存溢出

- 现象：导入 10GB 文件时 OOM。
- 分析：代码一次性读取整个文件到内存。
- 修复：改用流式处理（如 SAX 解析 XML）。

5. 高级技巧

- 堆外内存排查
  使用 `Native Memory Tracking (NMT)` 分析直接内存：
  -XX:NativeMemoryTracking=detail
  jcmd <pid> VM.native_memory detail

- 容器环境排查
  检查 Docker/K8s 内存限制是否与 JVM 堆设置冲突。

通过以上步骤，可以准确定位 OOM 是泄漏还是溢出，并针对性解决。

类加载机制与双亲委派模型(如何打破?场景?)。

类加载机制与双亲委派模型详解

一、类加载机制
类加载是JVM将字节码（`.class`文件）加载到内存并生成`Class`对象的过程，分为以下阶段：

1. 加载（Loading）
   - 目标：通过类的全限定名（如`java.lang.String`）获取字节码（从文件、网络、动态生成等）。
   - 结果：生成`java.lang.Class`对象，作为方法区中该类的访问入口。

2. 验证（Verification）
   - 作用：确保字节码符合JVM规范，防止恶意代码破坏运行时安全。
   - 关键检查：文件格式、元数据、字节码语义、符号引用合法性。

3. 准备（Preparation）
   - 内存分配：为类变量（`static`变量）分配内存，并设置默认值（如`int`初始化为0，引用初始化为`null`）。
   - 注意：此时不会执行静态代码块或显式赋值（这些在初始化阶段完成）。

4. 解析（Resolution）
   - 符号引用转直接引用：将常量池中的符号引用（如类名、方法名）转换为内存地址或偏移量。

5. 初始化（Initialization）
   - 执行静态代码：执行`<clinit>`方法（由编译器生成，包含所有`static`变量赋值和静态代码块）。
   - 触发条件：首次主动使用类（如`new`实例、调用静态方法、访问静态字段等）。

二、双亲委派模型
双亲委派模型（Parent Delegation Model）是类加载器的协作规则，确保类的唯一性和安全性。

1. 类加载器层级
   | 类加载器                  | 加载范围                                 | 实现语言 |
   |---------------------------|----------------------------------------|----------|
   | Bootstrap ClassLoader | `JRE/lib`下的核心库（如`rt.jar`）        | C++      |
   | Extension ClassLoader | `JRE/lib/ext`下的扩展库                 | Java     |
   | Application ClassLoader | 应用类路径（`-classpath`或`CLASSPATH`） | Java     |
   | 自定义类加载器           | 用户自定义路径（如网络、热部署目录）       | Java     |

2. 工作流程
   当类加载器收到加载请求时：
   - 步骤1：委派父加载器尝试加载。
   - 步骤2：若父加载器无法完成，才由自己加载。
   - 示例：
     // 加载java.lang.String时，Application ClassLoader会逐层委派到Bootstrap ClassLoader
     ClassLoader loader = String.class.getClassLoader();
     System.out.println(loader); // 输出null（由Bootstrap ClassLoader加载）

3. 核心优势
   - 避免重复加载：父加载器已加载的类，子加载器不会重复加载。
   - 防止核心类篡改：自定义的`java.lang.Object`无法被加载，确保安全。

三、如何打破双亲委派模型？
在特定场景下需要绕过双亲委派机制，常见方法如下：

方法1：重写`loadClass()`方法
默认的`ClassLoader.loadClass()`实现了双亲委派逻辑，自定义类加载器时，重写此方法可跳过委派。

示例代码：
public class CustomClassLoader extends ClassLoader {
    @Override
    public Class<?> loadClass(String name) throws ClassNotFoundException {
        // 自定义规则：若类名以"com.example"开头，直接加载，否则委派给父类
        if (name.startsWith("com.example")) {
            return findClass(name);
        }
        return super.loadClass(name);
    }

    @Override
    protected Class<?> findClass(String name) {
        byte[] bytes = loadClassBytes(name); // 从自定义路径读取字节码
        return defineClass(name, bytes, 0, bytes.length);
    }
}

方法2：使用线程上下文类加载器（Context ClassLoader）
场景：当高层类（如JVM核心类）需要加载低层实现类时（如JDBC驱动）。
原理：通过`Thread.currentThread().setContextClassLoader()`设置当前线程的类加载器，绕过默认委派。

示例：JDBC的`ServiceLoader`机制：
// java.sql.DriverManager的静态代码块中：
ServiceLoader<Driver> loadedDrivers = ServiceLoader.load(Driver.class);
// 实际通过Thread.currentThread().getContextClassLoader()加载驱动实现类

四、打破双亲委派的典型场景

| 场景                | 说明                                                                 | 技术实现                                  |
|---------------------|----------------------------------------------------------------------|-------------------------------------------|
| 热部署           | 应用服务器（如Tomcat）需动态替换类，无需重启                          | 每个Web应用使用独立类加载器，直接加载新类 |
| 模块化框架（OSGi） | 不同模块可加载同一类的不同版本，实现隔离                             | 类加载器形成网状结构，按需加载            |
| SPI扩展机制      | 核心库（如JDBC）需加载第三方实现类（如MySQL驱动）                    | 上下文类加载器反向委派                    |
| 兼容旧版本库     | 运行旧版本库时，避免与新版本冲突                                     | 自定义类加载器隔离加载旧类                |

五、注意事项

1. 类隔离的代价
   打破双亲委派可能导致内存中多份相同类，引发类型转换异常（如`instanceof`失效）。

2. Jigsaw模块化（Java 9+）
   Java模块化系统引入新的类加载机制，部分替代传统双亲委派模型，但仍兼容原有逻辑。

六、总结

- 双亲委派是默认规则，确保类加载的安全性和唯一性。
- 打破委派需谨慎，仅在明确需求时（如热部署、模块隔离）使用。
- 技术手段包括重写`loadClass()`或利用上下文类加载器，核心目标是实现灵活性与隔离性。

并发与多线程

synchronized 和 ReentrantLock 的实现差异及适用场景。

`synchronized` 和 `ReentrantLock` 是 Java 中两种不同的锁机制，它们的实现原理、功能特性及适用场景存在显著差异。以下是详细分析：

一、实现差异
1. 底层实现
- `synchronized`：
  - JVM 内置锁：依赖 JVM 的 `monitorenter` 和 `monitorexit` 指令实现。
  - 锁对象：每个 Java 对象都有一个关联的监视器（Monitor），通过修改对象头中的锁标志位实现锁状态管理。
  - 优化机制：JDK 6 引入了偏向锁、轻量级锁、重量级锁的升级机制（锁膨胀），减少性能开销。

- `ReentrantLock`：
  - 基于 AQS（AbstractQueuedSynchronizer）：通过 `volatile` 变量和 CAS（Compare-And-Swap）操作实现锁的获取与释放。
  - 显式锁：需要手动调用 `lock()` 和 `unlock()` 方法，通常配合 `try-finally` 块使用。
  - 可扩展性：AQS 提供了灵活的模板方法，支持自定义同步器（如读写锁）。

2. 锁的特性
- 公平性：
  - `synchronized` 仅支持非公平锁。
  - `ReentrantLock` 可选择公平锁或非公平锁（默认非公平）。

- 可中断性：
  - `synchronized` 在等待锁时不可中断，线程会一直阻塞。
  - `ReentrantLock` 支持可中断的锁获取（`lockInterruptibly()`）。

- 超时机制：
  - `synchronized` 不支持超时。
  - `ReentrantLock` 可通过 `tryLock(long timeout, TimeUnit unit)` 实现超时等待。

- 条件变量：
  - `synchronized` 通过 `wait()`、`notify()` 和 `notifyAll()` 操作一个隐式条件变量。
  - `ReentrantLock` 可通过 `newCondition()` 创建多个条件变量（`Condition` 对象），实现更细粒度的线程唤醒。

二、适用场景
1. 优先使用 `synchronized` 的场景
- 简单同步需求：如单方法或代码块的互斥访问。
- 代码简洁性：无需手动释放锁，避免因异常导致死锁。
- 低竞争环境：JVM 的锁优化（如偏向锁）在低竞争下性能较好。
- 维护性要求高：代码可读性强，适合团队协作或快速开发。

示例：
public synchronized void increment() {
    count++; // 简单同步方法
}

2. 优先使用 `ReentrantLock` 的场景
- 复杂同步需求：
  - 需要公平锁（如任务调度需按顺序执行）。
  - 需要可中断锁（如取消长时间等待的任务）。
  - 需要超时机制（如避免死锁）。

- 细粒度控制：
  - 多个条件变量（如生产者-消费者模型中区分“非空”和“非满”条件）。

- 高竞争环境：
  - 非公平锁在竞争激烈时吞吐量更高。

示例：
ReentrantLock lock = new ReentrantLock();
Condition notEmpty = lock.newCondition();
Condition notFull = lock.newCondition();

public void produce() {
    lock.lock();
    try {
        while (queue.isFull()) {
            notFull.await(); // 等待“非满”条件
        }
        queue.add(item);
        notEmpty.signal(); // 唤醒“非空”条件
    } finally {
        lock.unlock();
    }
}

三、性能对比
- 低竞争场景：`synchronized` 性能更优（JVM 优化生效）。
- 高竞争场景：`ReentrantLock` 的非公平模式吞吐量更高。
- 公平性需求：`ReentrantLock` 的公平锁性能略低，但能保证顺序性。

四、总结
| 特性               | `synchronized`                     | `ReentrantLock`                    |
|------------------------|------------------------------------|------------------------------------|
| 实现方式               | JVM 内置，自动管理                | 基于 AQS，手动控制                 |
| 公平性                 | 仅非公平                          | 支持公平和非公平                   |
| 可中断性               | 不支持                            | 支持                               |
| 超时机制               | 不支持                            | 支持                               |
| 条件变量               | 单个隐式条件                      | 多个显式条件                       |
| 锁释放                 | 自动释放（代码块结束或异常）      | 必须手动调用 `unlock()`            |
| 适用场景               | 简单同步、低竞争环境              | 复杂同步、高竞争环境、细粒度控制   |

选择建议：
- 默认使用 `synchronized`，满足大部分场景需求。
- 当需要高级功能（如公平性、可中断、超时、多条件变量）时，选择 `ReentrantLock`。

AQS(AbstractQueuedSynchronizer)工作原理。

AbstractQueuedSynchronizer（AQS）是Java并发包中构建锁和同步器的核心框架，其工作原理可分为以下几个关键部分：

1. 核心组件
- 同步状态（State）
  通过`volatile int state`变量表示资源状态（如锁的持有次数、信号量许可数等）。状态的原子性更新依赖CAS操作（如`compareAndSetState`）。

- CLH队列（线程等待队列）
  基于双向链表实现的FIFO队列，存储等待获取资源的线程。每个节点（Node）封装线程、状态（如等待模式）及前后指针。

2. 工作流程
2.1 获取资源（以独占模式为例）
1. 尝试获取资源
   调用子类实现的`tryAcquire(int arg)`，若成功（返回`true`），直接执行线程任务。

2. 加入等待队列
   若失败，将线程封装为Node（模式为独占），通过CAS添加到队列尾部。

3. 自旋检查与阻塞
   - 前驱是头节点：再次尝试`tryAcquire`，成功则将自己设为头节点并退出。
   - 非头节点或仍失败：检查前驱节点状态，若需阻塞则调用`LockSupport.park()`挂起线程。

2.2 释放资源
1. 尝试释放资源
   调用子类实现的`tryRelease(int arg)`，若成功（返回`true`），调整`state`值。

2. 唤醒后续节点
   检查头节点状态，若后续节点存在且需要唤醒（如`waitStatus=SIGNAL`），则通过`LockSupport.unpark()`唤醒其线程。

3. 模式区分
- 独占模式（Exclusive）
  资源仅允许一个线程持有（如`ReentrantLock`）。核心方法为`acquire()`/`release()`。

- 共享模式（Shared）
  资源允许多个线程共享（如`Semaphore`）。核心方法为`acquireShared()`/`releaseShared()`，释放时可能唤醒多个后续节点。

4. 关键机制
- CAS操作
  用于安全更新`state`和队列节点（如尾节点插入、头节点移除）。

- 线程阻塞与唤醒
  通过`LockSupport`的`park()`/`unpark()`避免线程忙等待，减少CPU消耗。

- 节点状态（waitStatus）
  - CANCELLED (1)：线程因超时或中断放弃等待。
  - SIGNAL (-1)：后续节点需被唤醒。
  - CONDITION (-2)：节点处于条件队列（如`Condition`实现）。

5. 模板方法模式
- 需子类实现的方法
  `tryAcquire`、`tryRelease`（独占模式）或`tryAcquireShared`、`tryReleaseShared`（共享模式），定义资源获取与释放的具体逻辑。

- 示例：ReentrantLock中的Sync类
  protected final boolean tryAcquire(int acquires) {
      final Thread current = Thread.currentThread();
      int c = getState();
      if (c == 0) { // 锁未被持有
          if (compareAndSetState(0, acquires)) {
              setExclusiveOwnerThread(current);
              return true;
          }
      } else if (current == getExclusiveOwnerThread()) { // 重入
          setState(c + acquires);
          return true;
      }
      return false;
  }

6. 条件变量（Condition）
- 条件队列
  每个`Condition`对象维护一个单向链表队列。调用`await()`时，线程加入条件队列并释放锁；调用`signal()`时，将节点移至同步队列等待获取锁。

总结
AQS通过模板方法将资源管理逻辑（如状态操作）委托给子类，自身专注于线程排队、阻塞与唤醒的高效调度。其设计实现了同步器的通用性，极大简化了并发工具（如ReentrantLock、CountDownLatch等）的开发。理解AQS需重点掌握状态管理、队列操作及线程协作机制。

ThreadLocal 的内存泄漏问题与解决方案。

`ThreadLocal` 在 Java 中用于存储线程本地变量，可以为每个线程提供独立的数据存储，从而避免线程共享数据带来的并发问题。然而，不当使用 `ThreadLocal` 可能会导致内存泄漏问题，主要原因如下：

1. ThreadLocal 内存泄漏的原因
(1) ThreadLocalMap 的 Key 是弱引用
- `ThreadLocal` 的变量存储在 `ThreadLocalMap` 中，而 `ThreadLocalMap` 是 `Thread` 内部的一个成员变量。
- `ThreadLocalMap` 的 Key（即 `ThreadLocal` 实例）是弱引用，而 Value（存储的值）是强引用。
- 当 `ThreadLocal` 对象被垃圾回收（GC）后，Key 变为 `null`，但 Value 仍然存在，无法被正常访问或回收，导致内存泄漏。

(2) 线程池导致 `ThreadLocal` 变量长时间不释放
- 在线程池环境下，线程会被复用，而 `ThreadLocal` 变量存储在 `Thread` 的 `ThreadLocalMap` 中。
- 如果不手动清理 `ThreadLocal` 变量，即使线程执行完任务后，数据仍然会残留在 `ThreadLocalMap` 中，影响后续任务，甚至导致内存泄漏。

(3) 强引用 Value
- `ThreadLocalMap` 中的 Value 是强引用，即使 Key 被回收，Value 仍然无法被 GC 及时回收。

2. 解决方案
(1) 手动移除 `ThreadLocal`
在使用完 `ThreadLocal` 后，显式调用 `remove()` 方法清理存储的变量：
ThreadLocal<String> threadLocal = new ThreadLocal<>();

try {
    threadLocal.set("data");
    // 业务逻辑处理
} finally {
    threadLocal.remove(); // 避免内存泄漏
}
为什么用 `finally`？
- 任何情况下都能确保 `remove()` 被执行，防止异常导致变量未清理。

(2) 使用 `InheritableThreadLocal` 时同样清理
如果使用了 `InheritableThreadLocal`（允许子线程继承父线程的 `ThreadLocal` 变量），同样需要在使用后进行 `remove()` 操作：
InheritableThreadLocal<String> threadLocal = new InheritableThreadLocal<>();

try {
    threadLocal.set("parent-thread-data");
    // 业务逻辑
} finally {
    threadLocal.remove(); // 防止子线程继承变量导致的内存泄漏
}

(3) 线程池中慎用 `ThreadLocal`
由于线程池中的线程不会立即销毁，如果 `ThreadLocal` 变量不被清除，会一直存留在 `ThreadLocalMap` 中。因此：
- 确保在任务结束后清理 `ThreadLocal` 变量。
- 避免在线程池中长期存储大对象。

示例：
ExecutorService executor = Executors.newFixedThreadPool(5);
ThreadLocal<Integer> threadLocal = new ThreadLocal<>();

for (int i = 0; i < 10; i++) {
    executor.submit(() -> {
        try {
            threadLocal.set((int) (Math.random() * 100));
            System.out.println(Thread.currentThread().getName() + ": " + threadLocal.get());
        } finally {
            threadLocal.remove(); // 防止线程池复用导致的数据污染
        }
    });
}
executor.shutdown();

(4) 使用 `WeakReference` 包装 `ThreadLocal`
如果希望 `ThreadLocal` 变量在不需要时自动被 GC 释放，可以用 `WeakReference`：
ThreadLocal<String> threadLocal = new ThreadLocal<>();
WeakReference<ThreadLocal<String>> weakRef = new WeakReference<>(threadLocal);
但通常 `ThreadLocal` 设计本身已经使用了弱引用 Key，因此一般情况下不需要手动用 `WeakReference`。

3. 总结
| 问题 | 原因 | 解决方案 |
|----------|----------|--------------|
| `ThreadLocal` 变量未清理 | `ThreadLocalMap` 的 Key 是弱引用，Value 是强引用，导致 Key 被回收后 Value 仍然存在 | 使用 `remove()` 方法手动清除 |
| 线程池导致变量残留 | 线程被复用，未清除的 `ThreadLocal` 变量影响新任务 | 在任务执行完后 `remove()` 变量 |
| 子线程继承父线程变量 | `InheritableThreadLocal` 变量可能影响子线程 | 使用 `remove()` 清理 |
| 强引用导致内存泄漏 | `ThreadLocalMap` 的 Value 是强引用，不能自动回收 | 手动 `remove()` 或用 `WeakReference` |

最重要的 最佳实践 是：
1. 使用 `try-finally` 结构确保 `remove()` 执行。
2. 在线程池环境下使用 `ThreadLocal` 时格外小心，确保任务结束后清理变量。
3. 避免存储大对象到 `ThreadLocal`，可以使用 `WeakReference` 或 `SoftReference` 进行优化。

这样可以有效避免 `ThreadLocal` 可能引发的内存泄漏问题。

CompletableFuture 如何实现异步编程?

`CompletableFuture` 是 Java 8 引入的强大工具，用于实现异步编程。它支持非阻塞执行、回调处理和组合任务，是 `Future` 的增强版。

1. 基本使用
(1) 创建异步任务
CompletableFuture<String> future = CompletableFuture.supplyAsync(() -> {
    // 模拟耗时操作
    sleep(2);
    return "Hello, CompletableFuture!";
});

// 获取结果（阻塞）
System.out.println(future.get());
- `supplyAsync(Supplier<T>)`：异步执行，有返回值。
- `runAsync(Runnable)`：异步执行，无返回值。

(2) 结合 `thenApply()` 进行结果转换
CompletableFuture<Integer> future = CompletableFuture.supplyAsync(() -> "42")
    .thenApply(Integer::parseInt);

System.out.println(future.get()); // 42
- `thenApply(Function<T, R>)`：对前一个 `CompletableFuture` 结果进行转换，返回新的 `CompletableFuture<R>`。

(3) 组合多个任务
(a) `thenCombine()` 组合两个任务的结果
CompletableFuture<Integer> future1 = CompletableFuture.supplyAsync(() -> 10);
CompletableFuture<Integer> future2 = CompletableFuture.supplyAsync(() -> 20);

CompletableFuture<Integer> result = future1.thenCombine(future2, Integer::sum);
System.out.println(result.get()); // 30
- `thenCombine(future, BiFunction<T, U, R>)`：两个 `CompletableFuture` 结束后，将它们的结果合并。

(b) `thenCompose()` 进行任务依赖
CompletableFuture<String> future = CompletableFuture.supplyAsync(() -> "Hello")
    .thenCompose(msg -> CompletableFuture.supplyAsync(() -> msg + " World"));

System.out.println(future.get()); // Hello World
- `thenCompose(Function<T, CompletableFuture<R>>)`：第一个 `CompletableFuture` 结束后，返回另一个 `CompletableFuture`（适用于依赖任务）。

(4) 处理异常
(a) 使用 `exceptionally()`
CompletableFuture<Integer> future = CompletableFuture.supplyAsync(() -> {
    if (true) throw new RuntimeException("Something went wrong");
    return 42;
}).exceptionally(ex -> {
    System.out.println("Error: " + ex.getMessage());
    return -1;
});

System.out.println(future.get()); // -1
- `exceptionally(Function<Throwable, T>)`：当 `CompletableFuture` 出现异常时，返回默认值。

(b) 使用 `handle()`
CompletableFuture<Integer> future = CompletableFuture.supplyAsync(() -> {
    if (true) throw new RuntimeException("Error");
    return 10;
}).handle((result, ex) -> {
    if (ex != null) {
        System.out.println("Caught exception: " + ex.getMessage());
        return -1;
    }
    return result;
});

System.out.println(future.get()); // -1
- `handle(BiFunction<T, Throwable, R>)`：无论是否有异常都会执行，可处理异常并返回值。

2. 并行执行多个任务
(1) `allOf()`：等待所有任务完成
CompletableFuture<String> future1 = CompletableFuture.supplyAsync(() -> "Task1");
CompletableFuture<String> future2 = CompletableFuture.supplyAsync(() -> "Task2");

CompletableFuture<Void> all = CompletableFuture.allOf(future1, future2);

all.join(); // 等待所有任务完成
System.out.println(future1.get() + ", " + future2.get()); // Task1, Task2
- `allOf(futures...)`：等待所有 `CompletableFuture` 任务完成，不返回结果。

(2) `anyOf()`：任意一个完成就返回
CompletableFuture<String> future1 = CompletableFuture.supplyAsync(() -> {
    sleep(3);
    return "Task1";
});

CompletableFuture<String> future2 = CompletableFuture.supplyAsync(() -> {
    sleep(1);
    return "Task2";
});

CompletableFuture<Object> any = CompletableFuture.anyOf(future1, future2);
System.out.println(any.get()); // Task2
- `anyOf(futures...)`：任意一个 `CompletableFuture` 完成后返回该任务的结果。

3. 自定义线程池
默认情况下，`CompletableFuture` 使用公共线程池 `ForkJoinPool.commonPool()`，但可以传入自定义线程池：
ExecutorService executor = Executors.newFixedThreadPool(5);

CompletableFuture<String> future = CompletableFuture.supplyAsync(() -> {
    sleep(2);
    return "Custom ThreadPool";
}, executor);

System.out.println(future.get()); // Custom ThreadPool
executor.shutdown();
- 传入 `executor` 以使用自定义线程池，避免公共线程池被过度占用。

4. 重要方法对比
| 方法 | 作用 | 是否有前置任务 | 是否可接收上一个结果 |
|------|------|--------------|------------------|
| `supplyAsync` | 异步执行任务并返回结果 | 否 | 否 |
| `runAsync` | 异步执行任务但无返回 | 否 | 否 |
| `thenApply` | 处理前任务结果并转换 | 是 | 是 |
| `thenAccept` | 处理前任务结果但不返回 | 是 | 是 |
| `thenRun` | 前任务执行完后执行新任务但无参数 | 是 | 否 |
| `thenCombine` | 组合两个任务结果 | 是 | 是 |
| `thenCompose` | 依赖前任务结果返回新任务 | 是 | 是 |
| `allOf` | 等待所有任务完成 | 是 | 否 |
| `anyOf` | 任意任务完成即返回 | 是 | 否 |
| `exceptionally` | 处理异常并提供默认值 | 是 | 是 |
| `handle` | 处理异常或正常结果 | 是 | 是 |

5. 总结
✅ `CompletableFuture` 适用于异步、非阻塞编程，提升性能。
✅ 可以组合任务、处理异常、使用 `thenApply` / `thenCombine` / `allOf` 等方法实现复杂异步流程。
✅ 自定义线程池可以避免默认 `ForkJoinPool` 线程被占满。
✅ 推荐使用 `try-catch` 或 `exceptionally()` / `handle()` 处理异常。

这样，`CompletableFuture` 可以帮助我们编写更加高效、清晰的异步代码！🚀

如何设计一个无锁化的高并发计数器?

设计无锁化的高并发计数器通常需要避免使用 `synchronized` 或 `ReentrantLock` 这样的显式锁，而是采用无锁（lock-free）或无争用（wait-free）的方法，最大化并发性能。

方案 1：使用 `AtomicLong`
`AtomicLong` 采用 CAS（Compare-And-Swap） 原理，可以无锁地保证计数的正确性：
import java.util.concurrent.atomic.AtomicLong;

public class AtomicCounter {
    private final AtomicLong count = new AtomicLong(0);

    public void increment() {
        count.incrementAndGet(); // 线程安全，无锁
    }

    public long get() {
        return count.get();
    }
}
优点
✅ `AtomicLong` 内部使用 CAS（比较并交换），性能优于 `synchronized`。
✅ 适用于 中等并发 场景，多个线程更新不会产生锁竞争。

缺点
❌ 高并发下 CAS 可能会产生自旋，导致 CPU 资源浪费。
❌ `AtomicLong` 只有一个变量，所有线程都在竞争同一内存地址，伪共享 影响性能。

---

方案 2：`LongAdder`（推荐）
`LongAdder` 是 `AtomicLong` 的增强版，内部维护了多个 `Cell`（变量槽），不同线程操作不同槽，减少 CAS 冲突：
import java.util.concurrent.atomic.LongAdder;

public class LongAdderCounter {
    private final LongAdder count = new LongAdder();

    public void increment() {
        count.increment(); // 高并发下更优
    }

    public long get() {
        return count.sum();
    }
}
优点
✅ 适用于 超高并发，性能远超 `AtomicLong`，避免了 CAS 竞争。
✅ 线程在不同 `Cell` 变量槽上操作，减少伪共享，提高吞吐量。

缺点
❌ `LongAdder` 适用于 累加场景，但不能减小计数，如 `decrement()`。
❌ 适用于 统计类场景，不适合精确计数（如需精确值时可能有短暂偏差）。

---

方案 3：基于 `ThreadLocal` 的无锁计数器
对于 线程独立 的计数，可以使用 `ThreadLocal`，让每个线程维护自己的计数：
import java.util.concurrent.ConcurrentHashMap;
import java.util.concurrent.atomic.AtomicLong;

public class ThreadLocalCounter {
    private static final ThreadLocal<Long> localCount = ThreadLocal.withInitial(() -> 0L);
    private static final ConcurrentHashMap<Long, AtomicLong> counts = new ConcurrentHashMap<>();

    public void increment() {
        long threadId = Thread.currentThread().getId();
        counts.computeIfAbsent(threadId, k -> new AtomicLong(0)).incrementAndGet();
    }

    public long get() {
        return counts.values().stream().mapToLong(AtomicLong::get).sum();
    }
}
优点
✅ 避免 CAS 竞争，每个线程有自己独立的计数器。
✅ 适用于 线程数有限 的场景，如固定线程池。

缺点
❌ 不适合线程池，因为线程可能被回收，导致内存泄漏。
❌ `ThreadLocal` 需要在 线程结束后手动清理，否则会占用内存。

---

方案 4：使用 `VarHandle`（Java 9+）
Java 9+ 提供了 `VarHandle`，它比 `AtomicLong` 更底层，支持更快的无锁操作：
import java.lang.invoke.MethodHandles;
import java.lang.invoke.VarHandle;

public class VarHandleCounter {
    private volatile long count = 0;
    private static final VarHandle COUNT_HANDLE;

    static {
        try {
            COUNT_HANDLE = MethodHandles.lookup().findVarHandle(VarHandleCounter.class, "count", long.class);
        } catch (Exception e) {
            throw new Error(e);
        }
    }

    public void increment() {
        long prev;
        do {
            prev = (long) COUNT_HANDLE.getVolatile(this);
        } while (!COUNT_HANDLE.compareAndSet(this, prev, prev + 1));
    }

    public long get() {
        return count;
    }
}
优点
✅ 速度比 `AtomicLong` 更快，避免 `Atomic` 类的额外封装开销。
✅ 减少伪共享问题，提高并发性能。

缺点
❌ 仅适用于 Java 9+，旧版本无法使用。
❌ 代码复杂，可读性较低，难以维护。

---

对比总结
| 方案 | 适用场景 | 线程安全 | 性能 |
|------|---------|----------|------|
| `AtomicLong` | 低/中等并发 | ✅ | ⭐⭐⭐ |
| `LongAdder` | 高并发统计 | ✅ | ⭐⭐⭐⭐⭐ |
| `ThreadLocal` | 线程隔离 | ✅（线程安全） | ⭐⭐⭐⭐ |
| `VarHandle` | 高性能计数 | ✅ | ⭐⭐⭐⭐ |

最佳选择
- 🚀 一般情况：`AtomicLong`
- 🚀 超高并发（写多读少）：`LongAdder`
- 🚀 每个线程独立统计：`ThreadLocal`
- 🚀 极致性能追求（Java 9+）：`VarHandle`

在 高并发场景下，`LongAdder` 是最佳选择，因为它通过分段计数减少了 CAS 冲突，大幅提升吞吐量！ 🚀

Java 新特性

Java 8~17 的核心改进(Record、Pattern Matching、ZGC 等)。

Java 8 到 Java 17 期间，JDK 进行了大量的改进，涵盖语法增强、性能优化、GC（垃圾回收）、并发、JVM 调优等方面。以下是核心改进的概述：

Java 8 (2014) - 现代 Java 的基础
主要特性：
1. Lambda 表达式（`() -> {}`）
2. Stream API（`stream().map().filter().collect()`）
3. 默认方法（`default` 方法，接口可以有实现）
4. Optional 类（避免 `NullPointerException`）
5. 新日期时间 API（`java.time`）
6. Nashorn JavaScript 引擎（替换 Rhino）
7. 并发增强（`CompletableFuture`、`StampedLock`）

Java 9 (2017) - 模块化与性能优化
主要特性：
1. 模块化系统（Jigsaw 项目）（`module-info.java`）
2. JShell（REPL 交互式编程环境）
3. 改进的 GC（G1 作为默认 GC）
4. 新 `ProcessHandle` API（管理 OS 进程）
5. 改进 Stream API（`takeWhile`、`dropWhile`）
6. 改进 `Optional`（`ifPresentOrElse`）

Java 10 (2018) - `var` 语法糖
主要特性：
1. 局部变量类型推断 (`var`)
2. G1 GC 改进（支持并行 Full GC）
3. 应用类数据共享（AppCDS）（降低 JVM 启动时间）
4. 垃圾回收改进（GC 选项调整）
5. `Optional.orElseThrow()`（避免返回 `null`）

Java 11 (2018 LTS) - 标准化 HTTP 客户端
主要特性：
1. 标准化 HTTP 客户端 (`java.net.http`)
2. 单文件运行 Java (`java Hello.java`)
3. ZGC（低停顿时间的垃圾回收器）（实验性）
4. Lambda 局部变量 `var` 支持
5. 移除 Java EE & CORBA（如 `javax.xml.bind`）

Java 12 (2019) - Switch 表达式
主要特性：
1. Switch 表达式（预览）（支持 `->` 语法）
2. Shenandoah GC（低停顿时间 GC）
3. G1 GC 改进（减少 Full GC 触发概率）
4. JVM 常量 API（优化类加载）

Java 13 (2019) - 文本块
主要特性：
1. 文本块（预览）（多行字符串，`"""`）
2. Switch 表达式（正式版）
3. ZGC 改进（支持卸载类，提高吞吐量）

Java 14 (2020) - Record 类 & Pattern Matching
主要特性：
1. `Record`（数据类）（预览）
   record Person(String name, int age) {}
2. `instanceof` 模式匹配（预览）
   if (obj instanceof String s) {
       System.out.println(s.length());
   }
3. JVM 事件记录器（JFR）（增强诊断能力）
4. 改进 `NullPointerException` 消息（`-XX:+ShowCodeDetailsInExceptionMessages`）

Java 15 (2020) - `sealed` 关键字
主要特性：
1. `sealed` 类（控制继承关系）
   sealed class Shape permits Circle, Square {}
   final class Circle extends Shape {}
   final class Square extends Shape {}
2. ZGC 支持类卸载（正式版）
3. 文本块正式版（`"""`）
4. 隐藏类（Hidden Classes）（用于动态代理）

Java 16 (2021) - `Pattern Matching` for `instanceof`
主要特性：
1. `Pattern Matching` for `instanceof`（正式版）
2. `Record`（正式版）
3. `Stream.toList()`（不可变列表）
4. ZGC 退出实验状态（成为正式 GC）
5. Unix Domain Socket 支持

Java 17 (2021 LTS) - 新的 LTS 版本
主要特性：
1. `sealed` 类（正式版）
2. ZGC 性能优化（减少内存占用）
3. 移除过时 API（如 `SecurityManager`）
4. 模式匹配 `switch`（预览）
5. `Foreign Function & Memory API`（预览）

总结
| 版本  | 关键特性 |
|------|----------------|
| Java 8  | Lambda, Stream, Optional, 新时间 API |
| Java 9  | 模块系统（Jigsaw）, JShell, G1 GC 默认 |
| Java 10 | `var` 变量, AppCDS, G1 GC 改进 |
| Java 11 | 标准 HTTP 客户端, 单文件运行, ZGC |
| Java 12 | Switch 表达式, Shenandoah GC |
| Java 13 | 文本块, ZGC 改进 |
| Java 14 | `Record`（预览）, `instanceof` 模式匹配 |
| Java 15 | `sealed` 类, ZGC 类卸载 |
| Java 16 | `Record`（正式版）, `Stream.toList()` |
| Java 17 | `sealed` 类（正式版）, `Pattern Matching` for `switch` |

Java 17 是 LTS 版本，适合长期维护和生产环境使用。
如果你的项目仍在使用 Java 8 或 Java 11，考虑迁移到 Java 17，可以获得更好的性能、语法简化和更低的 GC 停顿。

你现在的 Java 版本是多少？有没有考虑升级？

响应式编程(Reactor 或 Spring WebFlux)的理解。

响应式编程 (Reactor / Spring WebFlux) 的理解

1. 什么是响应式编程？
响应式编程（Reactive Programming） 是一种异步、非阻塞的编程范式，核心思想是数据流（Stream）+ 事件驱动（Event-Driven），可以高效处理大并发、高吞吐的场景。

在传统的阻塞式编程（如 Spring MVC）中，线程会被 I/O 操作（如数据库查询、HTTP 调用）阻塞，导致资源浪费。而响应式编程使用异步非阻塞模型，线程不会等待 I/O 完成，而是继续执行其他任务，提高了吞吐量和资源利用率。

2. Reactor & Spring WebFlux
Reactor 是 Java 响应式编程的核心库，提供了 `Mono` 和 `Flux` 作为响应式数据流的核心抽象。Spring WebFlux 是 Spring 框架基于 Reactor 的响应式 Web 框架。

📌 Reactor 的核心组件
| 组件 | 描述 |
|----------|---------|
| `Mono<T>` | 0~1 个元素（单值响应）|
| `Flux<T>` | 0~N 个元素（多值响应）|
| `Publisher` | 响应式流的发布者（Mono & Flux 实现了 Publisher）|
| `Subscriber` | 订阅者，消费数据流 |
| `Scheduler` | 调度器，控制线程调度 |

📌 代码示例：Mono & Flux
Mono<String> mono = Mono.just("Hello, Reactor");
Flux<Integer> flux = Flux.just(1, 2, 3, 4, 5);
flux.map(i -> i * 2).subscribe(System.out::println);

3. Spring WebFlux 与 Spring MVC 的区别
| 特性 | Spring WebFlux（响应式） | Spring MVC（传统同步） |
|---------|----------------|----------------|
| 编程模型 | 响应式（Reactor） | 阻塞式（Servlet API） |
| 执行模型 | 非阻塞 + 事件驱动 | 线程池 + 阻塞线程 |
| 核心类 | `Mono<T>` / `Flux<T>` | `List<T>` / `CompletableFuture<T>` |
| 适用场景 | 高并发、流式数据、I/O 密集 | 传统 Web 应用 |
| 底层支持 | Netty、Undertow、Tomcat（支持异步） | Tomcat（同步） |

4. WebFlux 核心组件
📌 控制器（Controller）
在 Spring WebFlux 中，我们可以使用 `@RestController` 结合 `Mono` 和 `Flux` 处理请求：
@RestController
@RequestMapping("/users")
public class UserController {

    @GetMapping("/{id}")
    public Mono<User> getUserById(@PathVariable String id) {
        return userService.findById(id); // 返回 Mono
    }

    @GetMapping
    public Flux<User> getAllUsers() {
        return userService.findAll(); // 返回 Flux
    }
}

📌 WebClient（替代 RestTemplate）
Spring WebFlux 推荐使用 `WebClient` 进行 HTTP 请求，替代 `RestTemplate`。
WebClient webClient = WebClient.create("http://example.com");

Mono<String> response = webClient.get()
    .uri("/hello")
    .retrieve()
    .bodyToMono(String.class);

response.subscribe(System.out::println);

📌 RouterFunction（函数式编程）
Spring WebFlux 还支持函数式路由：
RouterFunction<ServerResponse> route = RouterFunctions
    .route(GET("/users/{id}"), req -> {
        String id = req.pathVariable("id");
        return ServerResponse.ok().body(userService.findById(id), User.class);
    });

5. 适用场景
✅ 适合 WebFlux 的场景
- 高并发（如聊天系统、实时推送）
- I/O 密集型应用（如调用多个外部 API）
- 流式数据处理（如 WebSockets、Server-Sent Events）

❌ 不适合 WebFlux 的场景
- 计算密集型任务（如 CPU 密集的算法）
- 数据库操作为阻塞式（JDBC）（可以使用 R2DBC 解决）

6. 总结
- Reactor 是 Java 响应式编程的核心库，提供 `Mono` 和 `Flux` 处理异步流。
- Spring WebFlux 是基于 Reactor 的响应式 Web 框架，适用于高并发、I/O 密集型应用。
- 与 Spring MVC 最大的区别是非阻塞式执行模型，依赖 `WebClient` 代替 `RestTemplate`。
- 适合 I/O 密集型应用，但对于计算密集型任务效果不佳。

你是否在项目中使用 WebFlux？有什么具体的技术问题或优化需求吗？🚀

二、分布式与微服务

分布式系统设计

CAP 理论的实际应用(如 CP 的 etcd vs AP 的 Eureka)。

CAP 理论（Consistency, Availability, Partition Tolerance）描述了分布式系统在一致性（C）、可用性（A）和分区容错性（P）三者之间的权衡。根据 CAP 定理，在出现网络分区（P）时，系统必须在一致性（C）和可用性（A）之间做出权衡。因此，分布式系统通常会选择 CP 或 AP，但无法同时保证 CA（因为任何分布式系统都必须容忍分区）。

CP（一致性 & 分区容忍）
特性：保证强一致性（C）和分区容忍（P），但可能会牺牲可用性（A）。当网络分区发生时，部分节点可能会被隔离，导致它们无法提供服务，以保证数据的一致性。

典型例子：
1. etcd
   - `etcd` 是一个 CP 系统，主要用于 Kubernetes 作为配置存储和服务发现组件。
   - 使用 Raft 一致性算法，确保在发生网络分区时数据仍然强一致。
   - 代价是，若部分节点无法通信，可能导致部分请求被拒绝，从而降低可用性。
2. Zookeeper
   - Zookeeper 也是一个 CP 系统，使用 ZAB（Zookeeper Atomic Broadcast）协议确保数据一致性。
   - 广泛用于分布式锁、协调任务调度等场景。
   - 发生网络分区时，可能需要选举新 leader，导致短暂不可用。

AP（可用性 & 分区容忍）
特性：保证高可用性（A）和分区容忍（P），但不保证强一致性（C）。当网络分区发生时，不同节点可能返回不同的数据，但系统整体仍然可用。

典型例子：
1. Eureka
   - `Eureka` 是 Netflix 设计的服务发现组件，相比 Zookeeper 牺牲了强一致性，保证高可用性。
   - 采用自我保护机制，在网络分区时不会立即移除失联的服务，允许它们继续提供服务，即使数据可能已经过期（最终一致性）。
   - 适用于微服务架构中的动态服务注册发现，容忍短暂不一致，以换取更高的可用性。
2. Cassandra
   - `Cassandra` 是一个 AP 型 NoSQL 数据库，采用 Dynamo-like 机制，保证高可用性和最终一致性。
   - 数据写入时可以选择 `QUORUM`、`ALL` 等不同一致性级别，调整 C 和 A 之间的平衡。

CA（一致性 & 可用性）（理论上不可行）
由于 CAP 理论要求在分布式环境下必须容忍分区（P），所以 CA 在网络分区发生时无法继续满足两者。CA 只在单机数据库或强依赖网络的系统（如传统的关系型数据库）中可行。

总结：如何选择 CP vs AP？
- 如果需要强一致性（C），但可以接受短暂不可用（A 降低）→ 选择 CP
  - 适用于数据存储系统（如 `etcd`、`Zookeeper`）。
- 如果高可用性（A）更重要，且可以容忍短暂不一致（C 降低）→ 选择 AP
  - 适用于服务发现、分布式缓存、NoSQL 数据库（如 `Eureka`、`Cassandra`）。

CAP 理论的实际应用通常结合 BASE（Basically Available, Soft-state, Eventual consistency） 模型，来在一致性与可用性之间找到最佳平衡。

分布式事务解决方案(Seata、TCC、Saga、RocketMQ 事务消息)。

分布式事务是指跨多个独立数据库或服务的事务操作，为了保证数据一致性，业界提出了多种分布式事务解决方案。以下是几种常见的方案：

1. Seata (AT/XA/TCC/Saga 模式)
简介
Seata 是阿里开源的分布式事务框架，提供了多种事务模式，包括 AT（自动补偿）、TCC（Try-Confirm-Cancel）、XA、Saga。

关键模式
- AT 模式（自动补偿）
  - 适用于 关系型数据库，基于 本地事务 + 回滚日志，类似于 补偿事务（Compensating Transaction）。
  - 依赖于数据库的 UNDO LOG 来记录事务的变更，发生异常时回滚。
  - 适用于 短事务 场景（如下单、扣库存）。
- XA 模式（两阶段提交，2PC）
  - 适用于数据库提供 XA 事务 的情况（如 MySQL InnoDB）。
  - 提供强一致性，但 性能较低，适用于金融等对事务要求极高的场景。
- TCC 模式（Try-Confirm-Cancel）
  - 适用于微服务场景，开发者需要实现 Try（资源预留）、Confirm（执行）、Cancel（回滚）。
  - 提供了最终一致性，但需要业务方 手动实现补偿逻辑。
  - 适用于 复杂业务逻辑，如支付、订单扣减。
- Saga 模式（长事务）
  - 适用于长时间运行的事务（如机票预订、支付分期）。
  - 通过多个独立的补偿步骤（Compensating Actions）来保证最终一致性。
  - 适用于 跨多个服务的事务，如机票+酒店+租车的一体化预订。

适用场景
- AT 模式 → 适用于短事务，数据库层面支持。
- TCC 模式 → 适用于微服务 API 级事务，开发者可控。
- XA 模式 → 适用于强一致性（金融交易）。
- Saga 模式 → 适用于长事务（如跨服务的预订系统）。

2. TCC (Try-Confirm-Cancel)
简介
TCC 是一种典型的补偿型事务模型，适用于 微服务架构，让开发者 手动控制事务的各个阶段。

事务流程
- Try（预留资源）：尝试操作，检查并锁定资源（如冻结余额）。
- Confirm（确认提交）：如果所有服务 Try 成功，正式执行（如扣除冻结余额）。
- Cancel（回滚）：如果任一服务失败，取消预留资源（如释放冻结余额）。

优点
- 提供较好的 最终一致性，避免 2PC 的性能损耗。
- 允许业务自定义回滚逻辑，提高灵活性。

缺点
- 需要 业务开发者实现 Try-Confirm-Cancel 三步，增加开发成本。
- 如果 Cancel 失败，可能导致数据不一致。

适用场景
- 资金扣减（支付、银行转账）。
- 资源预留（酒店、机票、库存）。
- 高吞吐量、高并发业务（比 XA 方案轻量）。

3. Saga（补偿事务）
简介
Saga 适用于 长事务 场景，通过 一系列独立事务 来完成任务，并提供 补偿操作 来回滚失败的步骤。

事务流程
1. 顺序执行事务操作（T1 → T2 → T3）。
2. 如果事务失败，触发 补偿事务（反向操作）（C3 → C2 → C1）。

优点
- 适用于长事务，避免锁定资源。
- 允许部分失败后回滚，保证最终一致性。

缺点
- 需要 手动实现补偿操作，增加开发复杂度。
- 不适合强一致性场景（如金融交易）。

适用场景
- 订单处理（酒店 + 机票 + 租车）。
- 跨服务事务（比如电商的支付、库存、物流等）。
- 长时间运行的业务流程（分期支付、贷款审批）。

4. RocketMQ 事务消息
简介
RocketMQ 事务消息用于 分布式事务的最终一致性，通过 消息驱动 方式解决事务问题。

事务流程
1. 预发送半消息（事务未完成，消息不可见）。
2. 执行本地事务（执行订单创建、扣库存等操作）。
3. 提交事务：
   - 如果事务成功，确认提交，消息可消费。
   - 如果事务失败，回滚消息，不让消息消费。
4. RocketMQ 轮询检查事务状态，确保最终一致性。

优点
- 高性能，比 2PC、TCC 更轻量。
- 解耦业务逻辑，适用于事件驱动架构。
- 事务状态可通过 消息回查机制 保障最终一致性。

缺点
- 需要消息队列支持事务（RocketMQ / Kafka）。
- 依赖消息回查机制，不能保证强一致性。

适用场景
- 支付+订单处理（订单创建成功后通知支付）。
- 库存扣减（订单成功后扣库存）。
- 异步任务执行（如银行转账）。

总结：如何选择合适的方案？
| 方案 | 适用场景 | 一致性 | 性能 | 适用业务 |
|------|---------|--------|------|---------|
| Seata AT | 短事务，数据库支持 | 强一致性 | 高 | 电商订单 |
| Seata TCC | 微服务事务，自定义回滚 | 最终一致性 | 高 | 资金扣减 |
| Seata Saga | 长事务，补偿机制 | 最终一致性 | 高 | 机票 + 酒店 |
| XA（2PC） | 强一致性事务 | 强一致性 | 低 | 金融交易 |
| RocketMQ 事务消息 | 消息驱动事务 | 最终一致性 | 高 | 订单 + 支付 |

如果：
- 业务必须保证强一致性 → 选 XA 或 Seata AT。
- 微服务架构，支持手动补偿 → 选 TCC。
- 需要长事务 → 选 Saga。
- 消息驱动 & 高吞吐量 → 选 RocketMQ 事务消息。

最佳实践：
- 强一致性（金融支付） → XA / TCC。
- 高并发，最终一致性（电商、订单） → RocketMQ 事务消息 / Saga。
- 微服务事务（库存、物流） → TCC / Saga。

综合来看，分布式事务的选择需要结合业务需求、数据一致性要求、性能开销等多方面考虑。

如何设计一个全局唯一 ID 生成器(Snowflake、Leaf)?

在分布式系统中，全局唯一 ID 生成器的设计至关重要，通常需要满足以下几个要求：
1. 全局唯一性：ID 不能重复。
2. 高并发性能：能够支持高并发生成。
3. 趋势递增：适用于数据库索引优化，减少索引碎片。
4. 分布式可用性：支持多节点部署，避免单点故障。

下面介绍两种常见的全局唯一 ID 生成方案：

1. Snowflake 算法
简介
Snowflake 是 Twitter 开源的一种 分布式唯一 ID 生成算法，基于 时间戳 + 机器 ID + 序列号 组成 64-bit ID，支持高并发生成，并保证趋势递增。

ID 结构
Snowflake 生成的 64-bit ID 格式如下：

| 1bit 符号位 | 41bit 时间戳 | 10bit 机器 ID | 12bit 序列号 |

- 1-bit 符号位：始终为 0，保证 ID 为正数。
- 41-bit 时间戳：单位毫秒，可用 69 年（2^41 毫秒）。
- 10-bit 机器 ID：最多支持 1024 台 机器。
- 12-bit 序列号：每毫秒支持 4096 个唯一 ID。

优点
- 高性能：本地生成，无需数据库存储，高吞吐量。
- 趋势递增：适用于数据库索引优化。
- 分布式可扩展：支持多机器 ID，适用于分布式架构。

缺点
- 时间回拨问题：如果服务器时钟回退，会导致 ID 可能重复。
  - 解决方案：发现时钟回退时，可以等待时钟追赶或抛出异常。
- 依赖机器 ID 分配：如果机器 ID 发生冲突，可能导致重复。

适用场景
- 订单号、分布式数据库主键（MySQL、MongoDB）。
- 日志 ID、分布式缓存 Key。

Snowflake 实现（Java）

public class SnowflakeIdGenerator {
    private final long epoch = 1609459200000L; // 自定义起始时间戳 (2021-01-01)
    private final long workerIdBits = 10L; // 机器 ID 10bit
    private final long sequenceBits = 12L; // 序列号 12bit
    private final long maxWorkerId = ~(-1L << workerIdBits); // 1023
    private final long sequenceMask = ~(-1L << sequenceBits); // 4095

    private long workerId;
    private long sequence = 0L;
    private long lastTimestamp = -1L;

    public SnowflakeIdGenerator(long workerId) {
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException("workerId 超出范围");
        }
        this.workerId = workerId;
    }

    public synchronized long nextId() {
        long timestamp = System.currentTimeMillis();

        if (timestamp < lastTimestamp) {
            throw new RuntimeException("时钟回拨异常");
        }

        if (timestamp == lastTimestamp) {
            sequence = (sequence + 1) & sequenceMask;
            if (sequence == 0) {
                while ((timestamp = System.currentTimeMillis()) <= lastTimestamp) {}
            }
        } else {
            sequence = 0L;
        }

        lastTimestamp = timestamp;

        return ((timestamp - epoch) << (workerIdBits + sequenceBits)) |
               (workerId << sequenceBits) |
               sequence;
    }
}

2. Leaf（美团开源）
简介
Leaf 是美团开源的 分布式 ID 生成服务，提供两种模式：
1. Leaf-Segment（数据库号段模式）
2. Leaf-Snowflake（基于 Snowflake）

模式 1：Leaf-Segment（号段模式）
基于数据库表存储 号段（Segment），一次性分配多个 ID，减少数据库访问压力。

ID 号段表
| biz_tag  | max_id | step |
|----------|-------|------|
| order_id | 1000  | 100  |

- `max_id`：当前号段的最大值。
- `step`：每次获取多少个 ID，减少数据库访问。

流程
1. 服务启动时，从数据库获取 `max_id` 作为 ID 起点，并增加 `step`。
2. 服务器本地缓存 `step` 个 ID，避免频繁访问数据库。
3. ID 耗尽后，更新数据库 `max_id` 并获取新的号段。

优点
- 支持分布式部署（多个 Leaf 服务器）。
- 可控 ID 规则（适用于数据库主键）。
- 趋势递增，适合 MySQL 索引优化。

缺点
- 依赖数据库，数据库压力大时可能成为瓶颈。

模式 2：Leaf-Snowflake（优化的 Snowflake）
Leaf 还提供 Snowflake 版本，相比原版：
- 采用 Zookeeper 分配 workerId，避免 ID 冲突问题。
- 适用于 无数据库依赖、高并发场景。

3. 其他方案
UUID（128-bit 随机 ID）
- 优点：全球唯一，无需中心化服务器。
- 缺点：ID 无序，不适用于数据库索引。
- 适用场景：Token、Session ID、分布式缓存 Key。

数据库自增 ID
- 优点：递增性好，适用于 MySQL / PostgreSQL。
- 缺点：数据库成为单点瓶颈，不适用于高并发。
- 适用场景：小型系统、无高并发需求。

4. 选型建议
| 方案 | 优点 | 缺点 | 适用场景 |
|------|------|------|------|
| Snowflake | 高性能、分布式可扩展 | 机器 ID 分配 & 时钟回拨问题 | 订单号、分布式数据库主键 |
| Leaf-Segment | 数据库控制，趋势递增 | 依赖数据库，高并发下有性能瓶颈 | 业务 ID（如订单 ID） |
| Leaf-Snowflake | 改进版 Snowflake，ZK 管理 workerId | 依赖 Zookeeper | 订单号、日志 ID |
| UUID | 全球唯一 | 无序，索引性能差 | Token、Session ID |
| 数据库自增 ID | 简单可控 | 单点故障 | 小规模应用 |

总结
1. 高并发 + 低延迟 → Snowflake（Leaf-Snowflake）
2. 数据库趋势递增 → Leaf-Segment
3. 不需要排序 & 直接唯一 → UUID
4. 小型系统 → 数据库自增 ID

如果你的系统需要高可用、可扩展的唯一 ID 方案，Snowflake 或 Leaf-Segment 是最佳选择。

分布式锁的实现(Redis RedLock、ZooKeeper 对比)。

分布式锁用于在 多节点 之间协调资源访问，防止数据竞争。常见的分布式锁实现方式包括 Redis（RedLock）、ZooKeeper（ZK），它们各有优缺点，适用于不同场景。

1. Redis 分布式锁（RedLock）
#实现原理
Redis 是一种高性能的 KV 存储，通过 SET NX + EXPIRE 实现分布式锁：
1. SET key value NX EX seconds（仅当 key 不存在时设置，并自动过期）。
2. 客户端获取锁成功后，执行业务逻辑。
3. 业务完成后，主动 DEL key 释放锁。
4. 其他客户端尝试获取锁时，如果 key 存在，则等待或重试。

代码示例（单实例 Redis）

import redis
import time

client = redis.StrictRedis(host='localhost', port=6379, db=0)

lock_key = "my_lock"
lock_value = str(time.time())  防止误删
expire_time = 10  10秒超时

1. 尝试获取锁
if client.set(lock_key, lock_value, ex=expire_time, nx=True):
    try:
        print("获取锁成功，执行任务")
        time.sleep(5)  模拟业务执行
    finally:
        释放锁，防止误删
        if client.get(lock_key) == lock_value:
            client.delete(lock_key)
            print("释放锁")
else:
    print("锁已被占用")

存在问题
- 单点故障：如果 Redis 宕机，锁可能失效。
- 时钟漂移：不同服务器时间不同，可能影响锁的安全性。
- 超时释放风险：业务执行时间超出 `EXPIRE`，锁会提前释放，导致并发问题。

#Redis RedLock（多实例优化）
RedLock 方案 通过 多个 Redis 实例（一般为 5 个），确保锁的可靠性：
1. 同时向多个 Redis 节点尝试加锁（超过半数成功则认为加锁成功）。
2. 如果获取成功，则认为锁有效，否则释放所有已加的锁。
3. 到期时间应远小于锁持有时间，确保不会误删锁。
4. 释放时必须保证所有节点的锁都释放。

代码示例（RedLock Python 实现）

from redlock import Redlock

dlm = Redlock([{"host": "127.0.0.1", "port": 6379, "db": 0},
               {"host": "127.0.0.1", "port": 6380, "db": 0},
               {"host": "127.0.0.1", "port": 6381, "db": 0}])

lock = dlm.lock("my_resource_name", 10000)  10秒锁定
if lock:
    try:
        print("成功获取锁")
        time.sleep(5)
    finally:
        dlm.unlock(lock)
        print("释放锁")
else:
    print("获取锁失败")

优点
- 支持高可用（通过多个 Redis 实例避免单点故障）。
- 高性能（基于内存操作）。
- 适合短时业务逻辑（如库存扣减）。

缺点
- 实现复杂（需要多个 Redis 实例）。
- 无法完全避免时钟漂移问题。
- 不适用于强一致性场景（适用于 最终一致性）。

2. ZooKeeper 分布式锁
#实现原理
ZooKeeper 通过 临时顺序节点（EPHEMERAL_SEQUENTIAL） 实现分布式锁：
1. 客户端创建临时顺序节点 `/locks/lock-xxxx`。
2. 获取最小编号的节点，作为锁的持有者。
3. 其他客户端监视比自己编号小的节点：
   - 如果最小编号节点删除（锁释放），下一个最小编号节点获得锁。
4. 锁持有者宕机，临时节点自动删除，锁自动释放。

代码示例（Curator 实现）

import org.apache.curator.framework.CuratorFramework;
import org.apache.curator.framework.recipes.locks.InterProcessMutex;

public class ZookeeperLockExample {
    public static void main(String[] args) throws Exception {
        CuratorFramework client = ... // 连接 ZK
        InterProcessMutex lock = new InterProcessMutex(client, "/locks/my_lock");

        if (lock.acquire(10, TimeUnit.SECONDS)) {
            try {
                System.out.println("成功获取锁，执行任务");
                Thread.sleep(5000);
            } finally {
                lock.release();
                System.out.println("释放锁");
            }
        } else {
            System.out.println("获取锁失败");
        }
    }
}

优点
- 强一致性（基于 ZK 选主机制，不受时钟漂移影响）。
- 自动释放锁（持有锁的客户端宕机时，ZK 自动删除临时节点）。
- 适用于长时间业务（如任务调度、分布式事务）。

缺点
- 性能较低（ZK 依赖磁盘存储，吞吐量低于 Redis）。
- 依赖 ZK 可用性（需要 3 个以上 ZK 节点，避免单点故障）。
- 适用于低并发场景（ZK 适用于选主、任务调度，而非高频请求）。

3. Redis vs ZooKeeper 对比
| 对比项  | Redis（RedLock） | ZooKeeper |
|------------|-------------------|--------------|
| 一致性 | 最终一致性（锁可能短时间内失效） | 强一致性（基于 ZK 选主机制） |
| 高可用 | 需要多个 Redis 节点，部分 Redis 宕机会影响加锁 | ZK 自带 HA 机制 |
| 性能 | 高吞吐，适用于短时锁（缓存更新、库存扣减） | 低吞吐，适用于长时锁（分布式任务调度） |
| 锁自动释放 | 需要客户端保证释放（可能超时丢失锁） | 自动释放（临时节点） |
| 适用场景 | 高并发、短生命周期锁（库存、订单） | 分布式协调任务、选主 |

4. 如何选择？
| 场景 | 推荐方案 | 说明 |
|------|---------|------|
| 高并发、低延迟 | Redis（RedLock） | 适用于 库存扣减、订单 |
| 强一致性，避免锁丢失 | ZooKeeper | 适用于 分布式任务调度、分布式事务 |
| 短生命周期锁 | Redis | 适用于 秒杀、缓存更新 |
| 长生命周期锁 | ZooKeeper | 适用于 定时任务、主从选举 |

5. 结论
1. 如果需要高性能、适用于高并发 → 选 Redis（RedLock）。
2. 如果业务需要强一致性、锁不能丢失 → 选 ZooKeeper。
3. 如果需要高可用（HA）+ 低延迟 → Redis + RedLock 是不错的选择。
4. 如果业务是分布式任务调度（选主、事务管理） → ZooKeeper 更合适。

简而言之：
- Redis 适合高并发、高吞吐、低延迟（但锁可能丢失）。
- ZooKeeper 适合分布式协调、强一致性（但性能较低）。

选择哪种分布式锁 取决于业务场景。

微服务架构

Spring Cloud 生态组件(Nacos、Sentinel、OpenFeign)的原理与优化。

Spring Cloud 生态中的 Nacos、Sentinel、OpenFeign 是微服务架构的重要组件，分别负责 服务注册与配置管理、流量控制与熔断、远程调用。理解它们的原理和优化方式，有助于提升系统的可用性和性能。

1. Nacos（服务发现 & 配置中心）
#1.1 原理
Nacos（Naming & Configuration Service）是 阿里巴巴开源的服务注册、发现与配置管理中心，类似 Eureka + Config + Zookeeper，支持 AP 模式（默认）和 CP 模式（Raft）。

核心功能
1. 服务注册与发现（类似 Eureka）
   - 通过 `@EnableDiscoveryClient` 注解，让微服务注册到 Nacos，支持 AP 模式（高可用）和 CP 模式（强一致）。
   - 健康检查：定期发送心跳，超过 `heartbeatInterval * 3` 认为服务不可用。
2. 动态配置管理（类似 Spring Cloud Config）
   - Nacos 配置中心允许微服务动态拉取配置，支持 配置推送、灰度发布。

架构
- Naming Service（服务注册发现）
- Config Service（配置管理）
- Raft/CP 协议（保证数据一致性）
- AP 模式（提高可用性）

1.2 Nacos 关键优化
1. 避免心跳压力：
   - 适当调大 `heartbeatInterval`（默认 5s），减少心跳请求。
   - 调整 `service.disableInstanceExpiredPolicy=true` 避免心跳丢失导致实例失效。

2. 优化注册同步延迟：
   - 适当减少 `server-addr` 变更频率，减少 Nacos Raft 复制压力。
   - 在大规模服务集群中使用 AP 模式 提高可用性。

3. 配置中心优化：
   - 开启 监听缓存，减少配置变更的 Nacos 压力（`spring.cloud.nacos.config.refresh-enabled=true`）。
   - 配置 本地缓存，避免频繁拉取（`spring.cloud.nacos.config.refresh-delay=5000`）。

2. Sentinel（流量控制 & 熔断降级）
#2.1 原理
Sentinel 是 阿里巴巴开源的流量控制和熔断限流组件，类似 Hystrix，但性能更优，提供：
- 流量控制（QPS 限流、并发数控制）
- 熔断降级（RT、异常比例熔断）
- 热点参数限流
- 系统保护
- API 网关支持

核心工作流程
1. 请求通过 Sentinel 规则校验
2. 统计 QPS、RT（响应时间）、异常比率
3. 触发限流或熔断
4. 执行降级策略（服务降级、拒绝请求等）
5. 恢复后放行请求

2.2 关键优化
1. 流量控制优化
   - 采用滑动窗口统计（默认 1 秒）：`spring.cloud.sentinel.flow-statistic-interval-ms=1000`
   - 使用预热限流：防止突然流量冲击（Warm Up 模式）

2. 熔断降级优化
   - 异常比率熔断：当异常请求超过 50% 触发熔断
   - RT 限制：当响应时间超过 1000ms 且 QPS > 20 时熔断

3. 持久化规则
   - 持久化到 Nacos / Apollo，避免 Sentinel 重启丢失规则

3. OpenFeign（声明式 HTTP 远程调用）
#3.1 原理
OpenFeign 是 Spring Cloud 提供的 HTTP 远程调用客户端，基于 Netflix Feign，支持：
- 声明式接口调用（`@FeignClient`）
- 负载均衡（集成 Ribbon / Nacos）
- 熔断支持（Sentinel / Resilience4j）
- 请求拦截

核心架构
1. Feign 通过动态代理生成 HTTP 客户端
2. Feign 拦截器（RequestInterceptor）
3. Ribbon 负载均衡
4. Sentinel 限流
5. 基于 RestTemplate / OkHttp 进行 HTTP 发送

3.2 关键优化
1. 连接池优化
   - 替换默认 HTTP 客户端（默认 JDK `HttpURLConnection`）
   - 使用 OkHttp 连接池：
     ```yaml
     feign:
       httpclient:
         enabled: false
       okhttp:
         enabled: true
     ```
   - 连接超时优化：
     ```yaml
     ribbon:
       ConnectTimeout: 5000
       ReadTimeout: 5000
     ```

2. 熔断优化
   - 结合 Sentinel 进行熔断降级
     ```java
     @FeignClient(name = "order-service", fallback = OrderServiceFallback.class)
     public interface OrderServiceClient {
         @GetMapping("/orders/{id}")
         Order getOrder(@PathVariable("id") Long id);
     }

     @Component
     public class OrderServiceFallback implements OrderServiceClient {
         @Override
         public Order getOrder(Long id) {
             return new Order(id, "降级数据", 0);
         }
     }
     ```

3. 请求拦截
   - 在 Feign 请求时自动添加 Token：
     ```java
     public class FeignAuthRequestInterceptor implements RequestInterceptor {
         @Override
         public void apply(RequestTemplate template) {
             template.header("Authorization", "Bearer " + getToken());
         }
     }
     ```
   - 配置拦截器：
     ```yaml
     feign:
       client:
         config:
           default:
             requestInterceptors:
               - com.example.FeignAuthRequestInterceptor
     ```

4. 总结
| 组件 | 主要作用 | 优化点 |
|------|--------|------|
| Nacos | 服务注册 & 配置管理 | 心跳优化、AP/CP 模式优化、配置持久化 |
| Sentinel | 流量控制 & 熔断降级 | 滑动窗口、预热限流、持久化规则 |
| OpenFeign | 声明式 HTTP 远程调用 | 连接池（OkHttp）、熔断降级（Sentinel）、请求拦截 |

最佳实践
1. Nacos：AP 模式优化心跳间隔，减少 Raft 复制压力，本地缓存减少配置拉取。
2. Sentinel：结合 Nacos 持久化规则，使用滑动窗口限流，优化熔断参数。
3. OpenFeign：使用 OkHttp 连接池，结合 Sentinel 熔断，拦截 Token 自动注入。

这些优化措施可以大幅提升 Spring Cloud 微服务的高可用性、稳定性和性能 🚀。

服务网格(Service Mesh)的理解(如 Istio)。

Service Mesh（服务网格）概述
Service Mesh（服务网格）是一种 微服务架构中的通信基础设施，用于 统一管理、控制、监控和保护 服务之间的通信。它通过 代理（Sidecar 模式） 实现 流量管理、安全控制、可观察性 等能力，减少业务代码对这些功能的依赖。

Istio 是目前最流行的 Service Mesh 实现，与 Kubernetes（K8s）紧密集成。

1. Service Mesh 的核心概念
1.1 为什么需要 Service Mesh？
在 传统微服务架构 中，服务间的通信通常由应用程序自己管理：
- 服务发现（Service Discovery）
- 负载均衡（Load Balancing）
- 流量控制（Rate Limiting）
- 熔断与重试（Circuit Breaker & Retry）
- 安全认证（mTLS 加密通信）
- 日志和监控（Tracing & Metrics）

如果应用本身管理这些逻辑，会导致：
- 应用代码复杂（需要引入大量通信相关代码）。
- 服务间通信难以监控（缺少统一的数据采集）。
- 安全性不统一（不同服务可能使用不同的加密策略）。

Service Mesh 通过代理（Sidecar） 解决这些问题，让 微服务专注于业务逻辑。

1.2 Service Mesh 关键组件
① 数据平面（Data Plane）
- Envoy Proxy（代理）：
  - 运行在 每个 Pod 旁边（Sidecar 模式）。
  - 负责 拦截所有服务之间的流量。
  - 提供 负载均衡、流量管理、熔断、mTLS 加密、监控 等功能。

② 控制平面（Control Plane）
- 负责 管理和配置数据平面，提供统一的流量控制能力：
  - Istio Pilot（流量管理）：配置 Envoy 代理 规则，如路由、熔断、流量镜像等。
  - Istio Mixer（可观测性 & 监控）：收集 日志、指标、分布式追踪。
  - Istio Citadel（安全）：提供 mTLS 证书管理，加密服务间通信。

2. Istio 作为 Service Mesh 代表
2.1 Istio 架构
Istio 由 数据平面（Envoy）+ 控制平面（Istiod） 组成：

🌐 Istio 关键组件
| 组件 | 作用 |
|------|------|
| Envoy Proxy | 作为 Sidecar 代理，管理流量，提供负载均衡、流量控制、mTLS、监控等 |
| Istiod（控制平面） | 统一管理 Sidecar 代理，控制流量策略、提供安全、监控等 |
| Pilot（流量控制） | 负责 动态配置 Envoy，提供路由、流量镜像、熔断、A/B 测试等 |
| Citadel（安全） | 自动颁发 mTLS 证书，实现安全加密通信 |
| Telemetry（监控） | 采集 Prometheus 指标、Jaeger 追踪日志 |

2.2 Istio 流量管理
① 流量路由
- Istio 拦截微服务流量，可以 基于 Header、URL、版本号 进行路由：
    ```yaml
    apiVersion: networking.istio.io/v1alpha3
    kind: VirtualService
    metadata:
      name: my-service
    spec:
      hosts:
        - my-service.default.svc.cluster.local
      http:
        - match:
            - headers:
                user:
                  exact: "beta"
          route:
            - destination:
                host: my-service
                subset: v2
        - route:
            - destination:
                host: my-service
                subset: v1
    ```
📌 解释：
- 当 `user: beta` 访问时，流量进入 v2 版本。
- 其他用户访问时，流量进入 v1 版本。

② 灰度发布 & 金丝雀发布
可以通过 权重分流 进行 灰度发布：
    ```yaml
    apiVersion: networking.istio.io/v1alpha3
    kind: VirtualService
    metadata:
      name: my-service
    spec:
      hosts:
        - my-service
      http:
        - route:
            - destination:
                host: my-service
                subset: v1
              weight: 80
            - destination:
                host: my-service
                subset: v2
              weight: 20
    ```
📌 解释：
- `80%` 流量走 `v1`，`20%` 走 `v2`，逐步放大 v2 版本流量。

③ 熔断 & 重试
- 当 v1 失败时，自动重试 v2
    ```yaml
    apiVersion: networking.istio.io/v1alpha3
    kind: DestinationRule
    metadata:
      name: my-service
    spec:
      host: my-service
      trafficPolicy:
        connectionPool:
          tcp:
            maxConnections: 100
        outlierDetection:
          consecutiveErrors: 5
          interval: 10s
          baseEjectionTime: 30s
    ```
📌 解释：
- 连续 5 次失败，`10s` 后剔除 实例，30s 后恢复。

2.3 Istio 监控
Istio 内置 Prometheus、Grafana、Jaeger 进行监控：
- Prometheus：收集 Envoy Proxy 指标
- Grafana：可视化流量 & 性能数据
- Jaeger：分布式链路追踪，查看请求路径

    ```yaml
    kubectl apply -f istio-telemetry.yaml
    kubectl port-forward svc/grafana 3000:3000
    ```
然后访问 `http://localhost:3000` 进入 Grafana Dashboard 🔥

3. Service Mesh vs 传统 API Gateway
| 对比项 | Service Mesh（Istio） | API Gateway（Spring Cloud Gateway） |
|--------|-----------------|----------------------|
| 作用 | 服务间通信管理（安全、流控、监控） | 统一入口，管理外部请求 |
| 流量管理 | 微服务间 细粒度流控 | 入口流量 管理 |
| 代理模式 | Sidecar 代理（每个微服务一个 Envoy） | 单点代理（网关统一代理） |
| 安全性 | mTLS 加密通信 | 仅支持 JWT / OAuth |
| 监控方式 | 全链路追踪，每个 Sidecar 采集数据 | 限于网关日志 |

📌 结论：
- Service Mesh 适合微服务间通信（东向流量），提供更强的安全、监控、熔断能力。
- API Gateway 适合外部流量入口（北向流量），通常 Service Mesh + API Gateway 结合使用。

4. 总结
| 优点 | 缺点 |
|------|------|
| 去除应用代码中的流量管理逻辑 | 额外增加 Envoy Proxy 资源消耗 |
| 流量管理、负载均衡、熔断限流 | 复杂度较高，学习成本高 |
| 统一安全（mTLS）、监控 | 调试难度增加 |
| 与 Kubernetes 深度集成 | 需要 Kubernetes 作为运行环境 |

什么时候用 Istio？
✅ 适合场景：
- 微服务架构，多个服务间通信复杂
- 流量管理需求（灰度发布、流量镜像、金丝雀发布）
- 全链路监控 & 安全认证
- 大规模 Kubernetes 集群

❌ 不适合场景：
- 业务简单、微服务数量少
- 资源受限，无法承担 Envoy 代理开销
- 不想依赖 Kubernetes

📌 总结：
- Istio 是 现代微服务的最佳流量管理方案。
- 适用于 Kubernetes 大规模集群，提供安全、流控、监控能力。
- 但 Istio 复杂度较高，需要权衡 资源消耗 与 实际需求。 🚀

如何设计服务熔断、降级与限流?

服务熔断、降级与限流的设计方案

在 微服务架构 中，服务之间的调用具有 链式依赖，如果某个服务 响应缓慢或不可用，会导致 整个系统的雪崩效应。
为了解决 系统稳定性问题，需要设计 熔断、降级、限流 机制来提高系统的 可用性与容错性。

1. 服务熔断（Circuit Breaker）
1.1 什么是熔断？
熔断（Circuit Breaker）类似于 电路保险丝，当系统负载过高或服务异常时，自动阻断 故障服务 的调用，防止影响整个系统。

📌 熔断的作用：
- 保护自身系统 不受异常依赖影响（防止资源被耗尽）。
- 让 故障服务有时间恢复（自动尝试恢复调用）。

1.2 熔断状态
熔断通常有 3 种状态：
| 状态 | 说明 | 变化条件 |
|------|------|------|
| Closed（关闭） | 正常状态，请求可以通过 | 失败率未达到阈值 |
| Open（打开） | 阻止请求，直接失败 | 失败率达到阈值 |
| Half-Open（半开） | 允许部分流量，检测是否恢复 | 若成功率恢复，则关闭熔断 |

🚀 流程示意图：
1️⃣ Closed -> 请求正常
2️⃣ 失败率达到阈值 -> Open（熔断）
3️⃣ 休眠一段时间（比如 10s）-> Half-Open
4️⃣ 测试请求：
   ✅ 成功率高 -> Closed
   ❌ 仍然失败 -> 继续 Open

1.3 熔断的实现
① Spring Cloud Sentinel 熔断
在 `Sentinel` 中，可以使用 `@SentinelResource` 保护方法：
    ```java
    @SentinelResource(value = "testResource", fallback = "fallbackMethod")
    public String testMethod() {
        if (Math.random() > 0.5) {
            throw new RuntimeException("模拟异常");
        }
        return "正常返回";
    }

    public String fallbackMethod(Throwable e) {
        return "降级：服务暂时不可用";
    }
    ```
📌 Sentinel 熔断策略
- 慢调用比例（请求响应时间超过阈值）
- 异常比例（失败请求占比超过设定阈值）
- 异常数（一定时间窗口内失败次数超过设定值）

2. 服务降级（Degradation）
2.1 什么是降级？
服务降级是指 当系统负载过高 或 某个服务不可用 时，部分服务或功能以降级模式运行，以确保核心业务正常运行。

📌 降级的作用
- 保护 核心业务，牺牲 非关键功能（比如推荐系统、日志分析等）。
- 在高峰期 临时禁用部分功能，防止系统崩溃。

2.2 降级策略
| 策略 | 说明 | 示例 |
|----------|---------|---------|
| 超时降级 | 如果接口超时，返回降级数据 | 电商查询库存超时，直接显示“库存紧张” |
| 异常降级 | 某个接口发生异常，返回兜底方案 | 支付服务异常，直接返回“支付处理中” |
| 流量降级 | 请求量过高时，自动降级 | 高峰期关闭“推荐系统” |

2.3 降级的实现
① Hystrix 降级
Hystrix 提供 降级 fallback 方案：
    ```java
    @HystrixCommand(fallbackMethod = "fallback")
    public String getUserInfo(String userId) {
        if (Math.random() > 0.5) {
            throw new RuntimeException("调用失败");
        }
        return "用户数据";
    }

    public String fallback(String userId) {
        return "用户数据暂时不可用";
    }
    ```
📌 解释
- 主方法 getUserInfo()：如果出现 异常，会执行 fallback() 方法，提供 降级返回。

② Sentinel 降级
    ```java
    @SentinelResource(value = "getUserInfo", fallback = "fallbackMethod")
    public String getUserInfo(String userId) {
        if (Math.random() > 0.5) {
            throw new RuntimeException("调用失败");
        }
        return "用户数据";
    }

    public String fallbackMethod(String userId, Throwable e) {
        return "降级：默认用户数据";
    }
    ```

3. 服务限流（Rate Limiting）
3.1 什么是限流？
限流（Rate Limiting）是指 控制系统的并发请求数或 QPS，防止流量过载。

📌 限流的作用
- 防止某个接口 请求过多，拖垮系统。
- 保护数据库、缓存、CPU 等资源，避免超负荷。

3.2 限流算法
| 算法 | 原理 | 适用场景 |
|----------|---------|------------|
| 固定窗口 | 每个时间窗口只允许一定数量请求 | API 访问限流 |
| 滑动窗口 | 记录最近 N 秒请求数，动态调整 | 访问量波动较大的接口 |
| 令牌桶 | 按 固定速率 生成令牌，请求需消耗令牌 | 需要平滑控制流量 |
| 漏桶 | 按 固定速率 处理请求，防止突发流量 | 限制数据库写入速率 |

3.3 限流的实现
① Redis + Lua 限流
    ```lua
    local key = KEYS[1]
    local limit = tonumber(ARGV[1])
    local current = tonumber(redis.call('get', key) or "0")

    if current + 1 > limit then
        return 0
    else
        redis.call('INCR', key)
        redis.call('expire', key, 1)
        return 1
    end
    ```
📌 解释：
- `limit`：允许的最大请求数
- `expire`：窗口时间 1s
- 适用于 API 限流

② Sentinel 限流
Sentinel 支持 QPS 限流：
    ```java
    @SentinelResource(value = "testResource", blockHandler = "blockHandler")
    public String testMethod() {
        return "正常访问";
    }

    public String blockHandler(BlockException e) {
        return "限流：请求过多，请稍后";
    }
    ```
📌 Sentinel 限流策略
- QPS 限流（每秒最大请求数）
- 并发线程数（限制最大并发数）
- 关联限流（某个接口访问过多，限流另一个接口）

4. 总结
| 策略 | 作用 | 触发条件 | 示例 |
|----------|---------|------------|---------|
| 熔断 | 防止雪崩 | 失败率超阈值 | 订单服务异常，熔断支付接口 |
| 降级 | 保障核心功能 | 高并发、超时、异常 | 高峰期屏蔽推荐系统 |
| 限流 | 防止资源耗尽 | 突发请求量过高 | 订单接口限流 1000 QPS |

📌 最佳实践
- 熔断 适用于 不稳定依赖
- 降级 适用于 非核心业务
- 限流 适用于 高 QPS 接口

🚀 Spring Cloud + Sentinel 是现代微服务的最佳方案！

微服务链路追踪(SkyWalking、Zipkin)的实现原理。

微服务链路追踪的实现原理（SkyWalking & Zipkin）

在 分布式微服务架构 中，一个用户请求可能会经过多个服务（API 网关、服务 A、服务 B、数据库等）。如果某个请求处理慢或失败，我们需要 追踪整个请求链路，找出问题根因。这就是 微服务链路追踪（Distributed Tracing） 的作用。

1. 什么是微服务链路追踪？
1.1 定义
链路追踪是一种 分布式系统监控技术，它可以跟踪 请求在不同服务之间的传播路径，记录 时间、耗时、调用关系、错误等信息，帮助分析系统性能瓶颈。

1.2 作用
✅ 请求可视化：知道某个请求具体经过哪些服务
✅ 性能监控：发现慢接口、性能瓶颈
✅ 故障诊断：快速定位故障服务、异常日志
✅ 调用链分析：分析微服务之间的依赖关系

2. 链路追踪的核心概念
链路追踪的核心思想来源于 Google Dapper 论文，主要涉及以下几个概念：

| 概念  | 说明  | 示例 |
|-----------|----------|---------|
| Trace（追踪）  | 一次完整的请求链路 | 用户访问 `订单服务` → `库存服务` → `支付服务` |
| Span（跨度）  | 一次具体的服务调用 | `库存服务` 查询数据库 |
| Parent Span | 上游服务的调用 | `订单服务` 调用 `库存服务` |
| Child Span | 下游服务的调用 | `库存服务` 调用 `数据库` |
| Context（上下文） | 记录 TraceID & SpanID，用于传递链路信息 | 透传 `TraceID` 到下游 |

3. 微服务链路追踪的实现
目前流行的链路追踪工具主要有 SkyWalking 和 Zipkin，它们都是基于 Trace、Span、Context 机制 来实现的。

4. SkyWalking 实现原理
4.1 SkyWalking 介绍
SkyWalking 是 Apache 旗下的 无侵入分布式链路追踪系统，相比 Zipkin，它支持 自动探针（Agent），可以 无代码改动 地采集链路数据。

🔹 SkyWalking 组件
- Agent（探针）：自动收集链路数据并发送给 OAP
- OAP（Observability Analysis Platform）：处理 & 存储链路数据
- UI（可视化界面）：展示链路、拓扑、慢查询等信息

4.2 SkyWalking 追踪数据流
1️⃣ Agent 采集请求数据
   - 通过 Java Agent（字节码增强） 或 SDK 方式，无侵入采集 TraceID、SpanID
   - 拦截 HTTP、RPC、数据库请求，自动插入 TraceID

2️⃣ Agent 发送数据到 OAP
   - SkyWalking 使用 gRPC / HTTP 传输追踪数据
   - 数据发送到 OAP（Observability Analysis Platform） 进行存储 & 分析

3️⃣ OAP 处理 & 存储数据
   - 存储方式：ES、MySQL、H2
   - 数据分析：计算接口 响应时间、错误率、调用次数

4️⃣ UI 展示追踪数据
   - 服务拓扑：展示服务调用关系
   - 链路查询：查看具体请求链路
   - 慢接口分析：定位性能瓶颈

4.3 SkyWalking 部署示例
① 启动 SkyWalking OAP
    ```sh
    docker run --name skywalking-oap -d -p 12800:12800 -p 11800:11800 apache/skywalking-oap-server
    ```
② 启动 SkyWalking UI
    ```sh
    docker run --name skywalking-ui -d -p 8080:8080 --link skywalking-oap apache/skywalking-ui
    ```
③ Java 服务接入 SkyWalking
在 Spring Boot 启动参数中添加：
    ```sh
    -javaagent:/path-to/skywalking-agent/skywalking-agent.jar
    -Dskywalking.agent.service_name=order-service
    -Dskywalking.collector.backend_service=127.0.0.1:11800
    ```

5. Zipkin 实现原理
5.1 Zipkin 介绍
Zipkin 是 Twitter 开源的分布式追踪系统，它 需要手动埋点（代码修改），通过 注解或 SDK 方式收集链路数据。

🔹 Zipkin 组件
- Client（SDK）：Spring Boot 通过 `spring-cloud-sleuth` 采集数据
- Collector（收集器）：Zipkin 服务器收集数据
- Storage（存储）：MySQL、ES、Kafka
- UI（前端）：展示链路追踪数据

5.2 Zipkin 追踪数据流
1️⃣ 应用代码埋点
   - 使用 Spring Cloud Sleuth + Zipkin
   - 通过 `@NewSpan` 注解 记录请求链路

2️⃣ Spring Cloud Sleuth 发送追踪数据
   - 默认使用 HTTP 发送数据到 Zipkin
   - 可配置 Kafka / RabbitMQ 作为消息中间件

3️⃣ Zipkin 处理 & 存储
   - 存储方式：MySQL、ES
   - 提供 API 查询链路数据

4️⃣ Zipkin UI 展示
   - 显示 Trace、Span
   - 分析请求耗时 & 失败率

5.3 Zipkin 配置
① 启动 Zipkin
    ```sh
    docker run -d -p 9411:9411 openzipkin/zipkin
    ```
② Spring Boot 接入 Zipkin
添加依赖：
    ```xml
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-zipkin</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-sleuth</artifactId>
    </dependency>
    ```
配置 `application.yml`：
    ```yaml
    spring:
      zipkin:
        base-url: http://localhost:9411
      sleuth:
        sampler:
          probability: 1.0  100% 采样
    ```
埋点：
    ```java
    @NewSpan(name = "custom-span")
    public void customMethod() {
        log.info("执行自定义方法");
    }
    ```

6. SkyWalking vs Zipkin 对比
| 对比项  | SkyWalking | Zipkin |
|------------|--------------|-----------|
| 接入方式  | 无侵入 Agent | 手动埋点（SDK） |
| 采样方式  | 自动采样 | 手动配置采样率 |
| 存储  | ES、MySQL | MySQL、Kafka |
| 链路展示  | 完整拓扑图 | 单一请求链路 |
| 适用场景  | 大型分布式系统 | 轻量级链路追踪 |

📌 结论
- SkyWalking 适用于 大规模分布式架构，无侵入 & 自动追踪。
- Zipkin 适用于 小型微服务架构，需要手动埋点，但 更轻量级。

7. 总结
✅ SkyWalking vs Zipkin
- SkyWalking（强大、自动探针）
- Zipkin（轻量级、手动埋点）

🚀 推荐
- 大规模微服务（Kubernetes、Spring Cloud） → SkyWalking
- 小型服务 / 低成本需求 → Zipkin

消息队列

Kafka 如何保证消息不丢失、不重复?

在 Kafka 中，确保消息 不丢失、不重复 主要依赖于 生产端、存储端、消费端 的配置和机制。以下是 Kafka 保障数据一致性的关键点：

1. Kafka 如何保证消息不丢失？
消息丢失可能发生在 生产者（Producer）、Kafka Broker（存储）、消费者（Consumer） 三个环节。Kafka 通过 ACK 确认、ISR 复制、持久化、幂等消费 等机制保证消息可靠传输。

#1.1 生产端：ACK 机制
在 Kafka 生产者发送消息时，`acks` 参数决定了消息是否真正存储到 Kafka。

- `acks=0`：不等待确认，生产者发送后立即返回，性能高但 可能丢失消息
- `acks=1`：Leader 确认，消息只写入 Leader，若 Leader 崩溃，可能丢失
- `acks=all`（推荐）：Leader + ISR 副本确认，消息写入所有同步副本后才返回，最可靠

✅ 推荐设置
    ```properties
    acks=all
    retries=5
    ```
- `acks=all` 确保消息至少存储到 ISR 中
- `retries` 允许自动重试，防止临时故障丢失数据

#1.2 存储端：ISR 复制 & 持久化
Kafka 通过 副本机制（Replication） 确保数据存储可靠。

🔹 ISR（In-Sync Replicas）机制
- Leader 副本 负责处理读写请求
- ISR 副本（同步副本） 复制 Leader 数据，防止 Leader 宕机时数据丢失
- 只有 ISR 副本 都同步完成，`acks=all` 才返回成功

✅ 推荐设置
    ```properties
    min.insync.replicas=2  至少 2 个副本同步数据
    replication.factor=3   3 副本，防止单点故障
    ```
- `replication.factor=3` 确保 Kafka 即使 1~2 个 Broker 挂掉，数据仍然可用
- `min.insync.replicas=2` 确保至少 2 个副本有数据，才能返回成功

#1.3 Broker 端：磁盘刷盘
Kafka 采用 页缓存 + WAL（Write-Ahead Log），默认写入 OS PageCache，若宕机可能丢失数据。

✅ 推荐设置
    ```properties
    log.flush.interval.messages=1   每条消息写入后刷盘
    log.flush.interval.ms=1000      每秒刷盘一次
    ```
- 保证消息写入磁盘，防止 Broker 宕机丢失数据

#1.4 消费端：手动提交 Offset
Kafka 消费者需要正确管理 Offset 提交，否则消费失败可能导致数据丢失。

  🔹 自动提交（不安全）
    ```properties
    enable.auto.commit=true
    ```
- 风险：消费者还未处理完消息就提交 Offset，若崩溃 数据会丢失

✅ 推荐手动提交
    ```java
    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.poll(Duration.ofMillis(100));
    consumer.commitSync();  // 确保处理完后才提交
    ```
- 确保消费完成后才提交 Offset

2. Kafka 如何保证消息不重复？
Kafka 天然支持 At Least Once 语义（至少一次消费），但不保证 Exactly Once（仅一次）。可通过 幂等 Producer + 事务 + 去重策略 解决消息重复。

#2.1 生产端：开启幂等性（Idempotence）
Kafka 2.0+ 提供 幂等生产（Idempotent Producer），避免重复发送。

✅ 推荐设置
    ```properties
    enable.idempotence=true
    ```
Kafka 幂等机制：
- Producer ID（PID）+ Sequence Number 确保消息不重复
- 重试也不会导致消息重复

#2.2 Broker 端：开启事务（Exactly Once）
Kafka 支持事务性 Producer，可以确保 Exactly Once 语义。

✅ 事务 Producer 示例
    ```java
    producer.initTransactions();
    producer.beginTransaction();
    producer.send(new ProducerRecord<>("topic", "message"));
    producer.commitTransaction();  // 确保消息仅提交一次
    ```
🔹 事务作用
- 保证多个分区写入一致性
- 失败时 `abortTransaction()` 取消事务，防止部分写入

#2.3 消费端：去重策略
消费端可能会遇到 重复消费，可通过 去重 机制解决：

✅ 基于唯一 Key 去重
- 方案 1：使用 Redis 记录消费 ID
    ```java
    String messageId = record.key();
    if (redis.sismember("processed_messages", messageId)) {
        return;  // 已处理，跳过
    }
    redis.sadd("processed_messages", messageId);
    processMessage(record.value());
    ```
- 方案 2：基于数据库主键去重
    ```sql
    INSERT INTO messages (id, content) VALUES (?, ?)
    ON DUPLICATE KEY UPDATE id=id;
    ```
- 方案 3：使用 Kafka 幂等消费
  - `consume-transform-produce` 方式 + Kafka 事务，确保数据只处理一次

3. 结论
Kafka 通过 多层机制 保障 不丢失 & 不重复：

| 环节  | 防止丢失  | 防止重复  |
|------------|------------|------------|
| 生产者 | `acks=all` + `retries` | `enable.idempotence=true` |
| 存储 | ISR 副本机制 + 持久化 | 事务写入（`initTransactions`） |
| 消费者 | `commitSync` 确保处理完后提交 | Redis / DB 幂等去重 |

✅ 最终方案
1. 生产端：`acks=all` + `enable.idempotence=true`
2. 存储端：`replication.factor=3` + `min.insync.replicas=2`
3. 消费端：手动提交 Offset + 幂等去重（Redis / DB）

4. 总结
- 保证不丢失：`acks=all` + `ISR 复制` + `持久化` + `手动提交 Offset`
- 保证不重复：幂等 Producer + 事务 Producer + 消费端去重
- 最终方案：
  - 生产者开启 幂等，`enable.idempotence=true`
  - Broker 采用 ISR 复制，`replication.factor=3`
  - 消费者手动提交 Offset，`commitSync()`
  - 使用 事务 Producer 确保 Exactly Once
  - 消费端做 Redis / DB 去重

➡ 这样 Kafka 就可以保证消息 "不丢、不重、不乱"！🚀

RocketMQ 的延迟消息、事务消息实现原理。

RocketMQ 的延迟消息实现原理
RocketMQ 实现延迟消息的方式与传统的 `cron` 定时任务不同，它采用定时级别（delay level）的方式进行处理。

1. 延迟消息存储机制
RocketMQ 并不支持任意时间的延迟投递，而是预定义了一组固定的延迟级别（delay levels），例如：
    ```
    1s 5s 10s 30s 1m 2m 3m 4m 5m 6m 7m 8m 9m 10m 20m 30m 1h 2h
    ```
对应的 level 值 从 `1` 到 `18`，即消息只能按照这些时间间隔进行延迟投递。

当生产者发送延迟消息时：
- 生产者：设置 `delayLevel`（消息的 `delayTimeLevel` 属性）。
- Broker：接收消息后，将其存入 延迟队列（ScheduleMessageService）。
- 消息存储：消息的原始 `topic` 变为 `SCHEDULE_TOPIC_XXXX`，实际的 `topic`、`queueId` 以及 `delayLevel` 作为元数据存储。

2. 延迟消息的调度
RocketMQ 通过 `ScheduleMessageService` 线程池来定时轮询 `SCHEDULE_TOPIC_XXXX` 队列：
1. 时间轮询：Broker 线程 `ScheduleMessageService` 维护多个 定时任务，按照 `delayLevel` 设定的时间间隔执行扫描。
2. 时间到达：当消息的投递时间到达时，`ScheduleMessageService` 重新构造消息，将其放入原始 Topic 的队列中。
3. 消费者消费：消费端从 原始 Topic 的队列中正常消费消息，不需要感知消息曾经是延迟消息。

3. 特性和限制
- 只支持固定的延迟级别，不支持任意时间的精确延迟。
- 不能撤回：一旦消息进入 `SCHEDULE_TOPIC_XXXX`，无法取消。
- 适用于：定时任务、订单超时取消等场景。

RocketMQ 的事务消息实现原理
RocketMQ 通过 二阶段提交（Two-phase Commit）+ 补偿机制 来实现事务消息，确保事务的最终一致性。

1. 事务消息的流程
RocketMQ 事务消息的处理流程如下：
1. Half 消息（Prepare 阶段）
   - 生产者发送半消息（Half Message）到 RocketMQ，消息状态为不可见。
   - Broker 收到消息后，暂存该消息，不投递给消费者。

2. 本地事务执行
   - 生产者执行本地事务（例如，订单写入数据库）。
   - 根据事务执行结果：
     - 提交事务（Commit）：生产者发送 `commit` 操作，Broker 使消息可见，消费者可正常消费。
     - 回滚事务（Rollback）：生产者发送 `rollback` 操作，Broker 删除该消息，消费者永远不会接收到该消息。

3. 事务状态回查（Transaction Check）
   - 如果 Broker 未收到生产者的最终确认（commit 或 rollback），它会定期回查生产者，请求其确认事务状态。
   - 生产者需要实现 `TransactionListenercheckLocalTransaction` 方法来检查本地事务状态：
     - `CommitTransaction`（确认提交）
     - `RollbackTransaction`（确认回滚）
     - `Unknown`（继续等待，Broker 之后再次回查）

2. 事务消息的特点
- 保证最终一致性：RocketMQ 不提供强一致性，而是基于本地事务+补偿的方式，最终达到一致性。
- 避免消息丢失：即使生产者崩溃，Broker 也可以回查事务状态，确保消息最终提交或回滚。
- 适用于：金融支付、库存扣减、订单处理等需要事务保障的场景。

3. 事务消息 vs. 传统分布式事务
| 方案 | RocketMQ 事务消息 | XA / TCC |
|------|------------------|----------|
| 一致性级别 | 最终一致性 | 强一致性 |
| 事务粒度 | 消息级事务 | 数据库级事务 |
| 事务隔离 | 弱隔离 | 强隔离 |
| 适用场景 | 异步事务、幂等业务 | 需要严格事务隔离 |

总结
| 方案 | 机制 | 适用场景 |
|------|------|--------|
| 延迟消息 | 预定义 `delayLevel`，Broker 通过 `ScheduleMessageService` 轮询定时发送 | 订单超时取消、定时任务 |
| 事务消息 | 生产者先发送半消息，执行本地事务，Broker 通过回查机制确保最终一致性 | 订单支付、库存扣减 |

RocketMQ 通过定时任务+时间轮询实现延迟消息，采用两阶段提交+事务回查实现事务消息。这些机制让 RocketMQ 在分布式事务和异步任务场景下发挥了巨大作用。

如何解决消息堆积问题?

RocketMQ 消息堆积问题及解决方案
消息堆积（Message Accumulation）通常发生在消费者处理能力低于生产者的消息生产速率时。如果堆积严重，可能会导致 Broker 内存占满、磁盘 I/O 负载过高，甚至影响整个消息系统的稳定性。

1. 消息堆积的常见原因
1. 消费端处理能力不足
   - 消费者消费速率低于生产速率，导致消息不断积压。
   - 消费者应用逻辑较慢（如长时间调用外部 API 或数据库操作）。

2. 消费者实例数过少
   - 单个消费者无法充分利用 CPU 资源，导致消费速率低。

3. 消息队列分配不均
   - 消费者未能均匀分布消费 `queue`，导致部分 `queue` 负载过重。

4. 消息处理失败
   - 消费者异常（如代码错误、依赖服务不可用）导致消费失败，RocketMQ 会不断重试。

5. 网络或 Broker 负载问题
   - Broker 资源耗尽（CPU、磁盘、网络），导致消息发送和拉取变慢。

6. 消费端限流
   - RocketMQ 可能对消费者做了限流（`flowControl`），限制单次拉取消息的数量。

2. 消息堆积的解决方案
1. 提高消费者消费速率
✅ 优化消费者业务逻辑
- 减少耗时操作：
  - 避免阻塞调用（如数据库查询、HTTP 请求）。
  - 尽可能使用 批量处理（如批量插入数据库）。
- 使用异步消费：
  - 在 Java 消费者中，`push` 模式支持异步处理，提高吞吐量。
  - 可使用 多线程池 并行处理消息。

✅ 调整消费参数
- 批量消费（`pullBatchSize`）
  - RocketMQ 默认单次最多拉取 `32` 条消息，可以适当增大 `pullBatchSize`，例如 `64` 或 `128`。
- 多线程消费
  - `DefaultMQPushConsumer` 默认是单线程消费，可通过 `setConsumeThreadMin()` 和 `setConsumeThreadMax()` 增加消费线程数：
    ```java
    consumer.setConsumeThreadMin(10);
    consumer.setConsumeThreadMax(30);
    ```
- 减少 `consumeMessageBatchMaxSize`
  - 批量消费时，可以尝试降低 `consumeMessageBatchMaxSize`，避免单个任务处理时间过长。

2. 增加消费者实例数
如果单个消费者处理能力不足，可以增加多个消费者实例，并确保它们属于同一个 Consumer Group，RocketMQ 会自动进行 负载均衡。

✅ 如何扩容消费者
- 增加消费者数量
  - 部署多个 `Consumer` 实例，它们会自动负载均衡。
- 启用并行消费
  - 适用于 顺序消费模式（Orderly），通过 `setConsumeThreadMin()` 增加消费线程。

3. 增加消息队列数
✅ 增加 `Topic` 的 `queue` 数量
默认情况下，每个 `Topic` 只有 `4` 个 `queue`，如果 `queue` 数量太少，容易形成热点队列，导致负载不均。

可以调整 `queue` 数量，例如：
    ```shell
    mqadmin updateTopic -n <namesrv_addr> -b <broker_addr> -t myTopic -c DefaultCluster -q 16
    ```
这样，更多的消费者可以并行消费不同的 `queue`，提高吞吐量。

4. 调整 Broker 性能
✅ 优化 Broker 参数
- 调整 RocketMQ 消息刷盘模式
  - 默认 `ASYNC_FLUSH`（异步刷盘），如果使用 `SYNC_FLUSH`（同步刷盘），可能会降低吞吐量。
- 调整 `Broker` 端的 `pullBatchSize`
  - 增加 `broker.conf` 的 `maxMessageSize`，确保单次拉取的数据量更大：
    ```shell
    maxMessageSize=65536
    ```

✅ 提升 Broker 硬件
- 提升磁盘性能
  - RocketMQ 依赖 磁盘 IO，使用 SSD 替代 HDD。
- 扩展 Broker 集群
  - 部署多个 `Broker`，使用多主多从架构，减少单个 Broker 的压力。

5. 采用流控（降级策略）
如果短时间内消息激增，消费者无法承受，可以采取 流控（Rate Limiting） 方案：

✅ 调整 `flowControl` 进行限流
在 `PushConsumer` 模式下，可通过 `pullThresholdForQueue` 设置单个队列最大拉取的消息数：
    ```java
    consumer.setPullThresholdForQueue(1000);
    ```
这样可以防止消费者被短时间内的高流量击垮。

✅ 消息过期丢弃
如果业务允许，可以配置 `messageDelayLevel` 或 `msgTimeout`，让 RocketMQ 在超时后丢弃旧消息：
    ```shell
    deleteWhen=04
    fileReservedTime=48
    ```
此配置表示每天凌晨 `4` 点清理超过 `48` 小时未消费的消息。

6. 采用死信队列（Dead Letter Queue, DLQ）
如果消费者一直消费失败，RocketMQ 默认会重试 16 次，然后将消息丢弃。

可以开启 死信队列（DLQ），这样未消费成功的消息会进入 特殊 Topic，供后续排查：
    ```shell
    mqadmin updateTopic -n <namesrv_addr> -c DefaultCluster -t %DLQ%consumerGroup
    ```
然后消费者可以专门监听 DLQ 并手动补偿。

总结
| 方案 | 适用场景 | 解决方式 |
|------|------|--------|
| 优化消费逻辑 | 处理慢 | 使用多线程、批量消费、异步处理 |
| 增加消费者 | CPU 空闲，消费跟不上 | 扩展 `Consumer Group` |
| 增加队列数 | 消费负载不均衡 | `Topic` 增加 `queue` 数量 |
| 优化 Broker | 磁盘或 CPU 瓶颈 | SSD、增加 `Broker` 实例 |
| 流控 | 保护消费者 | `pullThresholdForQueue` 限流 |
| 死信队列 | 失败消息重试 | `DLQ` 处理失败消息 |

🚀 建议优先：
1. 先优化消费者逻辑（多线程、批量）
2. 然后增加 `Consumer` 数量
3. 最后再考虑扩容 `Broker`

如果你的 RocketMQ 消息已经严重堆积，可以先查看 `Topic` 的消费状态：
    ```shell
    mqadmin consumerProgress -g <consumerGroup>
    ```
然后根据具体瓶颈对症下药。

三、数据库与存储

SQL 与优化

索引失效场景及优化(联合索引、覆盖索引)。

MySQL 索引是优化查询性能的重要工具，但在某些情况下，索引可能会失效，导致全表扫描（`full table scan`），进而影响性能。

1. 索引失效的常见场景
1.1 使用 `LIKE` 查询时的前导通配符
🔹 示例
    ```sql
    SELECT * FROM users WHERE name LIKE '%abc';
    ```
📌 问题：`LIKE '%abc'` 以 `%` 开头，MySQL 无法使用索引，只能进行全表扫描。

✅ 优化
- 改用后缀匹配（`abc%`）可以使用索引：
    ```sql
    SELECT * FROM users WHERE name LIKE 'abc%';
    ```
- 使用 全文索引（`FULLTEXT`）优化模糊查询：
    ```sql
    ALTER TABLE users ADD FULLTEXT(name);
    SELECT * FROM users WHERE MATCH(name) AGAINST('abc');
    ```

1.2 在索引列上进行计算
🔹 示例
    ```sql
    SELECT * FROM orders WHERE YEAR(create_time) = 2024;
    ```
📌 问题：`YEAR(create_time)` 对 `create_time` 进行了计算，索引失效。

✅ 优化
- 直接比较范围，而不是对列进行计算：
    ```sql
    SELECT * FROM orders WHERE create_time >= '2024-01-01' AND create_time < '2025-01-01';
    ```

1.3 隐式类型转换
🔹 示例
    ```sql
    SELECT * FROM users WHERE phone = 13812345678;
    ```
📌 问题：如果 `phone` 是 `VARCHAR(11)` 类型，而查询值是整数（`INT`），MySQL 会进行类型转换，导致索引失效。

✅ 优化
- 确保类型一致：
    ```sql
    SELECT * FROM users WHERE phone = '13812345678';
    ```

1.4 `OR` 查询没有索引覆盖
🔹 示例
    ```sql
    SELECT * FROM users WHERE name = 'Tom' OR age = 25;
    ```
📌 问题：
- `name` 和 `age` 必须同时有索引，否则索引失效，执行全表扫描。

✅ 优化
- 拆分查询，使用 `UNION ALL`：
    ```sql
    SELECT * FROM users WHERE name = 'Tom'
    UNION ALL
    SELECT * FROM users WHERE age = 25;
    ```
- 确保 `name, age` 组成联合索引 `(name, age)`。

1.5 使用 `!=`、`<>`、`NOT IN`
🔹 示例
    ```sql
    SELECT * FROM products WHERE category_id != 3;
    ```
📌 问题：
- `!=` 或 `<>` 无法利用索引，因为 B+ 树无法高效查找不等值范围。

✅ 优化
- 用 `BETWEEN` 或 `IN` 代替：
    ```sql
    SELECT * FROM products WHERE category_id IN (1,2,4,5);
    ```

1.6 `IS NULL` 和 `IS NOT NULL`
🔹 示例
    ```sql
    SELECT * FROM users WHERE last_login IS NULL;
    ```
📌 问题：
- `IS NULL` 可能导致索引失效（某些版本优化过）。
- `IS NOT NULL` 索引几乎必定失效，因为 B+ 树不会索引 `NULL` 值。

✅ 优化
- 设定默认值，避免 `NULL`：
    ```sql
    ALTER TABLE users MODIFY last_login DATETIME NOT NULL DEFAULT '2000-01-01';
    ```

1.7 复合索引（联合索引）不满足最左前缀
联合索引（`composite index`）遵循 最左前缀原则，即：
    ```sql
    CREATE INDEX idx_user ON users (name, age, city);
    ```
等价于：
- `(name)` 可用索引 ✅
- `(name, age)` 可用索引 ✅
- `(name, age, city)` 可用索引 ✅
- `(age, city)` 索引失效 ❌（不满足最左前缀）

🔹 示例
    ```sql
    SELECT * FROM users WHERE age = 25;
    ```
📌 问题：
- 由于 跳过了 `name`，索引 `idx_user` 不会生效。

✅ 优化
- 改变索引顺序：
    ```sql
    CREATE INDEX idx_user_v2 ON users (age, name, city);
    ```
- 或者补上最左列：
    ```sql
    SELECT * FROM users WHERE name = 'Tom' AND age = 25;
    ```

1.8 使用 `ORDER BY` 但索引列方向不匹配
🔹 示例
    ```sql
    SELECT * FROM users WHERE name = 'Tom' ORDER BY age DESC;
    ```
📌 问题：
- 如果索引是 `(name ASC, age ASC)`，查询 `ORDER BY age DESC` 会导致索引失效。

✅ 优化
- 确保 `ORDER BY` 方向一致：
    ```sql
    SELECT * FROM users WHERE name = 'Tom' ORDER BY age ASC;
    ```

2. 索引优化：覆盖索引
2.1 什么是覆盖索引？
覆盖索引（`covering index`）是指查询的所有列都被索引覆盖，MySQL 只扫描索引，而不访问数据表，提高查询速度。

🔹 示例
    ```sql
    CREATE INDEX idx_user_email ON users (email);
    SELECT email FROM users WHERE email = '[email protected]';
    ```
📌 优化点：
- 只查询 `email`，MySQL 无需回表，直接从索引中获取数据。

2.2 覆盖索引优化
✅ 建立合适的索引
- 如果经常查询 `(id, name, age)`，可以创建索引：
    ```sql
    CREATE INDEX idx_user ON users (id, name, age);
    ```

✅ 查询时只请求索引覆盖的列
- 避免 `SELECT *`，改为：
    ```sql
    SELECT id, name FROM users WHERE id = 10;
    ```
  这样 MySQL 不需要回表，只需扫描索引，提高查询速度。

3. 总结
| 索引失效场景 | 优化方案 |
|----------------|-----------|
| `LIKE '%abc'` | 使用 `abc%` 或 `FULLTEXT` |
| 索引列计算 | 直接比较值，不使用 `YEAR()` |
| 类型转换 | 保持数据类型一致 |
| `OR` 查询 | 改用 `UNION ALL` 或联合索引 |
| `!=` / `NOT IN` | 改用 `IN` 或 `BETWEEN` |
| `IS NOT NULL` | 设定默认值，避免 `NULL` |
| 联合索引未满足最左前缀 | 调整索引列顺序 |
| `ORDER BY` 方向不匹配 | 统一 `ORDER BY` 方向 |
| 覆盖索引 | 只查询索引列，避免 `SELECT *` |

🔹 优化建议
1. 合理设计索引，使用最左前缀匹配。
2. 减少索引失效因素，避免计算、转换、`OR` 等操作。
3. 使用覆盖索引，减少回表，提高查询速度。

🚀 索引优化的目标：减少全表扫描，提高查询效率！

分库分表设计(ShardingSphere 实践)。

分库分表设计及 ShardingSphere 实践
在大规模数据存储和高并发场景下，单库单表模式容易成为系统瓶颈，因此分库分表（Database & Table Sharding）成为常见优化方案。ShardingSphere 作为流行的分库分表中间件，能有效管理数据库分片，提高查询和写入性能。

1. 为什么需要分库分表？
1.1 数据库单点瓶颈
- 单表数据量过大：MySQL 单表数据量超过 1000 万行后，查询性能下降。
- 磁盘 I/O 瓶颈：单机磁盘容量有限，扩展性差。
- CPU/内存负载过高：写入和查询压力集中在单库，导致服务器负载过重。

1.2 分库分表的目标
- 提高查询性能：减少单表数据量，提高索引命中率。
- 提升写入吞吐量：通过多个数据库实例分散写压力。
- 数据库水平扩展：支持弹性扩展，避免单点故障。

2. 分库分表策略
2.1 垂直拆分（分库）
- 思路：根据业务逻辑，将不同的表存入不同的数据库。
- 适用场景：
  - 不同业务模块，如订单、用户、支付分离。
  - 减少单库连接数，提高查询效率。

🔹 示例
    ```text
    DB1 (用户库): 用户表、地址表
    DB2 (订单库): 订单表、支付表
    DB3 (日志库): 访问日志表
    ```

2.2 水平拆分（分表）
- 思路：根据某个字段（如 `user_id`、`order_id`）进行数据分片，每个表存部分数据。
- 适用场景：
  - 单表数据量过大，查询速度下降。
  - 高并发写入，单表写入性能受限。

🔹 示例
    ```text
    订单表 order_0: user_id ∈ [0,499999]
    订单表 order_1: user_id ∈ [500000,999999]
    ```

2.3 水平分库 + 分表
- 思路：多个数据库，每个库包含多个分表。
- 适用场景：
  - 超大数据量（亿级）+ 高并发。
  - 避免单机磁盘、CPU、网络瓶颈。

🔹 示例
    ```text
    DB0 (order_0, order_1)
    DB1 (order_2, order_3)
    DB2 (order_4, order_5)
    ```

3. ShardingSphere 分库分表实践
[Apache ShardingSphere](https://shardingsphere.apache.org/) 提供 Sharding-JDBC、Sharding-Proxy、Sharding-Sidecar 三种模式，其中 Sharding-JDBC 适用于 Java 项目。

3.1 ShardingSphere-JDBC 配置
① 引入依赖
    ```xml
    <dependency>
        <groupId>org.apache.shardingsphere</groupId>
        <artifactId>sharding-jdbc-core</artifactId>
        <version>5.2.0</version>
    </dependency>
    ```

② 配置数据源
在 `application.yml` 中配置多个数据库：
    ```yaml
    spring:
      shardingsphere:
        datasource:
          names: db0, db1
          db0:
            type: com.zaxxer.hikari.HikariDataSource
            driver-class-name: com.mysql.cj.jdbc.Driver
            jdbc-url: jdbc:mysql://localhost:3306/order_db0?serverTimezone=UTC
            username: root
            password: 123456
          db1:
            type: com.zaxxer.hikari.HikariDataSource
            driver-class-name: com.mysql.cj.jdbc.Driver
            jdbc-url: jdbc:mysql://localhost:3306/order_db1?serverTimezone=UTC
            username: root
            password: 123456
    ```

③ 配置分片策略
按照 `user_id` 进行分库分表：
    ```yaml
    sharding:
      tables:
        order:
          actual-data-nodes: db$->{0..1}.order_$->{0..3}
          database-strategy:
            standard:
              sharding-column: user_id
              precise-algorithm-class-name: com.example.sharding.DatabaseShardingAlgorithm
          table-strategy:
            standard:
              sharding-column: order_id
              precise-algorithm-class-name: com.example.sharding.TableShardingAlgorithm
    ```

④ 自定义分库算法
    ```java
    public class DatabaseShardingAlgorithm implements PreciseShardingAlgorithm<Long> {
        @Override
        public String doSharding(Collection<String> availableTargetNames, PreciseShardingValue<Long> shardingValue) {
            // user_id % 2 分库
            long databaseIndex = shardingValue.getValue() % 2;
            return "db" + databaseIndex;
        }
    }
    ```

⑤ 自定义分表算法
    ```java
    public class TableShardingAlgorithm implements PreciseShardingAlgorithm<Long> {
        @Override
        public String doSharding(Collection<String> availableTargetNames, PreciseShardingValue<Long> shardingValue) {
            // order_id % 4 分表
            long tableIndex = shardingValue.getValue() % 4;
            return "order_" + tableIndex;
        }
    }
    ```

⑥ 测试 Sharding
执行插入：
    ```sql
    INSERT INTO order (order_id, user_id, amount) VALUES (1001, 123456, 500);
    ```
ShardingSphere 自动路由：
    ```text
    db1.order_1
    ```
查询：
    ```sql
    SELECT * FROM order WHERE user_id = 123456;
    ```
ShardingSphere 自动拼接多个分片查询，提高查询效率。

4. 读写分离
ShardingSphere 还支持 主从复制（读写分离），可优化数据库压力：
    ```yaml
    sharding:
      masterslave:
        load-balance-algorithm-type: round_robin
        name: ms
        master-data-source-name: master
        slave-data-source-names: slave0, slave1
    ```
这样，写入到主库，查询从从库，提高性能。

5. 分库分表后的注意事项
5.1 全局唯一 ID
分库分表后，`AUTO_INCREMENT` 不能保证全局唯一，常用方案：
- UUID（性能较差）
- 雪花算法（Snowflake）
- 分布式 ID 生成器（如 `Leaf`、`Baiji`）

5.2 跨库事务
分库后，XA 事务性能较低，推荐：
- TCC（Try-Confirm-Cancel）补偿机制
- Seata 分布式事务框架

5.3 跨库查询
- ShardingSphere 自动执行分片查询，但如果数据量大，性能仍可能下降。
- 解决方案：
  - 避免跨库 JOIN，尽量分批查询再应用层合并。
  - 使用 Elasticsearch 或 TiDB 存储跨库数据。

6. 总结
| 方案 | 优点 | 缺点 |
|------|------|------|
| 垂直拆分 | 业务隔离，降低单库压力 | 不能解决单表数据量大问题 |
| 水平分表 | 提高查询和写入性能 | 不支持跨表 JOIN，ID 唯一性问题 |
| 水平分库分表 | 适合高并发、高数据量 | 事务复杂，架构升级难 |

🚀 最佳实践
1. ShardingSphere 自动管理分库分表
2. 合理选择分片键（如 `user_id`）
3. 主从分离提高查询性能
4. 避免跨库事务，使用分布式事务框架

这样，就能实现高性能、高可扩展的数据库架构！🎯

数据库死锁的排查与解决。

数据库死锁的排查与解决
数据库死锁（Deadlock）是指多个事务同时持有部分资源，并等待其他事务释放其锁资源，导致循环等待，最终所有事务都无法继续执行。

本文将详细介绍死锁的成因、排查手段和优化方案，并以 MySQL 为例进行实战分析。

1. 什么是数据库死锁？
1.1 死锁发生的基本条件
数据库死锁通常满足以下 四个条件（"四要素"）：
1. 互斥（Mutual Exclusion）：事务占用的资源不能被其他事务共享。
2. 持有且等待（Hold and Wait）：事务已持有部分资源，但在等待其他资源时不会释放已有资源。
3. 不可剥夺（No Preemption）：已分配的资源不能被强行回收，必须由持有资源的事务主动释放。
4. 循环等待（Circular Wait）：多个事务形成资源依赖的循环链，每个事务都在等待下一个事务释放资源。

1.2 死锁示例
假设有 `T1` 和 `T2` 两个事务：
    ```sql
    -- 事务 T1
    BEGIN;
    LOCK TABLE orders WRITE;  -- 获取 orders 表的写锁
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    LOCK TABLE payments WRITE;  -- 等待 payments 表的锁
    UPDATE payments SET amount = 200 WHERE order_id = 1;

    -- 事务 T2
    BEGIN;
    LOCK TABLE payments WRITE;  -- 获取 payments 表的写锁
    UPDATE payments SET amount = 150 WHERE order_id = 1;
    LOCK TABLE orders WRITE;  -- 等待 orders 表的锁
    UPDATE orders SET status = 'paid' WHERE id = 1;
    ```
> 问题：`T1` 持有 `orders` 锁，等待 `payments` 锁，而 `T2` 持有 `payments` 锁，等待 `orders` 锁，形成循环等待，导致死锁。

2. 如何排查死锁？
2.1 通过 MySQL 日志排查
MySQL 提供 `SHOW ENGINE INNODB STATUS` 命令，可以查看最近的死锁信息：
    ```sql
    SHOW ENGINE INNODB STATUS;
    ```
🔹 示例输出
    ```
    ------------------------
    LATEST DETECTED DEADLOCK
    ------------------------
    2025-03-26 15:00:12
    * (1) TRANSACTION:
    TRANSACTION 12345, ACTIVE 5 sec
    LOCK WAIT timeout: trying to lock record
    TABLE: orders
    LOCK TYPE: RECORD LOCKS
    INDEX: PRIMARY
    * (2) TRANSACTION:
    TRANSACTION 67890, ACTIVE 5 sec
    LOCK WAIT timeout: trying to lock record
    TABLE: payments
    LOCK TYPE: RECORD LOCKS
    INDEX: PRIMARY
    ```
📌 分析
- 事务 12345 和 67890 发生循环等待。
- 事务等待的表 `orders` 和 `payments` 存在交叉锁。
- 由于 MySQL InnoDB 存储引擎默认自动检测死锁，并会选择其中一个事务回滚。

2.2 通过 `performance_schema` 监控
MySQL 5.6+ 版本可以使用 `performance_schema` 监控锁等待：
    ```sql
    SELECT * FROM performance_schema.data_locks;
    ```
🔹 示例输出
| ENGINE | OBJECT_SCHEMA | OBJECT_NAME | INDEX_NAME | LOCK_TYPE |
|--------|-------------|-------------|------------|-----------|
| InnoDB | mydb       | orders      | PRIMARY    | RECORD LOCK |
| InnoDB | mydb       | payments    | PRIMARY    | RECORD LOCK |

📌 分析
- `LOCK_TYPE` 显示事务正在等待的资源。
- `INDEX_NAME` 说明死锁可能由索引争用导致。

2.3 使用 MySQL `SHOW PROCESSLIST`
    ```sql
    SHOW PROCESSLIST;
    ```
🔹 示例输出
| ID  | User | Host | db   | Command | Time | State   | Info |
|----|------|------|------|---------|------|---------|------|
| 101 | app  | 127.0.0.1 | mydb | Query   | 10   | Locked  | UPDATE orders SET status='shipped' WHERE id=1 |
| 102 | app  | 127.0.0.1 | mydb | Query   | 10   | Locked  | UPDATE payments SET amount=200 WHERE order_id=1 |

📌 分析
- `State=Locked` 表明事务正在等待锁。
- `Info` 显示当前正在执行的 SQL 语句。

3. 解决死锁的方法
3.1 事务访问顺序保持一致
问题：事务 `T1` 和 `T2` 访问表的顺序不同，导致死锁。
✅ 解决方案：所有事务按相同顺序访问资源。
    ```sql
    -- 事务 T1
    BEGIN;
    LOCK TABLE payments WRITE;
    LOCK TABLE orders WRITE;
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    UPDATE payments SET amount = 200 WHERE order_id = 1;
    COMMIT;
    ```
> 这样 `T1` 和 `T2` 都先锁 `payments`，再锁 `orders`，避免循环等待。

3.2 使用 `SELECT ... FOR UPDATE`
问题：两个事务同时更新相同的行，导致死锁。
✅ 解决方案：使用 `SELECT ... FOR UPDATE` 先锁定行，防止多个事务同时修改：
    ```sql
    BEGIN;
    SELECT * FROM orders WHERE id = 1 FOR UPDATE;
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    COMMIT;
    ```

3.3 减少事务持锁时间
问题：事务持有锁时间过长，导致其他事务阻塞。
✅ 解决方案：
1. 尽量减少事务中的操作，避免不必要的计算和等待。
2. 拆分大事务，降低单个事务锁住的数据范围。

3.4 设置超时时间
✅ 解决方案：在 MySQL 中，可以降低 `innodb_lock_wait_timeout`，让事务超时回滚：
    ```sql
    SET innodb_lock_wait_timeout = 5;
    ```
> 如果事务等待超过 5 秒，MySQL 将回滚该事务，避免死锁蔓延。

3.5 索引优化
问题：行锁升级为表锁，导致死锁。
✅ 解决方案：
- 确认 `WHERE` 子句命中了索引，避免全表扫描导致表锁。
- 使用覆盖索引减少锁争用：
    ```sql
    -- 覆盖索引查询，避免锁定不必要的列
    SELECT order_id, status FROM orders WHERE user_id = 123 FOR UPDATE;
    ```

4. 总结
| 方法 | 解决策略 |
|----------|-------------|
| 统一访问顺序 | 所有事务按相同顺序访问资源 |
| 使用 `FOR UPDATE` | 锁定需要修改的数据，防止并发修改 |
| 减少事务持锁时间 | 提前查询数据，减少事务中耗时操作 |
| 设置锁超时时间 | 避免长时间死锁 |
| 索引优化 | 防止行锁升级为表锁 |

🚀 最佳实践
1. 定期使用 `SHOW ENGINE INNODB STATUS` 检查死锁。
2. 避免长事务，减少锁的竞争。
3. 使用 `SELECT ... FOR UPDATE` 提前锁定行，确保事务执行顺序一致。

如果死锁问题仍然严重，建议优化数据库架构，如分库分表、读写分离等方式降低锁冲突！🚀

MySQL 的 Redo Log、Undo Log 与 MVCC 机制。

MySQL 的 Redo Log、Undo Log 与 MVCC 机制解析
MySQL 采用 InnoDB 存储引擎，具备强大的事务支持、日志管理和并发控制机制，其中 Redo Log（重做日志）、Undo Log（回滚日志）、MVCC（多版本并发控制） 是关键组件。本文将详细解析它们的作用、工作原理及其在事务中的协同作用。

1. Redo Log（重做日志）
1.1 作用
`Redo Log` 主要用于事务的持久化，确保即使数据库发生崩溃，已提交的事务仍然可以恢复，保证 事务的持久性（Durability, D）。

1.2 组成
- WAL（Write-Ahead Logging，预写式日志） 机制：先写 `Redo Log`，再更新数据。
- 固定大小的循环日志，日志写满后会覆盖旧日志。

1.3 工作流程
1. 事务开始，执行 `UPDATE` 语句，修改 `Buffer Pool` 中的页。
2. 记录 `Redo Log`，但不立即刷回磁盘（仅写入日志）。
3. 事务提交时，将 `Redo Log` 刷入磁盘（`fsync`），保证数据可恢复。
4. InnoDB 后台线程 将 Buffer Pool 中的脏页刷入磁盘（Checkpoint）。

1.4 `Redo Log` 作用示例
    ```sql
    BEGIN;
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    COMMIT;
    ```
- 事务提交后，即使 MySQL 宕机，`Redo Log` 仍然存储了 已提交 的数据，可以恢复已提交的修改。

1.5 Redo Log 的核心点
| 特性 | 说明 |
|------|------|
| 保证持久性 | 事务提交后，数据即使未写入磁盘，也可恢复 |
| 环形日志 | 采用固定大小的日志，写满后循环覆盖 |
| WAL 机制 | 先写日志，再写数据，提高性能 |
| Checkpoint | 定期刷脏页，减少日志回放时间 |

2. Undo Log（回滚日志）
2.1 作用
`Undo Log` 主要用于 事务的回滚，保证事务的 原子性（Atomicity, A），同时与 MVCC 结合，实现 一致性读。

2.2 组成
- 记录 事务执行前的值，支持事务回滚。
- 采用 逻辑日志 方式存储 SQL 反向操作。
- 与 `Redo Log` 不同，`Undo Log` 不是循环日志，而是按需扩展，事务提交后可以删除。

2.3 工作流程
1. 事务执行 `UPDATE`，先在 `Undo Log` 记录旧值。
2. 事务提交时，`Undo Log` 可能被删除（如果没有并发事务需要使用它）。
3. 若事务回滚，MySQL 根据 `Undo Log` 进行数据恢复。

2.4 `Undo Log` 作用示例
    ```sql
    BEGIN;
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    ROLLBACK;
    ```
- `Undo Log` 记录 `status` 修改前的值。
- 事务回滚时，`Undo Log` 将数据恢复为 `UPDATE` 之前的状态。

2.5 `Undo Log` 的核心点
| 特性 | 说明 |
|------|------|
| 保证原子性 | 事务失败或回滚时，数据恢复原状 |
| 逻辑日志 | 记录 SQL 反向操作，而非物理数据变更 |
| 支持 MVCC | `Undo Log` 让未提交的事务仍能访问旧数据 |
| 提交后可删除 | `Undo Log` 仅用于回滚，事务提交后可删除 |

3. MVCC（多版本并发控制）
3.1 作用
`MVCC`（Multi-Version Concurrency Control，多版本并发控制） 主要用于 解决高并发场景下的读写冲突，通过行版本管理，提高 一致性读（Consistent Read） 性能。

3.2 MVCC 的关键组件
- 事务 ID（trx_id）：每个事务启动时分配唯一 `ID`。
- 回滚指针（rollback pointer）：指向 `Undo Log`，用于版本回溯。
- Read View（读视图）：
  - 快照读（不加锁）：`SELECT * FROM orders WHERE id = 1;`
  - 当前读（加锁）：`SELECT * FROM orders WHERE id = 1 FOR UPDATE;`

3.3 工作原理
1. 事务开始时，创建 Read View，记录所有未提交事务的 `trx_id`。
2. 读取数据时：
   - 若数据 `trx_id` 比当前事务小（表示已提交），可读取该数据。
   - 若数据 `trx_id` 比当前事务大（表示其他事务未提交），通过 `Undo Log` 读取旧版本数据。
3. 事务提交后，旧版本数据可能被清理（由 `Purge` 线程 负责）。

3.4 `MVCC` 作用示例
    ```sql
    -- 事务 A（开启后读取数据）
    BEGIN;
    SELECT * FROM orders WHERE id = 1;

    -- 事务 B（修改数据后提交）
    BEGIN;
    UPDATE orders SET status = 'shipped' WHERE id = 1;
    COMMIT;
    ```
- 事务 A 仍能读取 `Undo Log` 里的旧值，不受事务 B 影响。

3.5 `MVCC` 关键点
| 特性 | 说明 |
|------|------|
| 减少锁竞争 | 读不加锁，避免阻塞 |
| 读写并行 | 读取历史版本，提高并发 |
| 基于 `Undo Log` | 通过回滚日志实现快照 |
| Read View | 事务快照隔离未提交数据 |

4. 三者关系总结
| 机制 | 作用 | 主要用途 | 关键点 |
|------|------|--------|--------|
| Redo Log | 保证持久性 | 崩溃恢复 | WAL 预写日志，环形存储 |
| Undo Log | 支持回滚 | 事务回滚、MVCC | 逻辑日志，事务提交后可删除 |
| MVCC | 提高并发 | 读写分离、快照读 | 依赖 `Undo Log`，减少锁冲突 |

事务执行流程示意
1️⃣ 事务执行时
- 先写 Undo Log（记录旧值）
- 修改 Buffer Pool（内存中的数据）
- 记录 Redo Log（WAL 机制）

2️⃣ 事务提交
- 先写入 Redo Log
- `fsync` 保证持久化
- 删除 Undo Log（若无事务访问）

3️⃣ 事务回滚
- 读取 Undo Log 还原数据

4️⃣ MVCC 读取
- 若数据未提交，读取 `Undo Log` 旧版本

5. 总结
- `Redo Log` 保证 事务持久性，防止崩溃丢失已提交数据。
- `Undo Log` 允许事务回滚，并支撑 MVCC 实现一致性读。
- `MVCC` 让读写不冲突，提高数据库的高并发性能。

通过 Redo Log、Undo Log 和 MVCC 的结合，MySQL 在保证事务一致性的同时，大幅提升了 并发性能 🚀🚀！

NoSQL 与缓存

Redis 的持久化(RDB/AOF)与高可用(Cluster、Sentinel)。

Redis 的持久化（RDB & AOF）与高可用（Cluster & Sentinel）解析
Redis 作为高性能的内存数据库，支持 持久化（Persistence） 和 高可用（High Availability） 机制，保证数据安全性和服务稳定性。本文将深入解析 Redis 的 RDB（快照）、AOF（日志）、哨兵（Sentinel）、集群（Cluster） 的工作原理和适用场景。

1. Redis 持久化（Persistence）
1.1 RDB（Redis Database Snapshot）
📌 作用
RDB 通过定期快照（Snapshot）方式，将 Redis 内存中的数据保存到磁盘，用于数据恢复。

📌 触发方式
1. 手动触发
   - `SAVE`（阻塞 Redis 主线程，影响性能）
   - `BGSAVE`（创建子进程异步执行，推荐）

2. 自动触发
   - 配置 `save` 规则，如：
     ```ini
     save 900 1   900 秒（15 分钟）内至少 1 次修改
     save 300 10  300 秒（5 分钟）内至少 10 次修改
     save 60 10000 60 秒（1 分钟）内至少 10000 次修改
     ```
   - 触发 `SHUTDOWN` 命令（正常关闭 Redis 时）

📌 工作原理
1. Redis 通过 fork 创建子进程。
2. 子进程将数据快照写入临时 RDB 文件。
3. 写入完成后替换旧 RDB 文件（`dump.rdb`）。

📌 优点
✅ 对性能影响小（fork 子进程处理，不影响主线程）
✅ 数据恢复快（加载 RDB 文件比 AOF 更快）
✅ 适用于冷备份（定期快照，可减少数据丢失风险）

📌 缺点
❌ 可能丢失数据（崩溃前最后一次快照后的数据丢失）
❌ 占用存储空间较大（全量存储）

1.2 AOF（Append-Only File）
📌 作用
AOF 记录每条 写操作（SET, HSET, LPUSH），支持数据恢复，保证更高的数据安全性。

📌 触发方式
AOF 以日志方式 记录每个写命令（类似 MySQL Binlog）。

📌 工作原理
1. 所有写命令追加到 AOF 文件。
2. AOF 按配置策略 刷盘（fsync）：
   - `always`（每次写操作都同步写入磁盘，安全但性能低）
   - `everysec`（默认，每 1 秒写入磁盘，折中方案）
   - `no`（由操作系统决定，可能丢失数据）
3. AOF 体积增大后，会触发重写（rewrite）：
   - 创建新 AOF 文件，去掉无效命令，降低体积。

📌 优点
✅ 数据安全性高（默认 `everysec` 最多丢失 1 秒数据）
✅ 可读性好（AOF 是文本文件，可直接修改恢复数据）

📌 缺点
❌ 文件较大（比 RDB 占用更多存储）
❌ 恢复速度慢（需重放 AOF 日志）
❌ 性能影响较大（频繁写磁盘）

1.3 RDB vs AOF 对比
| 特性 | RDB（快照） | AOF（日志） |
|------|------------|------------|
| 数据安全 | 可能丢失最近的修改 | 更安全，最多丢失 1 秒数据 |
| 性能 | fork 进程异步持久化，影响小 | 每次写操作记录日志，影响大 |
| 文件大小 | 小 | 较大 |
| 恢复速度 | 快（直接加载快照） | 慢（逐条重放日志） |
| 适用场景 | 定期备份、快速恢复 | 高可靠性、数据持久化 |

📌 推荐方案
- 数据安全性要求高：`AOF`
- 对性能要求高，允许部分数据丢失：`RDB`
- 两者结合：`AOF + RDB`（既保证性能，又兼顾数据安全）

2. Redis 高可用
2.1 Redis Sentinel（哨兵）
📌 作用
Sentinel 主要用于 监控 Redis 主从（Master-Slave），自动故障转移，实现 高可用（HA）。

📌 主要功能
1. 主从监控（自动检测 `Master` 和 `Slave` 是否存活）
2. 自动故障转移（`Master` 崩溃时，选举 `Slave` 为新的 `Master`）
3. 通知机制（集群状态变化时，通知管理员）
4. 客户端连接更新（故障转移后，通知客户端新 `Master`）

📌 架构示意
    ```
    +------------------------+
    |    Client（应用）     |
    +------------------------+
            │
    +----------------------+
    |     Sentinel 集群    |   监控 + 选举
    +----------------------+
            │
    +--------------------------+
    | Redis 主从（Master-Slave）|
    +--------------------------+
    ```

📌 配置示例
    ```ini
    sentinel monitor mymaster 127.0.0.1 6379 2
    sentinel down-after-milliseconds mymaster 5000
    sentinel failover-timeout mymaster 60000
    ```
- `monitor mymaster 127.0.0.1 6379 2`：监控 `Master`，需要 `2` 个哨兵同意才能判定故障。
- `down-after-milliseconds`：5000ms 内无响应则判定 `Master` 宕机。
- `failover-timeout`：60 秒内完成 `Master` 切换。

📌 适用场景
- 单机故障转移（适用于小型分布式架构）
- 主从模式（无自动分片）

2.2 Redis Cluster（集群模式）
📌 作用
Redis Cluster 通过 数据分片（Sharding）+ 自动故障转移，提供高可用+分布式存储。

📌 主要特点
1. 分片存储（数据自动分布到不同节点）
2. 主从架构（每个 `Master` 有 `Slave` 备份）
3. 自动故障转移（某个 `Master` 宕机，`Slave` 变 `Master`）
4. 无中心化（所有节点互联）

📌 Redis Cluster 结构
    ```
    +---------------------+
    |     Client         |
    +---------------------+
            │
    +----------------------------+
    |     Redis Cluster         |
    |  M1 ─ M2 ─ M3 （Masters）  |
    |  S1   S2   S3 （Slaves）   |
    +----------------------------+
    ```
- M1-M3：`Master` 负责存储数据
- S1-S3：`Slave` 负责备份

📌 槽（Slot）
Redis Cluster 使用 16384 个槽（slot）：
- `Key % 16384` → 决定数据存放在哪个 `Master`。
- 扩容/缩容时，数据自动迁移。

📌 适用场景
- 超大规模数据存储（支持自动分片）
- 高并发（多 `Master` 并行处理请求）

3. 结论
| 机制 | 作用 | 适用场景 |
|------|------|--------|
| RDB | 快照存储，快速恢复 | 适合定期备份，性能优先 |
| AOF | 记录每次操作，数据安全 | 适合高数据安全要求 |
| Sentinel | 监控 `Master`，自动故障转移 | 适合小规模主从架构 |
| Cluster | 分片+高可用 | 适合大规模高并发应用 |

最佳实践：`AOF + RDB + Cluster/Sentinel`，兼顾数据安全、性能与高可用性！ 🚀

缓存穿透、雪崩、击穿的解决方案(布隆过滤器、多级缓存)。

缓存穿透、缓存雪崩、缓存击穿的解决方案
在使用 Redis 或 其他缓存系统 时，经常会遇到 缓存穿透、缓存雪崩、缓存击穿 三大问题。本文将介绍其概念、危害，并提供布隆过滤器、多级缓存等最佳解决方案。

1. 缓存穿透
📌 现象
- 查询的数据不存在，导致每次请求都需要访问数据库，缓存无法发挥作用。
- 攻击者恶意请求 不存在的 key，形成 DDoS 攻击，数据库压力陡增。

📌 解决方案
✅ 方案 1：布隆过滤器（Bloom Filter）
原理：
- 布隆过滤器 是一个概率性数据结构，用于快速判断 某个数据是否存在。
- 如果布隆过滤器判定数据「不存在」，则直接拒绝请求，避免打数据库。

示例：
    ```java
    // 初始化布隆过滤器
    BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(StandardCharsets.UTF_8), 1000000);

    // 添加已存在的数据
    bloomFilter.put("user:123");

    // 查询时先判断
    if (!bloomFilter.mightContain("user:456")) {
        return null; // 直接返回，不查询数据库
    }
    ```
适用场景：
- 用户 ID / 商品 ID 查询（防止恶意请求）
- 高并发业务（社交推荐、风控）

✅ 方案 2：缓存空值
原理：
- 如果查询的 key 不存在，可以将空结果存入缓存，避免不断查询数据库。
- 设置短 TTL（过期时间），例如 `60s`。

示例：
    ```python
    key = "user:456"
    value = redis.get(key)

    if value is None:
        db_result = query_database(key)

        若数据库仍无数据，则存入 "null" 避免重复查询
        if db_result is None:
            redis.setex(key, 60, "NULL")
        else:
            redis.setex(key, 3600, db_result)  正常数据缓存 1 小时
    ```
适用场景：
- 低频访问的 Key
- 部分缓存击穿场景

2. 缓存雪崩
📌 现象
- 大量缓存同时失效，导致请求瞬间打到数据库，数据库压力暴增，甚至崩溃。
- 可能由于：
  - 同一时间大批量 key 过期（如凌晨统一设定的过期时间）。
  - Redis 宕机。

📌 解决方案
✅ 方案 1：缓存过期时间加随机值
原理：
- 给每个 Key 的 TTL 设置一个随机偏移，防止同一时刻大量缓存失效。

示例：
    ```python
    import random
    expire_time = 3600 + random.randint(-300, 300)  1 小时 ± 5 分钟
    redis.setex("product:123", expire_time, data)
    ```
适用场景：
- 定期刷新的缓存（商品数据、用户信息）

✅ 方案 2：多级缓存（分层缓存架构）
原理：
- 采用 本地缓存 + 分布式缓存 + 远端存储 进行分级缓存：
  - 一级缓存（L1）：本地缓存（Guava, Caffeine）
  - 二级缓存（L2）：Redis
  - 三级存储（L3）：数据库

示例架构：
    ```
    应用层       [本地缓存] -> [Redis] -> [数据库]
    请求优先查  [Guava] -> [Redis] -> [MySQL]
    ```

示例代码（Java Guava 本地缓存 + Redis）：
    ```java
    // 1. 先查本地缓存
    String data = localCache.getIfPresent("key");
    if (data == null) {
        // 2. 查 Redis
        data = redis.get("key");
        if (data == null) {
            // 3. 再查数据库
            data = queryDatabase("key");

            // 4. 存入本地 & Redis，避免下次缓存雪崩
            localCache.put("key", data);
            redis.setex("key", 3600, data);
        }
    }
    return data;
    ```
适用场景：
- 热点数据（推荐系统、排行榜）
- 分布式应用（高并发场景）

✅ 方案 3：Redis 限流 & 降级
原理：
- 通过限流器（Rate Limiter）限制流量，避免瞬时大流量冲击数据库。
- 例如 Redis + 令牌桶算法 实现限流。

示例：
    ```lua
    -- Lua 脚本实现 Redis 限流
    local key = KEYS[1]
    local limit = tonumber(ARGV[1])
    local current = redis.call("incr", key)

    if current > limit then
        return 0  -- 超过限制，拒绝请求
    else
        redis.call("expire", key, 60)  -- 设置 60s 过期
        return current
    end
    ```
适用场景：
- 大促活动（秒杀、抢购）
- 大流量 API

3. 缓存击穿
📌 现象
- 热点 Key 突然失效，导致大量请求瞬间打到数据库，引发数据库压力暴增。

📌 解决方案
✅ 方案 1：热点 Key 预加载
原理：
- 对 高频访问的 Key，定期提前更新缓存，避免其失效后瞬间击穿。

示例（定时任务刷新缓存）：
    ```python
    while True:
        data = query_database("hot_key")
        redis.setex("hot_key", 3600, data)  续期
        time.sleep(1800)  每 30 分钟刷新一次
    ```
适用场景：
- 热点商品
- KOL 推荐列表

✅ 方案 2：互斥锁（防止大量请求同时回源）
原理：
- 第一个请求拿到锁，其他请求等待，避免瞬间大量请求访问数据库。

示例（Redis 分布式锁）：
    ```python
    import time
    import redis

    lock_key = "lock:hot_key"

    if redis.setnx(lock_key, 1):  获取锁
        redis.expire(lock_key, 5)  5 秒超时防死锁
        data = query_database("hot_key")  访问数据库
        redis.setex("hot_key", 3600, data)  重新缓存
        redis.delete(lock_key)  释放锁
    else:
        time.sleep(0.1)  等待其他线程释放锁
    ```
适用场景：
- 秒杀商品
- 热点缓存更新

4. 结论
| 问题 | 现象 | 解决方案 |
|------|------|--------|
| 缓存穿透 | 请求不存在的数据，打爆数据库 | 布隆过滤器、缓存空值 |
| 缓存雪崩 | 大量缓存同时失效，数据库被打垮 | 随机过期、多级缓存、限流降级 |
| 缓存击穿 | 热点 Key 失效，大量请求直击数据库 | 预加载、互斥锁 |

🚀 推荐方案：结合 布隆过滤器 + 多级缓存 + 限流降级，全面提升缓存系统的稳定性！

如何保证缓存与数据库一致性(双写、延迟双删)?

缓存与数据库一致性问题及解决方案

在 高并发分布式系统 中，缓存（Redis） 与 数据库（MySQL） 可能会出现 数据不一致 的情况。本文将介绍 常见的数据不一致场景，以及如何通过 双写方案、延迟双删 机制来解决该问题。

1. 数据不一致的原因
数据库与缓存通常采用读写分离架构，可能会出现以下数据不一致情况：
1. 并发更新：数据库更新完成后，缓存还未同步，导致脏数据。
2. 缓存淘汰策略：缓存 LRU 机制 可能提前清除数据，导致读取旧数据。
3. 缓存延迟：数据库数据更新后，缓存仍然存储旧值，导致短时间内查询错误数据。

2. 解决方案
✅ 方案 1：缓存更新策略
常见的数据库 + 缓存更新方式：
| 策略 | 流程 | 优缺点 |
|----------|---------|------------|
| 先更新数据库，再更新缓存 | 1. 更新数据库 2. 立即更新缓存 | ✅ 确保一致性，❌ 并发情况下可能不可靠 |
| 先更新缓存，再更新数据库 | 1. 先写缓存 2. 再写数据库 | ❌ 不推荐，会导致缓存提前更新，数据库写失败 |
| 先删除缓存，再更新数据库 | 1. 删除缓存 2. 更新数据库 | ❌ 并发情况下可能导致短时间数据不一致 |
| 先更新数据库，再删除缓存（推荐） | 1. 更新数据库 2. 删除缓存 | ✅ 最佳方案，避免短时间数据不一致 |

✅ 方案 2：延迟双删策略（推荐）
核心思想：
- 数据库更新完成后，延迟一段时间再次删除缓存，确保数据库事务提交后，缓存能正确更新。

流程：
1. 更新数据库（先保证数据正确存储）。
2. 删除缓存（让下次查询回源数据库）。
3. 延迟一段时间（一般 500ms~1s）。
4. 再次删除缓存（防止并发问题导致缓存回写旧值）。

示例代码（Java + Redis + MySQL）：
    ```java
    public void updateData(String key, String newValue) {
        // 1. 先更新数据库
        database.update(key, newValue);

        // 2. 删除缓存
        redis.delete(key);

        // 3. 延迟一段时间后再次删除缓存（防止并发问题）
        new Timer().schedule(new TimerTask() {
            @Override
            public void run() {
                redis.delete(key);
            }
        }, 1000); // 1 秒后执行
    }
    ```
适用场景：
- 高并发写操作（如订单、用户数据更新）
- 防止缓存击穿（确保数据更新及时）

✅ 方案 3：订阅 Binlog 事件同步缓存
原理：
- MySQL Binlog 记录所有数据变更日志。
- 通过 MQ（如 Kafka、Canal） 监听 Binlog 变化，实现数据库变更后自动清理缓存。

示例架构：
    ```
    [MySQL] -> [Binlog] -> [Canal 监听] -> [MQ 触发] -> [缓存更新]
    ```

示例代码（Canal 监听 MySQL 变更）：
    ```java
    CanalConnector connector = CanalConnectors.newSingleConnector(
        new InetSocketAddress("127.0.0.1", 11111), "example", "", "");
    connector.connect();
    connector.subscribe("db.table"); // 订阅表

    while (true) {
        Message message = connector.get(100);
        for (Entry entry : message.getEntries()) {
            redis.delete(entry.getKey()); // 变更后删除缓存
        }
    }
    ```
适用场景：
- 强一致性要求的业务（如金融系统）
- 大数据量更新场景

✅ 方案 4：分布式锁
原理：
- 通过 Redis 分布式锁 保证串行执行更新操作，防止并发写入导致数据不一致。

示例（Redis + 分布式锁）：
    ```java
    String lockKey = "lock:user:123";
    if (redis.setnx(lockKey, "1")) {  // 获取锁
        redis.expire(lockKey, 5);  // 设置超时释放锁
        database.update("user:123", newValue);
        redis.delete("user:123");  // 删除缓存
        redis.del(lockKey);  // 释放锁
    } else {
        // 其他线程等待锁释放
    }
    ```
适用场景：
- 高并发写入场景
- 订单系统、库存扣减等场景

3. 方案对比
| 方案 | 一致性 | 性能 | 适用场景 |
|----------|----------|----------|--------------|
| 数据库更新后删除缓存 | ⚠️ 存在并发问题 | 高 | 一般业务 |
| 延迟双删策略 | ✅ 高 | 中等 | 高并发写场景 |
| Binlog 订阅更新 | ✅ 最高 | 低 | 金融、强一致性业务 |
| 分布式锁 | ✅ 高 | 低 | 高并发订单、库存 |

4. 结论
1. 一般场景（适用于大部分系统）：
   推荐「先更新数据库，再删除缓存」+「延迟双删策略」，保证数据最终一致性。

2. 强一致性场景（如支付系统、库存扣减）：
   推荐「Binlog 订阅 + Canal」，确保数据实时同步。

3. 高并发写入场景（如订单、热点数据）：
   推荐「分布式锁」，确保串行更新数据。

🚀 综合方案：
- 采用 延迟双删 解决大部分缓存不一致问题。
- 结合 Binlog 订阅 + MQ 实现最终一致性同步。
- 针对高并发情况，使用分布式锁保证数据正确性。

✅ 最佳实践：缓存删除策略 + 延迟删除 + Binlog 监听，确保高性能与一致性！

大数据处理

分库分表后如何实现跨库查询?

分库分表后如何实现跨库查询？

在 ShardingSphere、MyCat、TDDL 等 分库分表 方案中，数据被拆分到多个数据库或数据表后，如何高效进行跨库查询 是一个核心问题。本文将介绍常见的 跨库查询方案 及 最佳实践。

1. 分库分表后跨库查询的挑战
分库分表后，数据被拆分到多个库中，导致：
- JOIN 受限：无法直接执行跨库 `JOIN` 查询（数据库引擎不支持）。
- 全局聚合困难：如 `COUNT(*)`、`SUM()` 需要分别查询多个库并汇总。
- 事务一致性问题：跨库事务需要使用 XA 事务 或 TCC 分布式事务 方案。

2. 跨库查询的几种方案
✅ 方案 1：应用层聚合（最常见，推荐）
核心思路：
1. 应用层拆分 SQL，分别查询多个数据库。
2. 在应用层合并数据（排序、分页、计算等）。
3. 适用于：
   - 无复杂关联查询（如`JOIN`、`GROUP BY`）。
   - 需要高性能的业务（减少数据库压力）。

示例（Java + ShardingSphere）：
    ```java
    // 1. 查询所有分库
    List<ResultSet> results = new ArrayList<>();
    for (String db : dbList) {
        results.add(queryDatabase(db, "SELECT id, name FROM user WHERE age > 18"));
    }

    // 2. 应用层合并数据
    List<User> users = mergeResults(results);
    users.sort(Comparator.comparing(User::getId));  // 排序
    ```
优点：
- 性能最佳（数据库无额外压力）。
- 可扩展性强（适用于大数据量）。

缺点：
- 开发成本高（需要自己实现数据合并）。
- 不适用于复杂查询（如 `JOIN`）。

✅ 方案 2：中间件（ShardingSphere / MyCat）
核心思路：
- 使用 ShardingSphere / MyCat / Vitess 等 分布式中间件，自动执行跨库查询。
- 适用于：
  - 需要支持 `JOIN`、`GROUP BY` 查询。
  - SQL 兼容性要求高的业务。

ShardingSphere 配置（示例）
    ```yaml
    shardingRule:
      tables:
        user:
          actualDataNodes: ds${0..2}.user_${0..9}  3 个库，每个库 10 个表
          tableStrategy:
            inline:
              shardingColumn: id
              algorithmExpression: user_${id % 10}
    ```
查询示例：
    ```sql
    SELECT u.id, u.name, o.order_id FROM user u
    JOIN orders o ON u.id = o.user_id
    WHERE u.age > 18;
    ```
优点：
- SQL 兼容性好（支持 `JOIN` / `GROUP BY`）。
- 无需修改应用代码。

缺点：
- 性能开销较大（跨库查询需要合并数据）。
- 不适用于高并发业务（SQL 解析 & 分发成本高）。

✅ 方案 3：数据同步（ETL + 数据仓库）
核心思路：
- 定期将多个数据库的数据同步到一个数据仓库（如 Elasticsearch、TiDB、ClickHouse），然后在数据仓库中执行查询。
- 适用于：
  - BI 报表查询（历史数据分析）。
  - 非实时数据分析业务。

示例（MySQL -> Elasticsearch）
    ```shell
    使用 Logstash 同步 MySQL 数据到 ES
    input {
      jdbc {
        jdbc_connection_string => "jdbc:mysql://localhost:3306/db0"
        jdbc_user => "root"
        jdbc_password => "password"
        schedule => "* * * * *"
        statement => "SELECT id, name, age FROM user"
      }
    }
    output {
      elasticsearch {
        hosts => ["http://localhost:9200"]
        index => "user_index"
      }
    }
    ```
优点：
- 高效处理大数据量（查询速度快）。
- 适用于 OLAP 分析（统计、报表）。

缺点：
- 数据同步有延迟（非实时）。
- 额外的存储成本（需要数据仓库）。

✅ 方案 4：分布式事务（XA / TCC 事务）
核心思路：
- 使用 XA 事务（两阶段提交）或 TCC（Try-Confirm-Cancel）事务 保证跨库一致性。
- 适用于：
  - 需要强一致性事务的业务（如订单支付）。

示例（Spring Boot + Seata TCC 事务）
    ```java
    @GlobalTransactional
    public void placeOrder(String userId, String productId) {
        orderService.createOrder(userId, productId);
        inventoryService.deductStock(productId);
    }
    ```
优点：
- 事务一致性高。
- 适用于金融、订单等业务。

缺点：
- 性能开销大（跨库事务锁定资源）。
- 系统复杂度高（XA 事务实现困难）。

3. 方案对比
| 方案 | 支持 JOIN | 实时性 | 性能 | 适用场景 |
|------|-------------|------------|----------|--------------|
| 应用层聚合 | ❌ 不支持 | ✅ 实时 | ✅ 高 | 大并发读 |
| ShardingSphere / MyCat | ✅ 支持 | ✅ 实时 | ❌ 较低 | SQL 兼容性要求高 |
| ETL + 数据仓库 | ✅ 支持 | ❌ 近实时 | ✅ 高 | BI 报表 |
| XA / TCC 事务 | ✅ 支持 | ✅ 实时 | ❌ 低 | 金融 / 订单 |

4. 结论
推荐方案（根据业务需求选择）：
1. 高并发业务（推荐应用层聚合）：
   - 适用于 `SELECT` 查询场景（如 `COUNT(*)`）。
   - 需要应用层合并数据（`Java / Go / Python`）。
   - 适合电商、社交、秒杀等场景。

2. SQL 兼容性要求高（推荐 ShardingSphere / MyCat）：
   - 适用于 `JOIN` 查询。
   - 适合小规模分库分表（如 3~5 个库）。

3. 数据分析（推荐 ETL + 数据仓库）：
   - 适用于 BI 分析、用户行为日志（如 `ClickHouse / ES`）。
   - 适合报表、运营分析。

4. 金融级强一致性（推荐分布式事务）：
   - 适用于 订单支付、金融交易。
   - 适合银行、电商支付、库存扣减。

🚀 总结
分库分表后，跨库查询的选择取决于业务需求：
- 高并发 ✅ 应用层聚合
- 复杂 SQL 查询 ✅ ShardingSphere
- 大数据查询 ✅ 数据仓库
- 事务一致性 ✅ XA/TCC 分布式事务

🔹 最佳实践：对于大多数业务，应用层聚合 + 数据同步 是最佳方案！

海量数据场景下的 OLAP 优化(如 Presto、ClickHouse)。

海量数据场景下的 OLAP 优化方案（Presto、ClickHouse）

在 大数据分析（OLAP，Online Analytical Processing）场景中，传统数据库（如 MySQL、PostgreSQL）在处理海量数据查询时性能较低。因此，企业通常采用 Presto、ClickHouse、Doris、Apache Druid 等 OLAP 引擎 进行优化。本文将介绍 OLAP 优化方案，并重点讲解 Presto 和 ClickHouse 的优化实践。

1. OLTP vs OLAP
| 类别 | OLTP（在线事务处理） | OLAP（在线分析处理） |
|----------|------------------|------------------|
| 应用场景 | 业务系统（订单、库存） | 数据分析（报表、BI） |
| 查询模式 | 低延迟、事务一致性 | 复杂分析、批量计算 |
| 数据存储 | 行存储（MySQL、PostgreSQL） | 列存储（ClickHouse、Presto） |
| 查询特点 | `SELECT * FROM orders WHERE id = 123;` | `SELECT COUNT(*), AVG(price) FROM orders GROUP BY category;` |
| 数据规模 | GB / TB | TB / PB |

2. 主要 OLAP 引擎
| 引擎 | 架构 | 适用场景 | 优势 |
|----------|--------|--------------|--------|
| ClickHouse | 列存储 | 高吞吐查询、实时分析 | 极高查询性能，支持物化视图 |
| Presto | SQL 查询引擎 | 大规模 SQL 分析 | 支持多数据源（Hive、S3） |
| Apache Doris | 分布式 | Ad-hoc 查询、BI 分析 | 支持更新，性能优异 |
| Apache Druid | 时序数据库 | 实时数据分析 | 适用于日志、监控分析 |

3. OLAP 查询优化方案
✅ 方案 1：列存储（ClickHouse、Doris）
核心思路：
- 列存储 比 行存储 读取更少的数据，适合大规模 `GROUP BY`、`SUM()`、`COUNT(*)` 等查询。

示例（ClickHouse 表定义）
    ```sql
    CREATE TABLE orders (
        order_id UInt32,
        user_id UInt32,
        product_id UInt32,
        price Float64,
        order_date Date
    ) ENGINE = MergeTree()
    ORDER BY (order_date, product_id);
    ```
优化点：
- ORDER BY 选择高基数列，提高查询效率。
- 使用 MergeTree 引擎，优化 写入 & 读取性能。

✅ 方案 2：物化视图（ClickHouse）
核心思路：
- 预计算 `GROUP BY` 结果，加速查询。

示例（预计算每日订单统计）
    ```sql
    CREATE MATERIALIZED VIEW daily_order_stats
    ENGINE = SummingMergeTree()
    ORDER BY order_date AS
    SELECT order_date, product_id, SUM(price) AS total_revenue
    FROM orders
    GROUP BY order_date, product_id;
    ```
查询优化后：
    ```sql
    SELECT * FROM daily_order_stats WHERE order_date = '2024-03-01';
    ```
优化效果：
- 查询耗时降低 90%+（避免全表扫描）。
- 适用于 BI 报表、高频查询场景。

✅ 方案 3：数据分区（ClickHouse & Presto）
核心思路：
- 按时间 / 业务维度 对数据进行 分区存储，减少扫描数据量。

示例（ClickHouse 按月分区）
    ```sql
    CREATE TABLE orders (
        order_id UInt32,
        user_id UInt32,
        price Float64,
        order_date Date
    ) ENGINE = MergeTree()
    PARTITION BY toYYYYMM(order_date)  -- 按月份分区
    ORDER BY order_date;
    ```
查询优化后：
    ```sql
    SELECT * FROM orders WHERE order_date >= '2024-03-01' AND order_date < '2024-04-01';
    ```
优化效果：
- 查询速度提升 5~10 倍（只扫描部分分区）。
- 适用于时间序列数据（如日志、订单）。

✅ 方案 4：索引优化（ClickHouse & Presto）
核心思路：
- 使用索引 加速 过滤查询。

示例（ClickHouse Sparse Index）
    ```sql
    ALTER TABLE orders ADD INDEX idx_user_id user_id TYPE bloom_filter GRANULARITY 4;
    ```
优化效果：
- 提高 WHERE 过滤查询速度，减少数据扫描量。

✅ 方案 5：Presto 联邦查询
核心思路：
- Presto 支持跨数据源查询（MySQL、Hive、S3、ClickHouse）。
- 适用于数据湖分析、异构数据库联邦查询。

示例（Presto 查询 Hive + MySQL）
    ```sql
    SELECT o.order_id, o.price, u.name
    FROM hive.orders o
    JOIN mysql.users u ON o.user_id = u.id
    WHERE o.order_date >= '2024-03-01';
    ```
优化点：
- 只查询必要字段（避免 `SELECT *`）。
- 避免过多 `JOIN`（可用 Presto `WITH` 优化子查询）。

✅ 方案 6：向量化执行（ClickHouse & Presto）
核心思路：
- 向量化执行 利用 SIMD 指令，加速数据计算。

示例（Presto 启用向量化计算）
    ```properties
    query.use-vectorized-engine=true
    ```
优化效果：
- 计算效率提高 3~10 倍（特别适用于 `AVG()`、`SUM()` 等操作）。

4. ClickHouse vs Presto 选型
| 对比项 | ClickHouse | Presto |
|------------|--------------|------------|
| 数据存储 | 列存储（MergeTree） | SQL 查询引擎（无存储） |
| 适用场景 | 实时分析（广告、监控、日志） | 联邦查询（数据湖、多数据源） |
| 性能 | 超高（适用于大数据查询） | 较高（依赖数据源） |
| 数据更新 | 批量插入，不支持事务 | 依赖外部存储（Hive、Iceberg） |
| 扩展性 | 单机万亿级数据 | 分布式，支持多数据源 |

5. 结论
✅ 适用 ClickHouse
- 海量数据分析（日志、监控、BI 报表）。
- 高性能查询（`GROUP BY`、`SUM()`）。
- 适用于广告分析、运营报表等场景。

✅ 适用 Presto
- 需要跨数据源查询（MySQL、Hive、S3）。
- 数据湖分析（Iceberg、Hudi、Delta Lake）。
- 适用于多数据源 ETL、数据中台架构。

🚀 最佳实践
- 业务报表、日志分析 ✅ ClickHouse
- 跨库查询、数据湖分析 ✅ Presto
- 大数据存储 + 计算 ✅ ClickHouse + Presto 结合

🔹 推荐架构：
- Presto 负责跨库查询（MySQL + Hive）。
- ClickHouse 负责高性能 OLAP 查询（实时分析）。

🔥 通过合理的架构 + 索引优化 + 物化视图，可以将 OLAP 查询速度提升 10~100 倍！ 🚀

四、系统设计与架构

高并发系统设计
- 设计一个秒杀系统(库存扣减、限流、防刷)。
- 如何实现千万级 QPS 的短链服务?
- 分布式文件存储方案(FastDFS、MinIO)。
性能优化
- JVM 调优案例(GC 停顿时间优化)。
- MySQL 慢查询分析与优化(Explain、索引优化)。
- 接口响应时间从 100ms 优化到 10ms 的思路。
安全与高可用
- 接口防重放攻击、XSS/SQL 注入防御。
- 如何设计异地多活架构?

五、框架与中间件

Spring 生态
- Spring Bean 生命周期、循环依赖解决原理。
- Spring Boot 自动配置原理(@Conditional 注解)。
- Spring AOP 动态代理的两种实现(JDK vs CGLIB)。
中间件实践
- Elasticsearch 的倒排索引与分词原理。
- Nginx 负载均衡策略(一致性哈希、加权轮询)。
- 如何实现一个简单的 RPC 框架?

六、项目经验与软技能

项目深度
- 介绍一个你主导的高复杂度项目(背景、难点、解决思路)。
- 如何从零设计一个微服务架构的系统?
- 遇到过的线上事故及复盘(如 CPU 飙高、数据不一致)。
软技能
- 如何推动技术方案在团队中落地?
- 技术选型的权衡(自研 vs 开源)。
- 如何管理技术债务?

七、编码与算法

手写代码
- 实现线程安全的 LRU 缓存。
- 生产者-消费者模型(BlockingQueue vs Disruptor)。
- 二叉树层序遍历、链表反转等高频题。
算法与数据结构
- Top K 问题(堆、快排分区)。
- 动态规划(背包问题、最长子序列)。
- 分布式场景下的算法(一致性哈希、Paxos)。

总结建议

技术深度优先:7 年经验需突出对复杂系统的掌控能力,避免泛泛而谈。
结合项目实战:用 STAR 法则(背景-任务-行动-结果)描述项目难点与成果。
关注行业趋势:云原生(K8s、Serverless)、实时数仓等加分项。
模拟面试:针对目标公司(如阿里、字节)的面试风格针对性准备。

一、Java 核心与底层原理

JVM 与内存管理

详细解释 JVM 内存结构(堆、栈、方法区、元空间)。

垃圾回收算法(标记-清除、G1、ZGC)及调优实战。

如何排查 OOM(内存泄漏 vs 内存溢出)?

类加载机制与双亲委派模型(如何打破?场景?)。

并发与多线程

synchronized 和 ReentrantLock 的实现差异及适用场景。

AQS(AbstractQueuedSynchronizer)工作原理。

ThreadLocal 的内存泄漏问题与解决方案。

CompletableFuture 如何实现异步编程?

如何设计一个无锁化的高并发计数器?

Java 新特性

Java 8~17 的核心改进(Record、Pattern Matching、ZGC 等)。

响应式编程(Reactor 或 Spring WebFlux)的理解。

二、分布式与微服务

分布式系统设计

CAP 理论的实际应用(如 CP 的 etcd vs AP 的 Eureka)。

分布式事务解决方案(Seata、TCC、Saga、RocketMQ 事务消息)。

如何设计一个全局唯一 ID 生成器(Snowflake、Leaf)?

分布式锁的实现(Redis RedLock、ZooKeeper 对比)。

微服务架构

Spring Cloud 生态组件(Nacos、Sentinel、OpenFeign)的原理与优化。

服务网格(Service Mesh)的理解(如 Istio)。

如何设计服务熔断、降级与限流?

微服务链路追踪(SkyWalking、Zipkin)的实现原理。

消息队列

Kafka 如何保证消息不丢失、不重复?

RocketMQ 的延迟消息、事务消息实现原理。

如何解决消息堆积问题?

三、数据库与存储

SQL 与优化

索引失效场景及优化(联合索引、覆盖索引)。

分库分表设计(ShardingSphere 实践)。

数据库死锁的排查与解决。

MySQL 的 Redo Log、Undo Log 与 MVCC 机制。

NoSQL 与缓存

Redis 的持久化(RDB/AOF)与高可用(Cluster、Sentinel)。

缓存穿透、雪崩、击穿的解决方案(布隆过滤器、多级缓存)。

如何保证缓存与数据库一致性(双写、延迟双删)?

大数据处理

分库分表后如何实现跨库查询?

海量数据场景下的 OLAP 优化(如 Presto、ClickHouse)。

四、系统设计与架构

高并发系统设计

设计一个秒杀系统(库存扣减、限流、防刷)。

如何实现千万级 QPS 的短链服务?

分布式文件存储方案(FastDFS、MinIO)。

性能优化

JVM 调优案例(GC 停顿时间优化)。

MySQL 慢查询分析与优化(Explain、索引优化)。

接口响应时间从 100ms 优化到 10ms 的思路。

安全与高可用

接口防重放攻击、XSS/SQL 注入防御。

如何设计异地多活架构?

五、框架与中间件

Spring 生态

Spring Bean 生命周期、循环依赖解决原理。

Spring Boot 自动配置原理(@Conditional 注解)。

Spring AOP 动态代理的两种实现(JDK vs CGLIB)。

中间件实践

Elasticsearch 的倒排索引与分词原理。

Nginx 负载均衡策略(一致性哈希、加权轮询)。

如何实现一个简单的 RPC 框架?

六、项目经验与软技能

项目深度

介绍一个你主导的高复杂度项目(背景、难点、解决思路)。

如何从零设计一个微服务架构的系统?

遇到过的线上事故及复盘(如 CPU 飙高、数据不一致)。

软技能

如何推动技术方案在团队中落地?

技术选型的权衡(自研 vs 开源)。

如何管理技术债务?

七、编码与算法

手写代码

实现线程安全的 LRU 缓存。

生产者-消费者模型(BlockingQueue vs Disruptor)。

二叉树层序遍历、链表反转等高频题。

算法与数据结构

Top K 问题(堆、快排分区)。