（一）强化学习（腾讯、哈啰）1. PPO算法：吃透公式含义（新旧策略比率控制更新幅度），分清PPO Penalty（KL散度惩罚）和PPO Clip（比率裁剪），熟悉项目论文公式，避免概念混淆

（一）强化学习（腾讯、哈啰）
1. PPO算法：吃透公式含义（新旧策略比率控制更新幅度），分清PPO Penalty（KL散度惩罚）和PPO Clip（比率裁剪），熟悉项目论文公式，避免概念混淆。
2. 基础指标：能讲清奖励函数、优势函数等定义，结合项目说明如何用指标评估智能体。
（二）Transformer与大模型（哈啰、字节）
1. Attention机制：会写简化代码，拆解公式（QK^T算相似度、√d_k，softmax归一化），讲清K/Q/V意义（查询、索引、内容）及Encoder→Decoder的逻辑。
2. 大模型评测：搭建“客观指标（准确率、BLEU）+人工评估+场景测试”框架，能说清评测集构建。
（三）编程与算法（腾讯、哈啰、Minimax）
1. C++与面向对象：懂虚函数（多态）、纯虚函数（抽象接口），能写深拷贝代码，会设计场景类（如游戏指标记录类）。
2. 算法题：熟练写快排（partition过程）、堆排序（海量数据TopK）、DP路径题，能处理二分边界，基础题不卡顿。
（四）基础技术（Minimax、东软）
1. 数据结构：分清map（红黑树、有序）与unordered_map（哈希表、快查）的底层和适用场景。
2. 通信与工具：懂MQTT协议在智能家居的应用，了解基本的库（如OpenCV），熟用Linux高频命令（环境激活、ADB、文件操作）。