↩️🖼 通过提示词来强制使异常的模型输出展示思考过程,可以得出,基于 qwen 的蒸馏模型甚至 qwen 本身在社科领域的客观参考价值很低,训练时RL阶段基于一定...

LoopDNS资讯播报:

已排查,部分第三方供应商使用的是蒸馏版,回答风格属于qwen基座模型问题,qwen 14B、32B甚至72B都有类似的问题

通过提示词来强制使异常的模型输出展示思考过程,可以得出,基于 qwen 的蒸馏模型甚至 qwen 本身在社科领域的客观参考价值很低,训练时RL阶段基于一定策略进行了针对性的惩罚