前沿科技阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误 2025 年 1 月 17 日80 阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误 Source link