Lighthouse 评估与调试能力全面升级!

大模型越来越强,但“调不准、评不清、改不动”依然是很多团队的日常挑战:
模型输出效果谁说了算?
Prompt 改来改去,还是效果不稳?
想做对比实验,要切平台、写脚本,太麻烦?
现在,Lighthouse LLM 可观测模块迎来全新升级——
自动评估、数据集实验、Prompt 调试三大功能正式上线,让你更快找问题,更准做优化!
🧠 自动评估:更快找到问题,更准评估效果
在已有人工评估功能的基础上,Lighthouse 新增自动评估器,支持:
设置目标数据、评估维度、模型后自动评分
支持 Trace 数据与数据集自动评估
提供准确性、相关性、简洁性等多种评分模板
自动评估适合批量处理和版本对比,人工评估适合关键场景复审,两者结合,让优化更有据可依。


📊 数据集与实验:版本对比有据可依
上传一组典型输入和参考答案,创建实验,就能系统性对比不同 Prompt、模型、参数组合的表现。
每条样本的输出和评分都清晰可见,帮你判断:
哪个 Prompt 更稳定?
哪个模型更匹配业务需求?
哪种组合最优?
让决策不再靠拍脑袋,而是靠数据说话。

🛠 Prompt 调试:一句话,调出最佳回应
一句 Prompt,改前改后,效果天差地别。比如:
💬「请用简洁明了的语言总结以下内容」
💬「请用专业、正式的语气总结以下内容」
虽然只是换了几个词,但模型的回答风格可能完全不同。
通过调试功能,你可以:
实时修改 Prompt 和模型设置
查看不同配置下的实际响应
快速对比效果,找出最佳版本
不用写代码、不用跳平台,调 Prompt 和调参数一样简单。

✅ 一句话总结
Lighthouse 现在帮你做到:
🔍 能看:每一次调用的上下文和表现都清晰透明
📊 能评:人工 + 自动双评估,输出质量有标准
🧪 能试:实验 + 调试组合拳,Prompt 和模型调优更简单
让 LLM 应用从“感觉还行”走向“优化有据”,加速产品迭代。
评论