全部标签 



写点什么

登录注册

Lighthouse 评估与调试能力全面升级！

作者：塞讯科技

2025-06-12
上海
本文字数：712 字
阅读完需：约 2 分钟

Lighthouse 评估与调试能力全面升级！

大模型越来越强，但“调不准、评不清、改不动”依然是很多团队的日常挑战：

模型输出效果谁说了算？
Prompt 改来改去，还是效果不稳？
想做对比实验，要切平台、写脚本，太麻烦？

现在，Lighthouse LLM 可观测模块迎来全新升级——

自动评估、数据集实验、Prompt 调试三大功能正式上线，让你更快找问题，更准做优化！

🧠 自动评估：更快找到问题，更准评估效果

在已有人工评估功能的基础上，Lighthouse 新增自动评估器，支持：

设置目标数据、评估维度、模型后自动评分
支持 Trace 数据与数据集自动评估
提供准确性、相关性、简洁性等多种评分模板

自动评估适合批量处理和版本对比，人工评估适合关键场景复审，两者结合，让优化更有据可依。

📊 数据集与实验：版本对比有据可依

上传一组典型输入和参考答案，创建实验，就能系统性对比不同 Prompt、模型、参数组合的表现。

每条样本的输出和评分都清晰可见，帮你判断：

哪个 Prompt 更稳定？
哪个模型更匹配业务需求？
哪种组合最优？

让决策不再靠拍脑袋，而是靠数据说话。

🛠 Prompt 调试：一句话，调出最佳回应

一句 Prompt，改前改后，效果天差地别。比如：

💬「请用简洁明了的语言总结以下内容」

💬「请用专业、正式的语气总结以下内容」

虽然只是换了几个词，但模型的回答风格可能完全不同。

通过调试功能，你可以：

实时修改 Prompt 和模型设置
查看不同配置下的实际响应
快速对比效果，找出最佳版本

不用写代码、不用跳平台，调 Prompt 和调参数一样简单。

✅ 一句话总结

Lighthouse 现在帮你做到：

🔍 能看：每一次调用的上下文和表现都清晰透明

📊 能评：人工 + 自动双评估，输出质量有标准

🧪 能试：实验 + 调试组合拳，Prompt 和模型调优更简单

让 LLM 应用从“感觉还行”走向“优化有据”，加速产品迭代。

发布于: 刚刚阅读数: 4

塞讯科技

关注

塞讯安全验证 | 塞讯可观测 2025-04-01 加入

构建智能化的数字业务韧性体系，赋能企业数字化转型与业务创新。

评论

发布

暂无评论