1
p1094358629 3 小时 1 分钟前
小白不懂,那我装好后就不用管了,每次对话完他会自查提分?
|
2
yisen123 OP @p1094358629 是的,mcp 服务器会和 ai agent 对话
|
3
p1094358629 2 小时 57 分钟前
那我重启 claude 后呢?他沉淀下来的技巧和思路 固话在哪
|
4
moudy 2 小时 46 分钟前 via iPhone
我理解应该是用解决的问题后的反馈去调整 RL 权重。存储自己写过的代码当知识只不过是自己给自己喂屎,最后就是疯牛病
|
5
icyalala 2 小时 34 分钟前
你用同一个模型来改进代码质量仍然是 Vibe Coding ,说好听点也不过是 Agentic Coding
真正的改进是这些对话被大模型公司拿去做后训练 |
6
bybyte 2 小时 21 分钟前
我的理解是给模型一个明确的改进方向(客观的评价指标),通过这个指标的反馈指导改进方向。是这么理解不
|
7
billzhuang 2 小时 20 分钟前 via iPhone
自我强化
|
8
sampeng 1 小时 30 分钟前
问题还是把一个问题抽象成数学问题,确实是一个探索的方向。
但是数学问题准不准是另一个故事。 核心就是 5 个根因指标 → 一个质量分( 0-10000 ) ? 那质量分怎么定义? sonar 就有质量定义。和每次写完跑 sonar 是不是一回事? 那这个指标定义又怎么定义,你这就等于是给代码打分。。。那打分就玩法很多了。 这是第一个疑问 第二个疑问,agent 凭什么听你的,一定要分够就觉得好。。我让他和 codex 结对,10 次里有 1 次就给我来句我觉得没问题就这么着吧。。。 再抽象一下,不用搞传感器那么麻烦。 和你把根因指标的计算方式给他,让他自己动起来也其实没区别。。 |
9
yangyaofei 29 分钟前
https://github.com/joi-lab/ouroboros self-modified agent, 已经有了
|
10
yusf 11 分钟前
其实就是设计一套系统来给代码质量评分
|