0 人感兴趣 · 1 次引用
在强化学习中,有一种策略叫“探索平衡策略Exploration-Exploitation Trade-off)”,这种策略的核心是在探索未知领域(以获取更多信息)和利用已知信息(来最大化即时回报)之间寻求平衡,以最大化长期收益(长期的学习和性能优化)。其中,探索和利用是这样
此间若无火炬,我便是唯一的光
提供全面深入的云计算技术干货
一个日语专业的程序猿。
The Tech Shapes The Future
IT领域从业者 分享见解