重读是推荐系统中的关键组成部分,在完善推荐算法的输出方面发挥了重要作用。传统的阅读模型主要集中在准确性上,但是现代应用要求考虑其他标准,例如多样性和公平性。现有的重读方法通常无法在模型级别上有效地协调这些不同的标准 ...
推荐系统在许多在线平台中起着至关重要的作用,其主要目标是满足和保留用户。由于直接优化用户保留是具有挑战性的,因此经常采用多个评估指标。现有方法通常将这些评估指标的优化作为多任务学习问题,但经常忽略以下事实:用户对不同任务的偏好是个性化的,并且会随着时间的推移而变化 ...
作为推荐系统的最后阶段,重新排列会生成与用户偏好相符的重新排序列表。但是,以前的作品通常集中于项目级的积极反馈作为历史(例如 ...
最近的理论工作研究在两个环境中进行了广泛的样本增强学习(RL):在环境中进行交互性学习,或从离线数据集(离线RL)中学习。但是,在这两种设置中学习近乎最佳政策的现有算法和理论是相当不同且脱节的。为了弥合这一差距,本文启动了政策填充的理论研究,即在线RL,其中学习者可以在某个特定的一定的特定策略$ \ pi_ \ star $附近访问“参考策略” $ \ mu $感觉 ...
随着强化学习(RL)的最新流行率,在推荐平台(例如电子商务和新闻源网站)中利用RL进行ADS分配有很大的兴趣 ...
在线推荐和广告是在线推荐平台的两个主要收入渠道(例如电子商务和新闻提要网站) ...
长期参与度优于立即参与顺序建议,因为它直接影响了产品运营指标,例如日常活跃用户(DAUS)和停留时间。同时,加固学习(RL)被广泛认为是优化连续建议中长期参与的有希望的框架。但是,由于昂贵的在线互动,RL算法在优化长期参与时很难执行国家行动价值估计,探索和特征提取 ...
我们研究目标不当,这是强化学习(RL)中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方 ...
在预测任务中,准确性和及时性确实经常是相互冲突的目标。过早的预测可能会产生更高的误报率,而延迟预测以收集更多信息可能会导致预测为时已晚而无法发挥作用。在野火、犯罪和交通拥堵等应用中,及时预测对于保护人类生命和财产至关重要 ...
在城市环境中加强人类决策过程是各种应用程序的关键问题,包括乘车共享车辆派遣,公共交通管理和自动驾驶。离线增强学习(RL)是一种从预先收集的人类生成的时空城市数据中学习和优化人类城市策略(或政策)的有前途的方法。但是,标准离线RL面临两个重大挑战:(1)数据稀缺性和数据异质性,以及(2)分配变化 ...