DRN: A Deep Reinforcement Learning Framework for News Recommendation
目标:最大化用户满意度,包括点击标签和用户活跃度。
状态:新闻特征、用户特征、用户新闻特征、上下文特征。
动作:新闻推荐列表。
奖励:用户是否点击推荐的新闻,以及用户活跃度。
基于 Double DQN 和 Dueling DQN 。
探索过程:对原始网络进行微小扰动,再对两个网络的推荐结果进行概率交织操作。
Top-K Off-Policy Correction for a REINFORCE Recommender System
目标:最大化用户满意度,包括点击量和观看时长。
状态:用户形象与用户的兴趣。
动作:视频推荐列表。
奖励:点击量与观看时长。
基于策略梯度,引入行为策略 修正梯度。
网络结构(行为策略的梯度不会被传递):Chaos Free RNN (CFN)
探索:先选择 个最优的,再从 个最优的之中随机选择 个次优的()
[论文解读]World of Bits: An Open-Domain Platform for Web-Based Agents
论文地址:World of Bits: An Open-Domain Platform for Web-Based Agents 摘要 虽然模拟游戏环境极大地加速了强化学习方面的研究,现有的环境...
[论文解读]DRN: A Deep Reinforcement Learning Framework for News Recommendation
论文地址:DRN: A Deep Reinforcement Learning Framework for News Recommendation 。 研究背景 由于新闻特征与用户偏好特征是不断...