抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

DRN: A Deep Reinforcement Learning Framework for News Recommendation

目标:最大化用户满意度,包括点击标签和用户活跃度。

状态:新闻特征、用户特征、用户新闻特征、上下文特征。

动作:新闻推荐列表。

奖励:用户是否点击推荐的新闻,以及用户活跃度。

基于 Double DQN 和 Dueling DQN 。

探索过程:对原始网络进行微小扰动,再对两个网络的推荐结果进行概率交织操作。

Top-K Off-Policy Correction for a REINFORCE Recommender System

目标:最大化用户满意度,包括点击量和观看时长。

状态:用户形象与用户的兴趣。

动作:视频推荐列表。

奖励:点击量与观看时长。

基于策略梯度,引入行为策略 β\beta 修正梯度。

行为策略

网络结构(行为策略的梯度不会被传递):Chaos Free RNN (CFN)

网络结构

探索:先选择 KK^{'} 个最优的,再从 MM 个最优的之中随机选择 KKK-K^{'} 个次优的(MKM \gg K^{'}

评论