lornd's blog

吴恩达机器学习知识速查

第一章绪论机器学习 Arthur Samuel 的定义：在不被明确定义的情况下，给予计算机学习的能力的研究领域。 Tom Mitchell 的定义：计算机从经验 EEE 中学习，解决某一任务 TTT ，进行性能度量 PPP 。通过 PPP 评测其在任务 TTT 上的表现，这个表现会因为 EEE 而提高。常见的机器学习算法：监督学习、无监督学习。监督学习监督学习给予机器学习算法一个包...

2023-07-09

阅读全文

[论文解读]A Data-Driven Approach for Learning to Control Computers

论文地址：A Data-Driven Approach for Learning to Control Computers 。摘要如果机器能够和人类一样使用计算机，进而在每天的任务上都帮助我们，这会是非常有用的。在这个场景下，还可以利用大规模的专家演示和人类对互动行为的判断，这是推动 AI 最近取得成功的两个因素。在本文中，我们研究基于自然语言描述的目标，利用鼠标和键盘操控电脑的场景。我...

2023-09-12

阅读全文

[论文解读]FLIN: A Flexible Natural Language Interface for Web Navigation

论文地址：FLIN: A Flexible Natural Language Interface for Web Navigation 。摘要 AI 助手现在可以通过直接与网页 UI 交互为用户完成任务。但是如果没有持续的再训练，现有的语义解析技术和槽填充技术无法灵活地适应各种不同的网站。我们提出了 FLIN，一个用于网页导航的自然语言接口，可以将用户命令映射为概念层次的动作（而不是低层...

2023-09-09

阅读全文

[论文解读]Adversarial Environment Generation for Learning to Navigate the Web

论文地址：Adversarial Environment Generation for Learning to Navigate the Web 。摘要学习如何自动在网页中进行导航是一个困难的序列决策工作。状态空间和动作空间巨大，且具有组合特性，同时网站也是包含多个页面的动态环境。训练网页导航智能体的一个瓶颈是为训练环境提供一个可学习的课程，并且要求能够覆盖真实世界网站的多样性。因此，我...

2023-08-20

阅读全文

[论文解读]learning to navigate the web

论文地址：learning to navigate the web 。摘要在有着巨大的状态空间和动作空间，以及稀疏奖励的环境中进行学习，会阻碍强化学习智能体通过试错的学习过程。例如，在网页上遵循自然语言命令执行操作（如预定机票），会创造一个输入词汇量和单个页面上可操作元素数量非常庞大的强化学习环境。即使最近的研究通过人类演示引导探索，在相对简单的环境中提升了成功率，在那些可能有成千上万条...

2023-08-16

阅读全文

[论文解读]Mapping natural language commands to web elements

论文地址：Mapping natural language commands to web elements 。摘要 Web 提供了一个丰富的开放域环境，具有文本、结构和空间属性。在这个环境中，我们提出了一个需要将语言与环境联系起来的任务（task for grounding language）：给定一个自然语言命令（如“点击第二篇文章”），在 web 页面上选择正确的元素（如一个超链接或...

2023-08-09

阅读全文

[论文解读]Building Natural Language Interfaces to Web APIs

论文地址：Building Natural Language Interfaces to Web APIs 。摘要随着 Web 面向服务架构的发展，应用程序接口（application program interfaces，APIs）正在变成提供对数据、服务和设备的访问越来越重要的方法。我们研究自然语言转换成 API （NL2APIs）问题，并且关注 Web 服务的 Web API。这些...

2023-08-05

阅读全文

[论文解读]Reinforcement Learning on Web Interfaces using Workflow-Guided Exploration

论文地址：Reinforcement Learning on Web Interfaces using Workflow-Guided Exploration 。摘要强化学习的智能体通过试错来学习，但是当奖励十分稀疏，智能体不能发现成功的动作序列时，学习就会停滞不前。这在训练深度强化学习智能体完成基于 Web 的任务时是一个难以忽视的问题，如订机票，回复邮件等任务。在这些任务中，通常一个...

2023-06-28

阅读全文

[论文解读]World of Bits: An Open-Domain Platform for Web-Based Agents

论文地址：World of Bits: An Open-Domain Platform for Web-Based Agents 摘要虽然模拟游戏环境极大地加速了强化学习方面的研究，现有的环境在计算机视觉以及自然语言处理的任务上缺乏开放域的真实感。这些任务在自然、有机的环境下，对人造的物体进行操作。为了促进这些环境中强化学习的研究，我们提出了比特世界（World of Bits, WoB）...

2023-06-19

阅读全文

强化学习推荐系统论文导航

DRN: A Deep Reinforcement Learning Framework for News Recommendation 目标：最大化用户满意度，包括点击标签和用户活跃度。状态：新闻特征、用户特征、用户新闻特征、上下文特征。动作：新闻推荐列表。奖励：用户是否点击推荐的新闻，以及用户活跃度。基于 Double DQN 和 Dueling DQN 。探索过程：对原始网络...

2023-02-26

阅读全文