James Tsang

James Tsang

A developer.
github
twitter
tg_channel

ARTS チェックイン 6 日目

A: 278. 第一个错误的版本#

あなたはプロダクトマネージャーで、現在新しい製品の開発チームをリードしています。残念ながら、製品の最新バージョンは品質検査に合格しませんでした。各バージョンは前のバージョンを基に開発されているため、間違ったバージョン以降のすべてのバージョンが間違っています。
n 個のバージョン [1, 2, ..., n] があるとします。後続のすべてのバージョンが間違っている原因となる最初の間違ったバージョンを見つけたいと思います。
バージョン番号 version が単体テストで間違っているかどうかを判断するために、bool isBadVersion (version) インターフェースを呼び出すことができます。最初の間違ったバージョンを見つけるための関数を実装してください。API の呼び出し回数をできるだけ少なくする必要があります。
例 1:
入力:n = 5, bad = 4
出力:4
説明:
isBadVersion (3) -> false を呼び出します
isBadVersion (5) -> true を呼び出します
isBadVersion (4) -> true を呼び出します
したがって、4 は最初の間違ったバージョンです。
例 2:
入力:n = 1, bad = 1
出力:1

var solution = function (isBadVersion: any) {
  return function (n: number): number {
    for (let i = 1; i <= n; i += 1) {
      if (isBadVersion(i)) {
        return i;
      }
    }
    return n;
  };
};

提出結果:

Time Limit Exceeded
22/24 cases passed (N/A)

論理的には合格するはずですが、後でバイナリサーチに変更してみます。

参考答えのバイナリサーチを使った改善版は以下の通りです:

var solution = function (isBadVersion: any) {
  return function (n: number): number {
    let left = 0
    let right = n
    while (left <= right) {
      let middle = Math.floor((left + right) / 2)
      if (isBadVersion(middle) && !isBadVersion(middle - 1)) {
        return middle
      } else {
        isBadVersion(middle) ? (right = middle - 1) : (left = middle + 1)
      }
    }
    return -1
  }
}

順序付けられた配列内の特定の位置を特定する場合、バイナリサーチを使用すると検索範囲を迅速に狭めることができます。

R:LLM 研究中的开放性挑战#

作者注意到 LLM 目前面临的 10 个紧迫问题,其中幻觉和上下文学习是目前讨论最多的问题,作者自己最关注的问题是多模态、新架构和降低 GPU 要求以及增加选择性。

降低和测量模型幻觉#

对于某些生成场景来说,幻觉可能是一种特性,但对于大多数场景来说,幻觉是一个缺陷。因此,减轻和测量模型幻觉是当前研究的一个热门方向。目前已经有一些临时解决方案来减轻幻觉,例如在 Prompt 中增加更多上下文、使用 CoT、自一致性等方法,具体的引用和介绍可以在文章中找到。

改进上下文长度和上下文构建#

大多数问题需要与上下文结合才能得到良好的答案,因为模型需要在 Prompt 的上下文中学习相关信息,这个过程被称为 “上下文学习”。

对于 “检索增强生成”(Retrieval Augmented Generation)来说,上下文长度尤为重要。RAG 的工作需要两个阶段:1. 分块:收集需要用到的所有文档,将文档分块并存储到向量数据库中;2. 查询:当查询输入进来时,也进行嵌入向量化,然后与向量数据库中的数据进行相似性检索。

LLM 支持的上下文长度越长,就可以将更多相关的分块文本放入上下文中,从而获得更好的生成效果。

传递给 Context 的内容并不一定越多越好,还需要考虑模型的处理能力和处理效率,因此另一条优化的路径是优化 Prompt 本身,使其更容易被 LLM 处理,从而提高效率,这条路径被称为 “Prompt Engineering” 或 Prompt 构建。

与其他模态数据的协作#

考虑到许多场景需要处理多模态数据,而且目前主要的 LLM 已经在文本相关数据方面取得了很大的进展,如果想要进一步提升,就需要超越文本领域,发挥多模态数据的价值。

作者对于多模态模型能够帮助视觉障碍者更好地浏览互联网和现实世界感到非常兴奋。

使 LLM 更快更便宜#

当 GPT-3.5 刚发布时,人们都担心它的延迟和价格问题,但仅过去的半年里,社区已经能够使用 GPT-3.5 的 2% 内存获得相同性能的模型。作者在多年前的书中提到了模型优化和压缩的几个重要技术:1. 模型量化;2. 知识蒸馏;3. 低秩因式分解(不确定是否与 LoRA 相同);4. 模型裁剪。这些技术至今仍然非常重要和流行。

设计新的模型架构#

Transformer 是一个在 2017 年提出的架构,但它的领先地位能够持续多久还存在疑问。

要超越经过 6 年持续优化的 Transformer 架构并不容易,需要考虑到当前人们关注的规模化应用、硬件资源等问题。Transformer 最初在谷歌设计时只能在 TPU 上快速运行,后来才在 GPU 上进行了优化。

开发 GPU 的替代品#

自从 2012 年的 AlexNet 深度学习神经网络问世以来,GPU 一直是该领域的主导硬件。

大家都能感受到 GPU 资源的紧缺,因此在过去的十年中,一些公司尝试创造满足 AI 需求的新硬件,例如谷歌的 TPU、Graphcore 的 IPU,以及对量子计算和光子芯片的期望。

使 Agent 真正可用#

Agent 是可以执行操作的 LLM,例如浏览网络、发送电子邮件,相对于其他方向,这个方向还比较新。

由于这个方向的新颖性,人们对它非常热衷,相关的 Github 仓库Auto-GPT是最受欢迎的仓库之一,排名第 25 位,还有GPT-Engineer也是一个非常受欢迎的仓库。

尽管人们对此非常热衷,但仍有相当一部分人怀疑 LLM 的可靠性,怀疑是否可以信任 LLM 来处理行动。

最近出现的一个案例是使用 LLM 进行社会学研究,斯坦福大学进行了一个实验:定义一个 Agent 来组织一个情人节派对,Agent 在接下来的两天里自主进行派对邀请、结识新朋友等模拟行为。

这个方向的一个知名公司是 ADept,他们去年演示了如何让 Agent 浏览网络并在 Salesforce 中添加一个新账户。

从人类偏好中学习#

RLHF(人工反馈强化学习)是一种很好的技术,用于对齐人类,但有些 hacky。作者认为人们可以找到更好的方法让模型与人类保持一致。

RLHF 存在一些问题:

  1. 如何量化表示人类偏好?
    目前人类偏好是通过比较来确定的,人工标注哪个更好,但无法量化好的程度。
  2. 人类偏好是什么?
    Anthropic 围绕 3H(Helpful, Honest, Harmless)来衡量模型的偏好,Deepmind 试图生成大多数人满意的响应。
    那么我们究竟想要什么样的模型?是可以表达立场的还是回避有争议的话题?
  3. 谁的偏好是 “人类偏好”,有考虑到文化、地区和政治因素吗?
    很难获得代表所有潜在用户偏好的训练数据,例如 OpenAI 没有雇佣 65 岁以上的标注人员,标注人员主要来自菲律宾和孟加拉国。
    由社区主导的数据仍然可能存在偏见,例如 OpenAssistant 数据集中有 90.5% 的回答者是男性。

改善与 LLM 对话界面的效率#

自 ChatGPT 以来,关于适用于广泛任务的对话界面应该是什么样的讨论就一直存在。

然而,这并不是一个新的讨论,在许多国家,尤其是亚洲国家,聊天界面作为超级应用的入口已经使用了十年。

在作者看来,聊天界面的优点有三个:

  1. 聊天界面是一种即使没有接触过计算机的人也能快速学习的界面设计;
  2. 聊天界面易于交互,如果手不方便,还可以使用语音输入;
  3. 聊天界面足够强大,可以向它发送任何请求。

但是作者认为聊天界面还有一些需要改进的地方:

  1. 每轮只能输入一条信息
    这不符合与朋友聊天的方式,有时我们的输入是分段的、多种类型的(图片、位置、链接等),或者我们只是不想输入一大段话。
  2. 多模态输入
    在多模态方面,大部分精力都放在构建更好的模型上,只有很少的精力投入到构建更好的用户界面上。
  3. 将生成式 AI 整合到工作流程中
    例如,如果您想询问有关如何处理正在处理的图表列的问题,应该可以直接向该列提问。
  4. 编辑和删除信息
    如何在聊天会话中编辑和删除信息以改进整个对话。

为非英语语言构建 LLM#

目前,以英语为优先的 LLM 在性能、延迟和速度方面在其他语言上的表现并不理想。

虽然也有人在其他语言方面做出努力,例如 Symato 在越南语方面的努力,但也有人认为这个方向没有意义,原因如下:

  1. 这更像是一个资源投入的问题,而不是一个研究问题,我们已经知道如何做,只是没有将资源投入到其他语言中,即使有数据,也不足够;
  2. 更悲观的人认为,未来只会有英语和普通话这两种语言,多语言将会消失。

LLM 对语言学习的影响尚不清楚,它是让人们更快地学习新语言还是消除人们学习新英语的需求?

T:Notepal 同期読書ノート#

これはブラウザ拡張機能で、WeChat 読書のノートを他のソフトウェアに同期することができます。

S:銅の法則#

何かを評価し、それにどれだけのエネルギーを費やすべきかを判断する際には、単一の視点ではなく、2 つの異なる側面から見るべきです。1 つはそのイベントがもたらす利益の大きさ(認知、感情、物質、身体的な利益など)、つまり「利益の価値」です。もう 1 つは、その利益が時間とともにどれだけ減衰するか、つまり「利益の半減期」です。半減期が長いイベントは、私たちに長期的かつ持続的な影響を与える可能性があります。


参考文献:

  1. ARTS 打卡活动
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。