ARTS 打卡第 8 天 - 提示工程、DemoGPT 和動手實踐

A：27. 移除元素 #

給你一個數組 nums 和一個值 val，你需要原地移除所有數值等於 val 的元素，並返回移除後數組的新長度。
不要使用額外的數組空間，你必須僅使用 O (1) 額外空間並原地修改輸入數組。
元素的順序可以改變。你不需要考慮數組中超出新長度後面的元素。
說明:
為什麼返回數值是整數，但輸出的答案是數組呢？
請注意，輸入數組是以「引用」方式傳遞的，這意味著在函數裡修改輸入數組對於調用者是可見的。
你可以想象內部操作如下:
//nums 是以 “引用” 方式傳遞的。也就是說，不對實參作任何拷貝
int len = removeElement(nums, val);
// 在函數裡修改輸入數組對於調用者是可見的。
// 根據你的函數返回的長度，它會打印出數組中該長度範圍內的所有元素。
for (int i = 0; i < len; i++) {
print(nums[i]);
}

示例 1：
輸入：nums = [3,2,2,3], val = 3
輸出：2, nums = [2,2]
解釋：函數應該返回新的長度 2, 並且 nums 中的前兩個元素均為 2。你不需要考慮數組中超出新長度後面的元素。例如，函數返回的新長度為 2 ，而 nums = [2,2,3,3] 或 nums = [2,2,0,0]，也會被視作正確答案。

示例 2：
輸入：nums = [0,1,2,2,3,0,4,2], val = 2
輸出：5, nums = [0,1,4,0,3]
解釋：函數應該返回新的長度 5, 並且 nums 中的前五個元素為 0, 1, 3, 0, 4。注意這五個元素可為任意順序。你不需要考慮數組中超出新長度後面的元素。

function removeElement(nums: number[], val: number): number {
  for (let i = 0; i < nums.length; i += 1) {
    if (nums[i] === val) {
      nums.splice(i, 1)
      i -= 1
    }
  }
  return nums.length
}

提交結果為：

113/113 cases passed (76 ms)
Your runtime beats 18.87 % of typescript submissions
Your memory usage beats 98.31 % of typescript submissions (42.1 MB)

題目比較簡單，沒刷過 LeetCode，先從 Easy 題目刷起，練練手感，但長期這樣低水平重複地刷應該沒有提升效果，後續要像《刻意練習》中提到的一樣，適當有計劃地提升難度來形成解決算法題的心理表徵，而不是通過眼熟心不熟來解題，這也會導致容易遺忘。

R：Prompt Engineering #

大部分 Prompt Engineering 教程都不值得 8 頁紙，每種技巧用幾個示例就能講清楚，剩下的內容都是效果基準測試。一個更容易使用的基準測試基礎設施對社區的作用都更大，迭代式的 Prompt 和外部工具用起來不是很容易，讓社區採納更是不易。

Basic Prompt#

Zero-Shot#

將任務文本直接輸入給模型得到結果。

Few-Shot#

Few-shot 就是在任務文本之前，提前給一些高質量的查詢、返回的示例，讓模型更好地理解我們的意圖，同時這也意味著使用更多的 token 數量。

一些研究發現這些 few-shot 示例的格式、示例內容和順序也會很大程度地影響模型輸出的效果。

此外在分類任務上，還會有樣本標籤分佈數量偏差、標籤位置偏差、常見 token 偏差等，我們可能還需要在輸入 N/A （個人理解是空輸入）時校準輸出標籤的概率來抵消這種偏差。

作者提到了一些提供示例的技巧：選擇多樣性、有對比的示例，隨機決定示例的位置等等。

Instruction Prompting#

Frew-shot 是為了更好地讓模型理解我們的意圖，但會有輸入長度限制。既然目標是為了讓模型理解我們的意圖，我們也可以直接指示模型按照我們的指令行事。

InstructGPT 就是一個被訓練出來更好地理解用戶意圖的語言模型。RLHF 是實現這個目的的通常方法。用這種方式可以讓模型更好地理解用戶意圖的同時還降低與模型交互的成本。

對 instruction 模型來說，我們要詳細地描述我們的需求，如果有不希望模型做的事情直接指出來，而不是告訴它要做什麼。

In-context instruction learning 就是把 few-shot 和 instruction prompting 結合起來，給出幾個包含 “任務定義”、“輸入” 和 “輸出” 的示例。

Self-Consistency Sampling#

Self-Consistency Sampling 是指生成多個 temperature > 0 的輸出然後選取其中效果最好的。(我個人沒感覺到這和 Prompt 構造有什麼關係，看起來就是多跑幾次選效果最好的)

Chain-of-Thought (CoT)#

CoT 是通過一系列短句來按步驟說明任務的推理邏輯，從而得到最終的答案。這種技巧只在複雜任務中有明顯的效果，簡單任務收效甚微。CoT 也可以和 zero-shot、few-shot 結合起來用。

Automatic Prompt Design#

Prompt 可以視為一組前置的 token 序列，這個序列確保用戶輸入的時候我們能得到想要的輸出，因此我們可以把這個前置 token 序列當作可訓練的參數，通過在向量空間中做梯度下降直接進行優化。比如 AutoPrompt、Prefix-Tuning、P-tuning 和 Prompt-Tuning 都是圍繞這個思路來做的，這些方法的發展趨勢是讓構造過程變得越來越簡單。

Automatic Prompt Design 一種選擇模型生成的指令的方法，它會在一個指令池裡通過一個打分函數選出效果最好的指令。

此外還有自動構造 CoT 指令的方法：augment-prune-select：

Augment：使用 zero-shot 或 few-shot 生成給定問題的多個假思維鏈
Prune：根據生成的答案是否與事實匹配來修剪假思維鏈
Select：應用一些數學方法 *(作者有提到，但我自己不太理解)* 來選擇要採用的思維鏈

Augmented Language Models#

通過合理的技巧以及使用外部工具可以增強語言模型的效果。

檢索#

我們使用大模型時，通常需要和最新或者私有的知識、信息相結合，這時候檢索服務就能把相關的信息補充到 Prompt 中。

編程語言式推理#

PAL (Program-aided language models) 和 PoT (Program of Thoughts prompting) 都試圖讓 LLM 生成編程語言結果來解決自然語言推理的問題，然後放到比如 Python interpreter 裡來運行解決問題。這要求模型本身有比較強的編程相關能力。

外部 API#

TALM (Tool Augmented Language Models) 是一種用文本到文本 API 調用來增強的語言模型。(個人感覺這有點像 OpenAI 的 Function Calling)

T：DemoGPT - 輸入 Prompt 得到 Web 應用#

DemoGPT 是一個 Prompt 到應用的新形式探索，之前我們可以看到的 Prompt 到應用的產品，基本都要遵照產品設計的規則來構建基於 Prompt 的應用，比如 OpenGPT 和 Langflow，DemoGPT 可以看作是一個新思路，從 Prompt 直接到應用，應用實現框架是比 Gradio 更加強大的 Streamlit 加上 Langchain。(我對 Streamlit 越來越看好了)

S：Get Hands Dirty#

雖然已經做了一些面向 LLM 的應用，但基本都是 Prompt 的簡單定制，然後工具化或 API 化。怎麼做出有競爭力、有存活周期的 AI 應用，目前還更多是通過看文章來理解其中的問題的，越來越覺得要 Get hands dirty 才能把這件事做好，也許可以做一個信息流和知識管理系統的 Web 應用來達成這個目的。

Reference:

ARTS 打卡活動