用AI閱讀全世界的嘗試

學習建出自己的工具中。

ChatGPT如何摘要大量內容的幾種方法

讓 AI 做摘要是現在很常見的 AI 應用，但現在就算都使用 OpenAI，各家摘要的品質參差不齊。主要原因有兩個： AI 摘要結果不如預期的兩個原因 1. Prompt 這可能是最關鍵的問題。「摘要」這件事不如大家想得這麼單純，它要考慮的東西不少。舉例來說，同樣一則台積電新聞，一般大眾和投資人關注的重點就不同。如果站在一般大眾的角度摘要重點，對投資人來說無用資訊太多，該講的重點沒講；如果站在投資人角度摘要，對一般大眾來說又省略太多前提，看不懂，也不了解為什麼這是重點。「重點」是什麼，這很因人而異。一個人認為的重點，可能是另一個人眼中的廢話。所以你不能單純用「幫我摘要重點」作為 prompt。而要針對不同情境、不同使用者，特製該情境下的 prompt。這也是為什麼大家會讓 ChatGPT 在做廣泛閱讀時做摘要，但回到自己專業領域，通常不會信任 ChatGPT 的摘要。因為前者就算是泛泛之論仍會有點收獲，但後者對摘要的品質要求變得很高。 2. 技術選擇這邊要先了解一下目前技術的限制。現在最強的語言模型還是 OpenAI 的 GPT-4 和 GPT-3.5。 GPT-3.5 目前在摘要上最大的問題是一次能塞的內容少。他的限制是 4096 token，如果是寫滿字的 pdf，大概就是一頁半，而且理解能力較差。 GPT-4 的優點是理解能力強，但它的速度慢，如果閱讀長一點的文章，甚至會花到 2 分鐘以上。試想，你叫 AI 幫你摘要一篇文章，結果在那邊乾等 2 分鐘，顯然並不是很愉快的閱讀體驗。更別說 GPT-4 目前價格是 GPT-3.5 的 15 倍。就算你有錢有閒，基本的 GPT-4 token 上限是 8k (三頁 pdf)，更貴的可以到 32k (12 頁 pdf)，針對真的需要摘要的大量內容，這都是杯水車薪。所以，針對超過字數限制的文件，有哪些摘要方法呢？如何摘要大量內容為了解決字數上限的問題，網路上有各式各樣的應對方法，這邊是我目前看到的幾種：只拿開頭有一款很紅的瀏覽器擴充功能——「YouTube & Article Summary powered by ChatGPT」，之前叫做「YouTube Summary with ChatGPT」，就是用這個方法。

林威宇

“「重點」是什麼，這很因人而異。一個人認為的重點，可能是另一個人眼中的廢話。所以你不能單純用「幫我摘要重點」作為 prompt。而要針對不同情境、不同使用者，特製該情境下的 prompt。

這也是為什麼大家會讓 ChatGPT 在做廣泛閱讀時做摘要，但回到自己專業領域，通常不會信任 ChatGPT 的摘要。因為前者就算是泛泛之論仍會有點收獲，但後者對摘要的品質要求變得很高。 “

如何摘要大量內容

只拿開頭 (View Highlight)
切段後每一段都全部看，摘要後再摘要 (View Highlight)
給他前情提要 (View Highlight)
分群摘要 (View Highlight)

---

一個實作案例

“而我在「一躍成為經濟學人封面：臺灣如何成為外媒焦點」的報導中第一次與 ChatGPT 協作，得到不同的結論，我認為 ChatGPT 會是資料新聞相當強大的幫手。

此份報導主要使用到的資料是以「媒體在臉書上的貼文」為分析文本（預設媒體有新的、重要的報導都會貼在臉書上），我們以各國語言的「Taiwan」為關鍵字，抓取了兩個資料集，時間區間都是 2015-2023 年 4 月 9 日。 (Highlight)”

“我主要是使用 A 資料集做較細緻的內容分析，包括主題、情緒等等。 (Highlight)”

“以這次的資料為例，我會把所有的新聞翻譯成英文，並斷成一個一個詞彙，再去統計各時間區間哪些詞最常出現。”

關於情緒分析，ChatGPT 就做得很好：”我下的指令是「請判斷該文章的內容對台灣的情緒是正面、負面、還是中性的」，它給出的結果跟我人工判斷的結果幾乎一致。 (Highlight)”

“這其實也跟我們過去找工讀生標記資料的方式很類似。通常我們都會先做小範圍的資料確立研究方法、建立標記規則，再發包出去給工讀生標記。

費用的部分，API 是以 token 計費（token 是字詞，如果你想知道你的需求要花費多少 token，可以參考官方的計算網頁），每 1000 個 tokens 要花費 0.002 美元。我們的實測結果大約近 4000 筆資料 200 元台幣。 (Highlight)”

“其他的資料呢？我自己的經驗是，只要是人經手過的資料就有一定的錯誤機率。例如當初我們從監察院搬出政治獻金資料，就發現就算是政府機關，也會因為人工謄寫收據、人工登打進電腦過程中不小心寫錯或 Key 錯，造成資料的錯誤。但這些錯誤都會在記者做資料清理、分析時被發現。我對於 AI 產生的資料，也是一樣的處理方式。 (Highlight)”

---

LangChain

LangChain 是一個強大的框架，旨在幫助開發人員使用語言模型構建端到端應用程序。它提供了一套工具、組件和接口，簡化了創建由大型語言模型（LLMs）和聊天模型驅動的應用程序的過程。

在LangChain中，元件是可組合成強大應用程式的模組化建構塊。鏈是一系列元件（或其他鏈）的組合，用於完成特定任務。

例如，一個鏈可能包括提示模板、語言模型和輸出解析器，它們共同工作以處理用戶輸入、生成回應和處理輸出。

Embeding - 文本嵌入模型：這些模型以文本作為輸入，並返回表示文本嵌入的浮點數列表。這些embeding嵌入可以用於文檔檢索、聚類和相似性比較等任務。

用AI閱讀全世界的嘗試

ChatGPT如何摘要大量內容的幾種方法

一個實作案例

LangChain

留言

相關標籤

ChatGPT如何摘要大量內容的幾種方法

一個實作案例

LangChain

訂閱電子報

留言

相關標籤