用AI閱讀全世界的嘗試

學習建出自己的工具中。

ChatGPT如何摘要大量內容的幾種方法

“「重點」是什麼,這很因人而異。一個人認為的重點,可能是另一個人眼中的廢話。所以你不能單純用「幫我摘要重點」作為 prompt。而要針對不同情境、不同使用者,特製該情境下的 prompt。

這也是為什麼大家會讓 ChatGPT 在做廣泛閱讀時做摘要,但回到自己專業領域,通常不會信任 ChatGPT 的摘要。因為前者就算是泛泛之論仍會有點收獲,但後者對摘要的品質要求變得很高。 “

如何摘要大量內容

  • 只拿開頭 (View Highlight)
  • 切段後每一段都全部看,摘要後再摘要 (View Highlight)
  • 給他前情提要 (View Highlight)
  • 分群摘要 (View Highlight)

---

一個實作案例

“而我在「一躍成為經濟學人封面:臺灣如何成為外媒焦點」的報導中第一次與 ChatGPT 協作,得到不同的結論,我認為 ChatGPT 會是資料新聞相當強大的幫手。

此份報導主要使用到的資料是以「媒體在臉書上的貼文」為分析文本(預設媒體有新的、重要的報導都會貼在臉書上),我們以各國語言的「Taiwan」為關鍵字,抓取了兩個資料集,時間區間都是 2015-2023 年 4 月 9 日。 (Highlight)”

“我主要是使用 A 資料集做較細緻的內容分析,包括主題、情緒等等。 (Highlight)”

“以這次的資料為例,我會把所有的新聞翻譯成英文,並斷成一個一個詞彙,再去統計各時間區間哪些詞最常出現。”

關於情緒分析,ChatGPT 就做得很好:”我下的指令是「請判斷該文章的內容對台灣的情緒是正面、負面、還是中性的」,它給出的結果跟我人工判斷的結果幾乎一致。 (Highlight)”

“這其實也跟我們過去找工讀生標記資料的方式很類似。通常我們都會先做小範圍的資料確立研究方法、建立標記規則,再發包出去給工讀生標記。

費用的部分,API 是以 token 計費(token 是字詞,如果你想知道你的需求要花費多少 token,可以參考官方的計算網頁),每 1000 個 tokens 要花費 0.002 美元。我們的實測結果大約近 4000 筆資料 200 元台幣。 (Highlight)”

“其他的資料呢?我自己的經驗是,只要是人經手過的資料就有一定的錯誤機率。例如當初我們從監察院搬出政治獻金資料,就發現就算是政府機關,也會因為人工謄寫收據、人工登打進電腦過程中不小心寫錯或 Key 錯,造成資料的錯誤。但這些錯誤都會在記者做資料清理、分析時被發現。我對於 AI 產生的資料,也是一樣的處理方式。 (Highlight)”

---

LangChain

LangChain 是一個強大的框架,旨在幫助開發人員使用語言模型構建端到端應用程序。它提供了一套工具、組件和接口,簡化了創建由大型語言模型(LLMs)和聊天模型驅動的應用程序的過程。

在LangChain中,元件是可組合成強大應用程式的模組化建構塊。鏈是一系列元件(或其他鏈)的組合,用於完成特定任務。

例如,一個鏈可能包括提示模板、語言模型和輸出解析器,它們共同工作以處理用戶輸入、生成回應和處理輸出。

Embeding - 文本嵌入模型:這些模型以文本作為輸入,並返回表示文本嵌入的浮點數列表。這些embeding嵌入可以用於文檔檢索、聚類和相似性比較等任務。

相關標籤

📒 閱讀摘要
📓 學習的筆記 AI 人工智慧