本專案建立一套端到端 (End-to-End) 的自動化內容發布流程,用來縮短繁體中文讀者與國際技術資訊之間的時間差。

📋 專案摘要 (Abstract)

傳統技術新知的整理常依賴人工翻譯與搬運,容易產生數天到數週的延遲。為了降低這個成本,我在 Linux 伺服器上架設 n8n 自動化流程,並整合 Ollama 本地大型語言模型 (gpt-oss),串接 RSS 監聽、內容擷取、摘要翻譯、圖片檢索與 WordPress 發布。系統目標是讓技術資訊先形成可閱讀草稿,再由人工進行必要審閱。


🛠️ 技術深度剖析 (Technical Case Study)

1. 系統架構與基礎設施 (Infrastructure)

為了確保系統的穩定性與隱私安全性,本專案採用全私有化部署方案:

  • Linux Server: 作為運算與服務託管的基礎環境。
  • Workflow Orchestration (n8n): 使用 n8n 作為自動化中樞,負責串接各個 API 節點與邏輯判斷,取代傳統繁瑣的 Python Crontab 腳本。
  • Local LLM Inference (Ollama): 部署 Ollama 框架運行 gpt-oss 模型,降低大量文本處理對外部 API 的依賴。

Lightnews 自動化內容處理流程

2. 核心技術:AI 驅動的內容處理管線 (AI-Driven Content Pipeline)

本系統的核心在於將非結構化的網頁內容,透過 AI 轉化為結構化的發布格式。

2.1 智慧擷取與認知處理 (Ingestion & Cognitive Processing)

流程始於對特定技術領域的 RSS 監控。一旦發現新文章,系統即觸發以下處理鏈:

  1. 內容清洗: 自動爬取原始網頁,去除廣告與無關 HTML 標籤。
  2. 本地 LLM 推論: 將清洗後的文本輸入至 Ollama (gpt-oss) 進行多維度處理:
    • 摘要生成 (Summarization): 提煉文章核心技術點。
    • 跨語言翻譯 (Translation): 將英文技術術語準確轉換為繁體中文。
    • 自動分類 (Auto-Tagging): 根據內文語意,自動判斷文章所屬的技術領域(如:DevOps, AI, Security)並生成對應標籤。

2.2 上下文感知的媒體檢索 (Context-Aware Media Retrieval)

為了讓文章圖文並茂,我設計了一套「文轉圖」的檢索邏輯,而非單純使用隨機圖片。

  1. 視覺意圖識別: 透過 LLM 分析文章內文,生成一組可用於搜尋的英文「視覺關鍵字 (Visual Keywords)」。
  2. API 媒合: 系統自動呼叫圖庫 API (Unsplash),利用上述關鍵字進行檢索。
  3. 最佳化篩選: 根據圖片的下載量與相關度評分,選取相關度較高的圖片作為文章封面圖 (Featured Image)。

3. 自動化交付 (Automated Delivery)

最後階段,n8n 將處理好的標題、內文、標籤與圖片連結,透過 WordPress REST API 建立草稿或發布。這個流程讓文章格式更一致,也讓內容更新可以維持穩定節奏。


總結 (Conclusion)

這個專案整理了 Low-Code 工具 (n8n)Local LLM 在內容流程上的實作方式。它的重點不是取代編輯判斷,而是把重複性的整理、摘要與發布前處理自動化,讓人工可以集中在最後審閱與品質控制。