報告時間:2025-6-20 |
報告地點:407 |
指導老師:江信毅老師 |
學生:林黃彥 |
摘要 |
生成式語言模型(Large Language Models, LLMs)近年在醫療、法律等知識密集領域展現強大的語義理解與自動生成能力,亦逐漸被視為數位農牧管理中的潛力技術,具備整合資訊與提供即時決策建議的應用前景。然而,這類模型多建構於通用語料之上,當應用至專業領域時,容易產生知識錯誤與幻覺(hallucination),降低實用性與可信度。為解決此問題,本研究導入擷取增強生成技術(Retrieval-Augmented Generation, RAG),將語言模型回答限制於特定畜牧資料庫中,以提升語意回應的準確性與可靠性。本研究以「台灣農業部動物疾病資料庫」中牛隻相關疾病資料為主,蒐集包含疾病名稱、說明、分類與症狀等,共1178筆資料,經資料清洗與結構化後建立檢索資料庫。導入RAG架構連接語意檢索模組與生成模組,建構一套牛隻疾病自然語言問答系統,並建置前端互動介面,支援使用者以自然語言輸入牛隻症狀,系統即時提供建議性資訊,提升實務應用便捷性與知識傳播效率。研究設計分為兩項實驗:實驗一,嵌入模型比較實驗。根據(Massive Text Embedding Benchmark, MTEB)的全球及中文嵌入模型排行榜中,選出五種語意嵌入模型(multilingual-e5-small、multilingual-e5-large、stella-base-zh、stella_base_zh_v3_1792d與bge-m3)對 1178 筆牛隻疾病問答資料進行語義檢索,評估其 Top-1 與 Top-5準確率。實驗二,生成模型與RAG模型比較實驗。使用 GPT-4o-mini 商用語言模型進行 300 題牛病問答回應,分別於「未整合 RAG」與「整合 RAG」兩種模式下執行,並以BERTScore去計算 Precision、Recall 與 F1 Score,透過計算生成文本與標準文本間每段詞語的餘弦相似度,從中評斷出生成語義的品質。在語意檢索實驗中,bge-m3 模型表現最佳(Top-1 = 96.69%,Top-5 = 99.75%),其次為stella_base_zh_v3_1792d(Top-1 = 94.65%,Top-5 = 99.41%)與multilingual-e5-large(Top-1 = 92.11%,Top-5 = 98.39%),顯示bge-m3嵌入模型於畜牧領域語意提取具有優勢。此外,於300題測試集中,使用中文BERTScore評估語言模型問答表現。於語言模型生成實驗中,GPT-4o-mini 在未整合RAG條件下表現為Precision 0.5535、Recall 0.6344、F1 Score 0.5902;整合RAG後則提升至Precision 0.6297、Recall 0.7435、F1 Score 0.6795,驗證語言模型在檢索輔助下能更有效掌握畜牧專業語境並提升回答正確性。此模式亦可廣泛套用於其他禽畜物種與領域,為智慧畜牧問答系統建構提供實證基礎。 |
參考文獻 |
|