#文化新聞,趨勢,電腦科技,AI,哈佛大學,波士頓圖書館

哈佛 × 波士頓公共圖書館:百萬冊「原典館藏」正式入列 AI 資料庫

bookmanta編輯陳怡霓
11 個月前
哈佛 × 波士頓公共圖書館:百萬冊「原典館藏」正式入列 AI 資料庫

 

3.94 億頁、254 種語言,上架 Hugging Face,為模型添一份可考據的底氣


你是否也曾被 AI「信誓旦旦卻引用不明」的回答誤導過?

生成式 AI 崛起後,資料來源不透明、品質參差不齊,一直是大型語言模型(LLM)最受詬病的痛點。

 

哈佛大學與波士頓公共圖書館(BPL)決定從根源下手——推出 Institutional Books 1.0:一次釋出 近 100 萬冊、254 種語言、約 3.94 億頁 的公領域原始文獻,並全數上架 Hugging Face,開放研究與模型微調(fine-tuning)自由取用。

 

 

為何提升資料庫準確性這麼重要?

 

第一手來源:資料直接出自圖書館、博物館館藏,不再是網路二手轉載。

語言多樣:英文僅佔不到 50%,其餘橫跨德、法、義、西、拉丁文等;最早文獻可追溯至 15 世紀朝鮮手寫花木隨筆。

版面保真:結合 Google 早期掃描檔與 OCR(光學字元辨識)優化,盡可能還原原書排版與註釋。

 

 

該計畫由哈佛大學主導、獲微軟OpenAI 贊助,目標是:

「讓知識機構與 AI 開發者,對『資料完整性』與『公共利益』擁有同一把尺。」

目前已號召多所圖書館、博物館加入,未來預計陸續釋出更多高可信度的原始資料集。

 

早在 2000 年代,Google 曾協助哈佛掃描大量館藏,嘗試打造 2000 萬冊的線上書庫。計畫一度因版權爭議遭遇訴訟,直到 2016 年美國最高法院裁定屬「合理使用」才告落幕。

此番再度攜手,哈佛與 Google 只開放確定屬公領域的書目,並透過最新 OCR 技術重新校對,盼在法律與技術層面一次補足過往隱憂。

 

 

這件事對 AI 意味什麼?

 

降低「幻覺」機率:當模型能直接引用原始文獻,錯引/自創引用的機率理論上可降低。

增添多語深度:英語比重下降,開啟更多非英語語料訓練與微調的可能。

長文本推理測場3.94 億頁掃描檔,意味著大規模長篇閱讀/摘要測試的素材充足。

 

但效果究竟多大?還需要使用者實測──「好料」端上桌,能不能煮出佳餚,考驗開發者功力。

 

 

AI 圈仍在觀察——

唯一可以確定的是,可靠來源已成為下一輪模型競賽的關鍵字。


目前 Institutional Books 1.0 已於 Hugging Face 上線,任何研究者、開發者均可免費下載。未來,圖書館與 AI 社群能否共同打造出一條兼顧「開放」與「可信」的知識供應鏈,將是全球資訊生態的下一道考題。

 

相關連結

美國圖書館與AI合作開發 增原始文獻資料自由藝文網
2025-06-26

目前尚無留言。