法國 AI 獨角獸 Mistral AI 插旗光學字元辨識 (OCR) 領域,發表號稱「全世界最佳文件理解 API」:Mistral OCR。
Mistral OCR 能夠全面理解文件的每個元素,包括媒體、文字、表格、公式等,並展現出前所未有的準確性和認知能力。它支援圖像和 PDF 作為輸入,並能從中提取有序的、交錯的文字和圖像內容。 因此,Mistral OCR,可以與以多模式文件(如投影片或複雜 PDF)作為輸入的 RAG 系統結合使用。
Mistral OCR 具備以下六大亮點功能:
Mistral OCR 與其他主流 OCR 產品的效能對比,包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在整體準確率、數學公式辨識、多語言處理等方面,Mistral OCR 均表現出色,尤其在 Mistral OCR 2503 版本中,各項指標都達到了新的高度
Mistral OCR 功能已開放在 Le Chat 上免費試用。Mistral AI 已經將它作為 le Chat 上數百萬用戶的預設文件理解模型,並以 1000 頁 / 1 美元的價格發布了 API「mistral-ocr-latest」。