投資理財除了靠經驗與運氣,能否更科學一點?中研院資訊科技創新研究中心的王釧茹助研究員,與團隊運用機器學習分析財報中的「軟資訊」,找出「特定詞彙的出現」跟「企業財務風險」的關係。
若要發行或交易「衍生性金融商品」,例如期貨 (Futures)、選擇權 (Option),往往需要知道其「理論價格」是多少。為此,早期華爾街聘請許多稱為 “Quant” 的人才 ,擁有物理、數學等專業背景,透過電腦計算金融模型,為衍生性金融商品定價、或預測市場行為。
早期的 Quant 是透過「理論」來定價、分析或預測市場行為,現在則引入透過「資料」進入此過程。
最大的不同在於:以往數學模型是依照理論,假設股票遵循某種分配去擬定理論價格,但理論和假設是會改變的;資料分析則基於現實存在的金融資料,有什麼資料、就說什麼話,而這種專業正是王釧茹團隊所擅長──尤其是財務報告中的「軟資訊」。
會有這樣的轉變,拜賜於電腦硬體的發展、機器學習的進步,也因為大量的資料不斷累積,而美國證券交易委員會 (Securities and Exchange Commission,縮寫 SEC) 更規定上市公司要依規撰寫財務報告,累積了許多格式標準、具豐富資訊、可供分析的財務資料。
若要簡單說明「硬資訊」和「軟資訊」的差別,「硬資訊」主要為財報或市場資訊中的數字,例如企業的每股盈餘 (EPS) ,多為結構化資料;而「軟資訊」主要是文字資料,例如會計事務所撰寫財報時使用了哪些詞彙,來描述下個年度企業經營的發展方向,多為非結構化資料。
軟資訊,也就是書寫者在特定情境脈絡下,依照判斷、情緒寫下的文字資料。
「2011 年我們看到 Tim Loughran 和 Bill McDonald 的財務情緒字典發表在 《Journal of Finance》,堪稱財務界的《Science》期刊,就知道這是未來重要的趨勢之一!」王釧茹回想,因此和團隊運用這套財務情緒字典,看看後續能進行什麼研究。
傳統的財務資料分析領域,許多研究及實務上多傾向分析硬資訊,而王釧茹團隊選擇了分析「軟資訊」的新方向。
王釧茹團隊運用「10-K 財務年報的第七章」,也就是陳述企業管理和未來方向的章節文字,運用該企業未來的「股票報酬波動 (Stock return volatility)」 數據作為風險指標,藉此分析財務報表詞彙與風險的相關性。
「若今天 A 公司股價上漲 70%,隔天突然又跌 50% ,這個報酬波動太大,普遍會被認定為財務高風險的公司。反之,如果公司股價穩定維持高價或低價,就會被視為財務低風險的公司。」王釧茹說明為何會選擇「股票報酬波動」,作為訓練電腦預測未來企業財務風險的資料。
團隊開發的機器學習模型,訓練資料包含 1996-2013 年期間各企業的財務報表,篇數超過萬篇、字數超過十萬字,而資料變數高達好幾萬維度,有別於過往的統計分析難以處理超過二十維度的變數。
王釧茹團隊研究發現,財報中出現 default 這個單字,跟該企業後續的財務風險高度相關。你可能會疑惑, default 不是「預設」的意思嗎?其實在財務報表中, default 是「違約」的意思,像是 2008 年金融危機前大受歡迎的金融商品「信用違約交換」就稱作 Credit Default Swap 。
王釧茹團隊分析發現, sureti 擔保、delist 赤字、forbear 隱忍,這些字與財務風險高度相關。而 amend 這個字是「改變」的意思,一般用在企業通過法律程序的某種修改行為,若在財報中高頻率出現,也能聯想到公司經營管理常常改變所帶來的風險。
但你可能會好奇,為什麼 nasdaq 跟財務風險竟然也有這麼大的關係,而且還被分類成負面情緒的字?
為了找出答案,王釧茹團隊亦開發 FIN10K: Financial Reports Analysis 平臺,用以查找財報原始資料、分析上下文,發現財報中 nasdaq 常被隨著 delisting 出現,delisting 為「除名」,兩個字組合一起在金融界為「退市」的意思,也就可以理解當 nasdaq 這個字出現,會跟財務風險高度相關。
另外一個有趣的發現,unsecured note 也就是「未擔保債」,雖然字面看似負向,但若出現在財務報表中,代表該公司的財務狀況較佳、可被信任,才能發行未擔保的債,未來的財務風險也相對較低。
這樣的軟資訊分析模型,將有助銀行改進信用風險評估、或幫助投資者設計投資策略。
王釧茹強調,這項研究並非為了取代現有的金融預測模型,而是讓業者或相關機構在現有的金融預測模型之外,能有多一項「軟資訊情緒用詞」優化評估指標。
除了分析財報資訊,王釧茹團隊藉著文本分析的相關技術,在最新一篇 SIGIR 2017 的研究中運用文字資訊進行了物品 (如:電影) 與相關概念的建模。
其中,王釧茹團隊將建模後所得之電影資訊、和 IMDB 的評論文字之高維度向量,轉換投射至二度平面後,在以下展示平臺中會看到「太空」、「外星人」等單字跟「科幻電影」的散佈位置相近,而「動作電影」則跟「軍隊」、「特工」等單字散佈位置相近。此模型可運用於推薦及資訊檢索的相關應用。
我們研究團隊 (與臺大陳宏銘教授、中研院楊奕軒研究員、政大蔡銘峰老師) 目前跟國泰金控有一個四方的產學計畫,主要是做 Customer Journey (顧客歷程)分析,運用顧客曾申辦信用卡、購買相關產品等去識別化資料,預測未來可能的消費行為、投資偏好等。
可以感覺到現在台灣金融業對於 FinTech (金融科技) 蠻積極,不過礙於企業內部的資料歸屬、政府的法規限制,時常造成相關資料無法整合、因此無法進行後續分析或運用。
許多國外金融機構在規劃各部門資料整合、開放匿名資料相對完善,因此有利於後續的研究與應用,這是台灣現在需要盡快優化的地方。
原文連結:注意!若財報出現這些字,未來財務風險高
延伸閱讀: