近日,庖丁科技中標證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡稱“深交所”)——“證券文本信息抽取技術研究”項目,以證券市場文本信息為對象,研究利用自然語言處理技術,從披露公告中抽取指定的文本信息,并且滿足具有一定技術性能指標要求的課題。
AIOi1i+iDvei1hOacrOW4guWcuuWJjee6v+ebkeeuoQ=="/>
資本市場上,信息披露作為法規(guī),通常要求信息披露義務人“應當真實、準確、完整、及時地披露信息”。我國上市公司信息披露的內容大體可分為三類:證券發(fā)行文件、定期報告和臨時報告。
上市公司的公告信息披露必須在指定信息披露網(wǎng)站發(fā)布,主要為PDF格式。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇,隨著上市公司數(shù)量日益增多,這一數(shù)字也會逐年增加,不但為深交所的合規(guī)檢查帶來壓力,也給投資者帶來極大的信息負載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中通過自然語言處理、深度學習等技術將公告信息結構化提取成為關鍵所在。
庖丁科技透露,現(xiàn)正在持續(xù)而堅定地推進該項工作:首先通過卷積神經網(wǎng)絡對公告中的段落表格等信息進行分割抽取。為了適應樣本數(shù)量稀少的問題,他們還提出了一種輕量級的機器學習方法。該方法能夠高效地將不同類別公告的關鍵語句抽取出來,并使之具有在線學習的能力,抽取過程僅需公告制作業(yè)務專家對少量公告進行標注,即可達到可用效果。關鍵語句抽取后,再通過LSTM神經網(wǎng)絡進行細粒度提取,從而將公告結構化。目前,庖丁科技對并購重組公告的結構化抽取的工作已取得較為理想的結果,提升了深交所監(jiān)管工作的效率。這項工作的探索不僅為擴展更多公告類型奠定基礎,也為其他類型文本處理帶來了寶貴經驗。
“利用非結構化信息抽取技術,我們能夠把隱藏在海量公開公告中企業(yè)與企業(yè)、企業(yè)與個人關系進行深度挖掘,并且透視、洞察企業(yè)的價值及風險。作為國內擁有世界領先的金融文本信息抽取技術、有能力利用深度學習和金融知識庫進行高精度的結構化信息提取的先進團體。”庖丁科技表示,未來將繼續(xù)全力服務金融行業(yè),助力金融機構進一步提升服務實體經濟的能力。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術決定未來
- 新思科技與芯耀輝在IP產品領域達成戰(zhàn)略合作伙伴關系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。