達觀數據陳運文:大語言模型與AIGC創新技術在文本處理領域的應用與思考
8月22-23日,2023 DEMO WORLD企業開放式創新大會在長三角G60科創走廊策源地松江隆重舉行。本屆大會由微新創想主辦,松江區經濟委員會、松江區投資促進服務中心、國家級上海松江經濟技術開發區、松江區泗涇鎮人民政府、松江區佘山鎮人民政府協辦。
大會以“擁抱開放”為主題,邀請200+跨國公司及本土企業創新領袖,聚焦開放式創新,通過演講分享、報告發布、榜單評選、案例展示、需求對接等多種方式,推動全球創新資源在行業中的流動,加速世界各地的企業在中國成長。
在創新場景引力聚合的大會現場,達觀數據董事長、CEO陳運文先生帶來了關于大語言模型與AIGC創新技術的洞見。他分享了達觀數據在自然語言處理領域的經驗和思考,以及如何利用自動化文本處理技術幫助企業實現數字化轉型和科技創新,文章亮點如下:
1. 達觀數據專注于文本處理,提供智能解決方案助力企業數字化轉型
2. 達觀數據量身定制知識庫,助力“曹植”模型實現自動化任務
以下為演講/對話內容,由微新創想整理
(達觀數據董事長、CEO陳運文先生)
陳運文先生表示:達觀數據將繼續深耕文本處理領域,為更多企業提供高效、智能的文本處理解決方案,助力企業實現數字化轉型和科技創新。他指出,隨著企業數字化轉型的推進,文檔資料處理已經成為日常工作中不可或缺的一部分。達觀數據通過多年的研發,成功解決了文檔資料復雜結構、多篇文檔交互等問題,實現了對文檔資料的自動化理解、分析和處理。此外,達觀數據還與國內各大高校建立了聯合實驗室,共同探索最前沿的文檔資料自動化處理技術。
ChatGPT近來備受矚目,達觀數據也與今年推出了國產版大語言模型“曹植”,該模型已經因其在文檔資料寫作和分析等任務上的高效表現而受到廣泛矚目。“曹植”具有三個顯著的特點:其一是處理長文本的能力,能夠迅速完成包括報告、表格、單據等多種形式的龐大文檔資料的寫作和分析。這與傳統的一問一答方式截然不同,使我們能夠深入挖掘和處理這些豐富的信息資源。其次,我們的系統具備多語言處理能力,可以實現英文報告到中文報告的快速轉換,或者中文材料到英文的精準翻譯,這種自動化的多語言處理無疑具有極大的價值。最后,我們的垂直化特色在于專注于各行各業的專業報告處理,需要融入特定領域的知識語料、知識圖譜和知識庫。在這一領域,我們積累了豐富的經驗和專業知識。
“曹植”大語言模型的獨特之處在于將通用行業語料與垂直行業專業語料相結合,以使計算機系統既具備專業知識,又有通識能力。這使得它可以如同畢業生一樣進入一個單位,不僅具備通用知識,還能學習公司和崗位的專業知識,從而完成高度專業化的工作。此外,該模型融合了傳統技術和最新的GPT模型,充分利用各自的優勢,以達到更出色的效果。
同時達觀數據為每家企業量身定制了專屬知識庫,讓“曹植”學習這些知識庫中的文檔內容,以便自動完成一些任務。比如將系統嵌入到WPS Office中,可以自動完成報告寫作、文件分析和審核,從而極大提高效率。我們的系統支持各行業的專業報告寫作,未來預計將成為各個行業的效率提升工具。
典型應用場景例如撰寫報告。根據報告標題,AI系統能夠自動生成報告大綱。一旦有了大綱,你可以在其基礎上進行修改,確保其符合要求。然后可以根據大綱內容填充報告,滿足寫作要求。同時這個系統還能夠一鍵生成文章框架,自動編寫內容,且沒有篇幅限制。我們內置了各行各業的專業寫作模型,生成的報告非常專業。這些工作原本需要專業團隊數周時間才能完成,但現在計算機只需幾分鐘。此外,報告還支持多模式內容,包括文字、表格、圖表等,都可以通過AIGC技術自動生成。我們還實現了文檔自動化翻譯,與傳統翻譯有所不同,我們的翻譯能夠高度保真地還原文檔版式。以報告/論文為例,系統能夠將中文論文快速轉化為英文論文,版式保持一致。這對于跨國企業和業務非常有益,節省了大量時間和精力,同時提高了準確性。
“曹植”大模型將實現了許多白領工作效率的有效提升。無論是起草報告、回答問題、審核材料還是核驗信息,甚至是用自然語言提問,計算機都能以詳實的方式進行回答。不管是自動化寫作,還是能夠生成圖文并茂的報告,以及自動化翻譯,實現高保真的版面還原。所有這些工作都將大幅度提升企業的工作效率,有助于未來企業實現降本增效及風險控制。
總的來說,智能化文本處理技術未來有著廣泛的應用。這一技術就像1000年前的活字印刷術一樣,通過新的技術手段進行文字處理,從而帶來效率的革命。我們相信這種技術將對每個企業、每個單位和每個人產生巨大影響,極大地提升社會運轉的效率。達觀正致力于這一目標,并期待與更多人合作,共同開創未來。