人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

基于兔靈大模型的AIGC內容引擎,讓人類敘事更生動高效

8月30日,由微新創想主辦的2023AIGC技術應用大會在深圳舉行。本屆大會以“元載萬物·智啟新界”為主題,旨在聚焦AIGC技術的創新應用,打造深入探索AIGC產業落地的交流平臺。

會上,兔展智能創始人、董事長兼CEO董少靈在《基于兔靈大模型的AIGC內容引擎,讓人類敘事更生動高效》演講中的精彩觀點如下:

1.生圖和語言表達只是人類敘事里的一部分,我們把人類敘事拆分成三個關鍵環節,分別為:交互體驗、感官視覺、知識理解;

2.圖形交互和語言交互的結合使用,才是真正創造內容時更高效的一種手段;

3.我們在做大模型的同時會兼顧重點推出落地的應用,因為沒有應用就沒有最終的社會價值。

以下為演講內容,由微新創想整理:

今天是我們第一次系統地把兔展以視覺為核心的多模態大模型的全貌對外進行分享,同時還包括在探索道路上的一些思考。

十年前,我還在北大讀書時,移動互聯網的浪潮撲面而來。當時,我抓到了一個根本的機遇是移動端吸引了大部分人的注意力,但是卻沒有任何的表達工具,無論是WPS、Adobe都是for PC的。

所以,在十年之前,我們正式進入了讓人類敘事更加高效、生動的鏈路中去,研發了最初的移動互聯網時代的富媒體表達工具。

過了十年,從去年11月到今年,我相信這是一段令人沸騰的時期,美國人終于把我們夢想多年的自動生產內容的道路、一個更加智能體的可能性走通了。

那么,到底這一波底層顆粒度更細的原理是什么?這一波為什么會發生?我和很多該領域的科學家和從業伙伴一起交流過,但大家其實并沒有一個對原理層完整、準確的解釋,但是我認為有兩位哲學家從哲學的方向性上已經給了我們一些答案。

實際上,現今人類知識的教授是以康德的純粹批判理性為基礎的,認為人類的知識可以橫平豎直地被分成很多學科,然后在每一個學科里有它最底層的公理、定理,在此基礎上可以再做很多推演,得到更多細分應用型的知識。

而維特根斯坦很早就提出,他不認為人類的知識可以被橫平豎直的有效劃分,而更認為其實很多重要的知識和發現都會在混沌和交叉之處,他也是最早提出語言是通向智慧的核心道路這一命題的哲學家。

所以,今天我認為從哲學角度可以說,在傳統一代的哲學家中,維特根斯坦得到了勝利,而當代比較重要的一位哲學家,也是對這一次生成式人工智能的突破有比較大貢獻的是數學家沃爾弗拉姆。OpenAI DP插件中就有一個名為沃爾弗拉姆的插件。沃爾弗拉姆是一位數學家,包括大家曾經學習數學時用過的Mathematica,就是他公司的作品。

我認為這是從哲學上給予我們引導和方向性指引的兩位智者,也是我們前行中重要的心理得以安寧的基石,也是我們做很多重要探索的哲學基石。

關于人類的敘事表達,比爾蓋茨和圖靈都有自己的論述,他們都認為人工智能和新技術是人類能夠更好地表達自己、傳遞信息、接收信息的前提。

人類的表達到底有哪些環節?現如今,無論是西方還是中國,Midjourney、Stable Diffusion、ChatGPT都是非常火的應用或者說底層模型。

但實際上,生圖和語言表達只是人類敘事里的一部分。我們可以把人類敘事整個拆分成三個關鍵的環節,分別為:交互體驗、感官視覺、知識理解。

例如,前些日子由于要加速我們股東的工商變更,我直接去到深圳的公務辦事大廳。當時,我所在的17號窗口,兩邊各有一位女士,對面是一位工作人員。左邊女士在和工作人員仔細論證說:一個藝人有限公司能否變成另一個藝人有限公司的股東。然后這個工作人員也無法解釋“公司法”第58條的內核,這位女士也不懂“公司法”第58條是什么。我在旁觀的過程中,聽著他倆聊了10分鐘。

實際上,雙方既見面了,也發生動作了,但互相理解不了說話的內容,這就是一個知識理解的問題。很多復雜的知識在這一波生成式人工智能到來之前,其實是無法傳遞的。

這樣的情況還會發生在金融、法律、醫藥等服務領域,這些原來需要經過重度學習才能掌握的復雜知識領域,都存在著這樣的困境。

我再講一個例子,這與理解和交互都有關。例如你在銀行APP里查詢“如何在附近的支行網點取到泰銖”,會得到怎樣的體驗?原來的GUI交互設計并沒有用,去鄰近的網點詢問也沒有用(若是該網點沒有就是沒有),那么你打電話問客服有用嗎?可能有用。客服會告訴你一個肯定正確的答案,也就是會讓你去深圳分行營業部兌換,但是什么時候能去、要不要排隊、能拿多少一概不知。

這就是整個人類敘事和交互過程中的典型問題,而這些問題我認為在這一波生成式人工智能時代是可以得以解決的,但是它絕不是單獨生成一張圖、單獨對話一次那么簡單的。

由此,我們在這個問題上也在糾結,我認為生成式人工智能比較核心的兩大模態,分別是自然式語言、自然式視覺,這兩者又不完全是一個領域。

我相信很多從業者也會有這樣的問題,若是做語言模型從何做起?做語言應用從何做起?若是做圖像、做CV從哪做起?我們自己的起步其實是離CV更近的。

但是在這一波生成性人工智能浪潮中,語言模態的突破又是核心,它是讓上述核心問題得以發生根本性變化的一個非常核心的、牽引性的環節,所以在這一波浪潮到來之前,我們核心解決的是這三大問題中的交互體驗與部分的視覺感官問題。

這也是9年獲得9輪融資、擁有29個外部股東、在頭部行業覆蓋率超過70%的兔展所在做的事情:從一個簡單的H5工具進化成一個讓所有交互控制的前端代碼都能自動生產的第四代前端三劍客工具,并且能夠對圖像、視頻進行基本的處理,但是高端的坦率來講還是要基于Adobe。

我們也把這其中一部分成果發表了論文,一部分技術環節也進行了開源。我們也和北大聯合開發ChatLaw大模型,是目前為止在垂直領域跑分第一的大模型。這也是出于我們在語言模態為了讓法律知識變得更觸手可得、更簡單而研發的。

針對前面我遇到的真實場景,我最終的解決方案就是打開了ChatLaw,讓他倆都在里面聊了一下,然后我就迅速排上了隊,得以解決了自己的問題。

另外,前段時間一些媒體報道稱DragonDiffusion、Language User Interface是這一次浪潮中特別重要的人機交互手段,但實際上它并不是唯一。

你若是和AI試圖表達說,“我要把這個凳子往那邊移15度、5米”,你不如用手把它拖過去。所以,圖形交互和語言交互的結合使用,才會是真正創造內容時更高效的一種手段。

DragonDiffusion是我們和北大原創的一個大模型,能夠實現圖形和語義雙模態交互下的內容生產,目前已經發布并且有了早期的開源版。我們9月將發布DragonDiffusion的一個分支,這是國內第一款能直接用模型生成各種各樣中文字體的大模型。

到目前為止,沒有一款能夠直接生產一套完整中文字體的公開的工具。如果你可以生產出類似于英文和韓文之間的一種字符,那么這必然是用stable diffusion套殼的。

Dragon CN Encoder則是解決CV領域的幻覺問題的一個重要的科研工具。前期,我們團隊和騰訊發布了AI繪圖工具T2I-adapter,比ControlNet晚一周,但實際上在部分領域,T2I-adapter的性能比ControlNet還要好。

開發了Stable diffusion的Stability AI公司最近推出的Stable Doodle其實就是基于T2I-adapter做的。我們在9月也會推出DragonAdapter,會在T2I-adapter的基礎之上再做升級。

在兔展AIGC內容云的整體框架中,上層會產生一些應用,包括:

1、在交互領域,對我們耕耘9年的領域進一步升級,Dragon Code(智碼)產品可以自動生產代碼,尤其是在前端代碼上,可以減少95%以上的人力;

2、在理解領域已經發布的ChatLaw;

3、我們最近會發布ChatDocument(暫定名),大家每天在微信里會收到大量信息,你可以通過這個工具自動幫你摘要完,并且你可以多輪問詢獲得更進一步的信息抽取,包括圖表的交叉分析;

4、我們未來也會發布ChatFinance,輔助用戶進行股票研究,提升金融數據分析效率

5、最后是我們的老本行,也就是圖形和語義雙料交互的中國版的、超越Stable Diffusion的工具——Chat&Drag-Image(智圖)。

講回模型領域,我們公司本身不做客服,也不做NLP,北大傳統的優勢項目其實也是CV,所以我們沒有在語言模態上糾結太多的底層科研問題,我們就只重點攻關了一件事——防幻覺。

在這一波浪潮里的一個基礎機理,就是對下一個詞的預測以及概率可行。這其實與我們在視覺模態里核心糾結精準控制生產其實最終是一脈相承的。

ChatGPT在具體的垂直領域應用中,會把這個世界上本來不存在的法律和案例進行胡編亂造,這也是很多專業人士最核心的苦惱。

我們預計在9月28日會發表一篇題為《在生成式人工智能時代,如何解決精準與防幻覺的問題?》的論文。我們首個法律大模型產品ChatLaw在垂直領域的跑分至今未被超越,這也是我們很遺憾的一件事情。

以下是我們重點打造的場景:

1、多場景復用:普惠法律服務

實際上,在很多復雜的知識領域,中國有十幾億人沒有任何的法律手段,沒有任何對金融知識理解的辦法,沒有任何有效健康管理的方法,這是我們重要的使命之一。

所以,ChatLaw雖然獲得了1萬多家大型企業、律師事務所和政府相關部門的詢問,但我們現在第一批落地的全部是在公共法律服務領域。我們的初心就是讓更多人有機會理解復雜事物,避免耽誤自己人生里最重大的事情,希望在這個領域能做出一點貢獻。

我們的思路就是如何讓多模態化為可行。比如,以前我們撥打法律援助電話12348,并不支持上傳錄像、錄音和做法律意見總結。所以,我們認為在讓十幾億人有法律幫助這件事情上,必須要把它做成多模態,實際我們也是這么做的。

2、微信文件摘要場景應用:ChatDocument(暫定名)

我們近期會推出微信文件摘要場景應用ChatDocument,目前已經基本研發完畢,正在走各種備案和審核流程。其實,Chatknowledge就是我們防幻覺語言模型里的一個通用性的應用。

例如,每天有很多人發各種各樣的材料問你,這家AI公司靠不靠譜?那家AI底層是不是吹牛?這家公司到底是不是套殼Stable diffusion?未來,我會先用這款工具簡單分析下這些人的問題和發來的材料,然后在此基礎上我再進行回答。

3、金融研究應用場景:ChatFinance(暫定名)

金融其實是我們過去9年最核心的付費領域。我們想借助語言模態讓金融知識更加的普惠。

4、AI圖像引擎:DragonDiffusion

我們前段時間發布了DragonDiffusion的公開版,用戶只需要進行框選和拖拽,就可以輕松實現AI圖像編輯和再生成,而這是Stable diffusion所無法做到的。

5、AI圖像引擎:DragonAdapter

DragonAdapter是用于文本到圖像擴散模型的控制器,是在T2I-Adapter模型的基礎上升級迭代而來。讓我們也很高興的一點是,開發了Stable diffusion的Stability AI公司近日發布的最新涂鴉生圖工具Stable Doodle其工具底層也是用了T2I-Adapter作為核心控制技術,這可能是國內唯一一個有效的控制模型了。

6、AIGC內容云應用:智圖

我們已經有一部分頭部客戶在使用。目前,智圖這款產品在底層、上層應用體驗還有待完善,會稍后時間發布,但目前我們已經有一些頭部客戶在每天的工作流里真實在使用。

最后,我們之所以做大模型的底層邏輯就是會重點推出一些應用,因為沒有應用就沒有最終的社會價值,但是我們也非常重視一定要有底層突破,把真正的要素控得更牢一點。

我們擁有900+TB的全網營銷存量數據的積累,又有1500萬政企的存量用戶以及在金融、醫藥、政務服務等場景里有我們一定的理解。基于此,我們進一步把另外的要素進行加強。

我們長期要做的一件事就是幫助人類敘事更加科學、更加高效。在科學策略里,我們也有一些獨到的產品,包括視頻號里最有效的數據工具——視頻號精靈、全網廣告的洞察投放ROI工具——EDX,以及我們在垂直領域與產業做重度結合的一方數據的策略產生——金融醫藥營銷云。

以上是我們過去9年所做的努力,希望能夠在今天這個節點帶給大家一些思考。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注