中國植物志/云南植物志問答系統(tǒng)正式上線服務(wù)
植物志書中記載了植物的分類信息、描述信息、分布信息和用途信息等,由于植物的描述信息、分布信息和用途信息主要以非結(jié)構(gòu)化的文本內(nèi)容為主,因此傳統(tǒng)檢索植物志的方法主要是按結(jié)構(gòu)化程度較高的植物分類信息進(jìn)行檢索,如:輸入植物的中文名稱或拉丁名稱檢索植物的信息(中國植物物種信息數(shù)據(jù)庫,https://db.kib.ac.cn/Default.aspx)。
大語言模型經(jīng)過多年的快速發(fā)展,其對自然語言的處理能力已非常成熟,但使用通用大語言模型查詢植物的相關(guān)信息時依然會出現(xiàn)幻覺(如圖1,使用DeepSeek問了一個并不存在的物種拉丁名Arachis cuspidata),其原因主要是由于通用大語言模型是基于概率計算生成文本答案。
圖1DeepSeek出現(xiàn)幻覺示例
如何實現(xiàn)以自然語言的方式對植物志進(jìn)行檢索并降低通用大語言模型出現(xiàn)幻覺的概率呢?中國科學(xué)院昆明植物研究所科學(xué)數(shù)據(jù)中心基于大語言模型、數(shù)據(jù)庫、知識圖譜和知識庫等技術(shù),通過對植物志數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取、組織加工、圖譜構(gòu)建和知識向量化,構(gòu)建了結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫、基于知識圖譜的圖數(shù)據(jù)庫和向量化知識庫,從而研發(fā)實現(xiàn)基于大語言模型技術(shù)和數(shù)據(jù)融合的中國植物志/云南植物志問答系統(tǒng)(如圖2,http://agent.iflora.cn:8080),相對于傳統(tǒng)的檢索植物志方法,本問答系統(tǒng)具有更靈活的檢索方式,如可輸入任意自然語言進(jìn)行檢索植物信息,且相對于通用大語言模型具有更高的準(zhǔn)確性。
圖2中國植物志/云南植物志問答系統(tǒng)
該項工作得到了云南省技術(shù)創(chuàng)新人才培養(yǎng)對象和中國科學(xué)院昆明植物研究所所級中心能力建設(shè)等項目的支持。
版權(quán)聲明: 1.依據(jù)《服務(wù)條款》,本網(wǎng)頁發(fā)布的原創(chuàng)作品,版權(quán)歸發(fā)布者(即注冊用戶)所有;本網(wǎng)頁發(fā)布的轉(zhuǎn)載作品,由發(fā)布者按照互聯(lián)網(wǎng)精神進(jìn)行分享,遵守相關(guān)法律法規(guī),無商業(yè)獲利行為,無版權(quán)糾紛。 2.本網(wǎng)頁是第三方信息存儲空間,阿酷公司是網(wǎng)絡(luò)服務(wù)提供者,服務(wù)對象為注冊用戶。該項服務(wù)免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網(wǎng)絡(luò)地址:www.arkoo.com 3.本網(wǎng)頁參與各方的所有行為,完全遵守《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》。如有侵權(quán)行為,請權(quán)利人通知阿酷公司,阿酷公司將根據(jù)本條例第二十二條規(guī)定刪除侵權(quán)作品。 |