當(dāng)前預(yù)訓(xùn)練大語言模型的蓬勃發(fā)展為面向科學(xué)文獻(xiàn)的領(lǐng)域NLP(Natural Language Processing ,?NLP)任務(wù)帶來了新的前景。我中心大數(shù)據(jù)部與國家納米科學(xué)中心合作,構(gòu)建了大模型增強的電催化還原和合成過程的開源數(shù)據(jù)集,幫助催化領(lǐng)域科學(xué)家快速發(fā)現(xiàn)新型高效催化劑并完成制備,同時發(fā)布了基于電催化領(lǐng)域文獻(xiàn)預(yù)訓(xùn)練和標(biāo)注數(shù)據(jù)指令微調(diào)后的大模型參數(shù),為催化材料領(lǐng)域的其他生成式任務(wù)提供模型支持。該研究成果在Nature數(shù)據(jù)子刊Scientific?Data上發(fā)表。大數(shù)據(jù)部陳雪青、王露笛為論文共同第一作者,杜一研究員為論文共同通訊作者。
該成果得到重點研發(fā)計劃青年科學(xué)家項目“基于領(lǐng)域知識圖譜的光電催化材料挖掘軟件”以及國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心等項目的支持。
語料庫構(gòu)建的整體框架及合成過程拆解流程
論文鏈接:
https://www.nature.com/articles/s41597-024-03180-9
數(shù)據(jù)庫鏈接:
https://doi.org/10.57760/sciencedb.13290;
https://doi.org/10.57760/sciencedb.132924;
https://doi.org/10.57760/sciencedb.13293。
責(zé)任編輯:郎楊琴