打造金融领域专属AI 彭博开发BloombergGPT

立即订阅亚视新闻 YouTube,即时掌握时事发展。

美国金融信息公司彭博(Bloomberg)最近宣布开发自有聊天机器人BloombergGPT,旨在推出专注于金融领域的人工智能(AI)信息处理应用程序,以提供更好的功能和服务给客户和记者。

据美国新闻业网站尼曼实验室(Nieman Lab)报道,彭博于3月31日发表研究论文详述BloombergGPT的开发。据彭博介绍,BloombergGPT是一个新的大规模生成式AI模型,专门锁定范围广泛的金融数据来训练生成,目的为了支持多元化的金融产业自然语言处理(NLP)任务集。

彭博:金融产业需有专属模型

彭博表示,近期以大型语言模型为基础的人工智能发展,已在许多领域展示出令人振奋的新应用;但金融领域因其复杂性及具有专门术语,有必要有专属模型。因此BloombergGPT的推出,代表将聊天机器人这项新科技开发应用到金融产业的第一步。

彭博指出,BloombergGPT将协助其改善现有金融相关自然语言处理的任务,例如文本情感分析、命名实体辨识(NER)、新闻分类、回答问题和其他功能。此外,它也创造新机会来排列可从彭博终端机取得的巨量数据,以提供客户更好的协助。

至今最大的特定领域数据集

至于BloombergGPT的训练规模,彭博表示它的语料库有7000亿余个token(字词碎片)。相较之下,热门聊天机器人ChatGPT的开发公司OpenAI在2020年推出的模型GPT-3,训练的语料库则约有5000亿个token。

据彭博表示,BloombergGPT的语料库有7000亿余个词片段,其中3630亿个词片段取自彭博自有金融数据,即来自彭博终端机的数据库,彭博称这是至今最大的特定领域数据集;其余3450亿个词片段则取自其他来源的通用数据集。

彭博还说,训练数据分为财经类FinPile和一般The Pile两类。其中,FinPile包括彭博档案库中的各类英文金融文件,如新闻文章、公告、新闻稿、网页内容和社群媒体数据,以及彭博记者撰写的新闻以外所有的新闻来源。至于The Pile,则是庞杂的语料库,来源从YouTube的画面截取、文艺数字化的古腾堡计划(Project Gutenberg)到AI训练常见的安隆公司(Enron)电邮快取。

金融记者饭碗不保?

据尼曼实验室的文章表示,按照其训练原理,BloombergGPT应该具有像ChatGPT的功能,但此外也能处理与彭博需求更相关的任务,例如将自然语言指令翻译成彭博查询语言(Bloomberg Query Language)终端机的使用者偏好功能。

BloombergGPT是一個強大的語言模型,它可以為新聞文章提供符合彭博新聞風格的標題建議。此外,BloombergGPT還能夠更好地處理商業相關的問題,包括文本情感分析、分類、資料提取和其他相關任務。這使得BloombergGPT成為商業領域中的一個有力工具。

相关新闻:

Back to top button