打造金融领域专属AI 彭博开发BloombergGPT

2023年4月5日 16:00

彭博于3月31日发表研究论文详述BloombergGPT的开发。（图：翻摄彭博官网）

立即订阅亚视新闻 YouTube，即时掌握时事发展。

小中大

美国金融信息公司彭博（Bloomberg）最近宣布开发自有聊天机器人BloombergGPT，旨在推出专注于金融领域的人工智能（AI）信息处理应用程序，以提供更好的功能和服务给客户和记者。

据美国新闻业网站尼曼实验室（Nieman Lab）报道，彭博于3月31日发表研究论文详述BloombergGPT的开发。据彭博介绍，BloombergGPT是一个新的大规模生成式AI模型，专门锁定范围广泛的金融数据来训练生成，目的为了支持多元化的金融产业自然语言处理（NLP）任务集。

彭博：金融产业需有专属模型

彭博表示，近期以大型语言模型为基础的人工智能发展，已在许多领域展示出令人振奋的新应用；但金融领域因其复杂性及具有专门术语，有必要有专属模型。因此BloombergGPT的推出，代表将聊天机器人这项新科技开发应用到金融产业的第一步。

彭博指出，BloombergGPT将协助其改善现有金融相关自然语言处理的任务，例如文本情感分析、命名实体辨识（NER）、新闻分类、回答问题和其他功能。此外，它也创造新机会来排列可从彭博终端机取得的巨量数据，以提供客户更好的协助。

至今最大的特定领域数据集

至于BloombergGPT的训练规模，彭博表示它的语料库有7000亿余个token（字词碎片）。相较之下，热门聊天机器人ChatGPT的开发公司OpenAI在2020年推出的模型GPT-3，训练的语料库则约有5000亿个token。

据彭博表示，BloombergGPT的语料库有7000亿余个词片段，其中3630亿个词片段取自彭博自有金融数据，即来自彭博终端机的数据库，彭博称这是至今最大的特定领域数据集；其余3450亿个词片段则取自其他来源的通用数据集。

彭博还说，训练数据分为财经类FinPile和一般The Pile两类。其中，FinPile包括彭博档案库中的各类英文金融文件，如新闻文章、公告、新闻稿、网页内容和社群媒体数据，以及彭博记者撰写的新闻以外所有的新闻来源。至于The Pile，则是庞杂的语料库，来源从YouTube的画面截取、文艺数字化的古腾堡计划（Project Gutenberg）到AI训练常见的安隆公司（Enron）电邮快取。

金融记者饭碗不保？

据尼曼实验室的文章表示，按照其训练原理，BloombergGPT应该具有像ChatGPT的功能，但此外也能处理与彭博需求更相关的任务，例如将自然语言指令翻译成彭博查询语言（Bloomberg Query Language）终端机的使用者偏好功能。

BloombergGPT是一個強大的語言模型，它可以為新聞文章提供符合彭博新聞風格的標題建議。此外，BloombergGPT還能夠更好地處理商業相關的問題，包括文本情感分析、分類、資料提取和其他相關任務。這使得BloombergGPT成為商業領域中的一個有力工具。

打造金融领域专属AI 彭博开发BloombergGPT

彭博：金融产业需有专属模型

至今最大的特定领域数据集

金融记者饭碗不保？

相关新闻：

韩防疫部门：英变异株正向全境扩散

马拉多纳逝世医疗团队面临过失杀人正式受调查

拜登与文在寅愿意与朝鲜对话同意在台湾议题共同合作

美财政部提议：一万美元以上加密货币转账需向国税局报告

小商与贫困阶层恐断坎马来西亚不全面封锁

世卫组织：因新冠肺炎死亡人数可能“严重低估”

彭博：金融产业需有专属模型

至今最大的特定领域数据集

金融记者饭碗不保？

相关新闻：

韩防疫部门：英变异株正向全境扩散

马拉多纳逝世 医疗团队面临过失杀人正式受调查

拜登与文在寅愿意与朝鲜对话 同意在台湾议题共同合作

美财政部提议：一万美元以上加密货币转账需向国税局报告

小商与贫困阶层恐断坎 马来西亚不全面封锁

世卫组织：因新冠肺炎死亡人数可能“严重低估”

马拉多纳逝世医疗团队面临过失杀人正式受调查

拜登与文在寅愿意与朝鲜对话同意在台湾议题共同合作

小商与贫困阶层恐断坎马来西亚不全面封锁