在金融限制的特有布景下,MME-Finance 将多模态大模子的能力紧密分散为三个脉络。最基础的脉络是视觉感知能力,它指模子索乞降相识图像中的视觉信息的能力,因此组成了多模态大模子的中枢与通用能力。基于该能力,MME-Finance 假想了四类任务:图片纲目、OCR (光学字符识别)、实体识别和空间感知。中间脉络则是逻辑推理能力,它代表了多模态大模子在金融限制进行数值计较的能力。本基准中的关系任务包括精准数值计较和揣度数值计较。两者之间的主要区别在于,揣度数值计较需要笔据图像中的位置关系等踪迹来预估数值,而非平直索求。最高脉络是复杂的通晓有狡计能力,涵盖了风险请示、投资提议、原因讲解和金融常识问答四大任务。以下表格展示了每类任务的样本数目统计服从:
❍数据网罗过程
为了确保网罗的图片更靠拢履行讹诈场景,MME-Finance 的通盘图片均由专科标注东谈主员从主流金融 APP 中获得。这些图片被分为六大常见类型: K 线图、本事狡计图、表格、统计图、文档和搀和图。为了丰富图片的作风,咱们针对换取内容,分别积攒了四种不同作风的图片,包括电脑截图、手机拍照、手机竖屏截图和手机横屏截图。具体过程如下图所示:
张开剩余60%领先,标注东谈主员通过电脑在 APP 中寻找稳妥的金融图片,并进行截图。然后,他们使用手机拍摄团结内容 (举例团结家公司的 K 线图),并分别进行竖屏和横屏的截屏。这一系列操作旨在保证图片作风的种种性。
种种图片类型及作风的数目如下图所示,图片类型中统计图的数目最多,搀和图数目最少;图片作风中,电脑截图数目最多,手机竖屏截图数目最少。
❍问答对生成过程
为了生成高质地的图片问题对,咱们秉承了一套蚁合 GPT-4o 与东谈主工审核的标注过程。具体过程如下图所示:领先,咱们将图片及生成问题的 prompt 输入 GPT-4o,以便其为每个任务生成相应的问题。这些生成的问题随后将经过东谈主工审核,不对适的问题会被剔除或修改。经过筛选后的图片问题对及生成谜底的 prompt,再次输入 GPT-4o,以获得初步的谜底。接着,这些谜底将由金融大众进行进一步的筛选和修正,最终造成高质地的数据集。
❍评估阵势
MME-Finance 的问题形势为灵通类型,因此评估此类问题的谜底相较于采选题类型更具挑战性。为此,咱们假想了一整套过程,以提高评估的准确性。具体过程如下图所示:在模子推理过程中欧洲杯体育,咱们对模子输出的形势进行了一定的戒指,以便于后续的评估职责。咱们秉承大型模子进行评估,将问题、模子修起、圭臬谜底、图片以及评估 prompt 一并输入评估模子。评估 prompt 中包含了每类任务的评估圭臬及相应的评估示例,以进步模子的评估精度。最终评估模子输出瞻望得分,评分畛域为六级,从低到高按序为 0 至 5 分。经过实验考据,咱们发现 GPT-4o 算作评估器,具有最高的东谈主类一致性。
发布于:湖南省