FinBen과 KRX-Bench

1.
우연히 제3회 KRX 금융 언어모델 성능평가 경진대회와 관련한 홍보글을 읽었습니다. “그냥 행사를 하는가 보다”라고 생각하면서 읽다가 생손한 단어가 등장합니다.

한국거래소는 금융과 AI의 융합 기술 선진화에 기여하고, 신뢰할 수 있는 금융 언어 모델의 발전을 유도하기 위해 최신 기술 트렌드를 적극 수용하고 있습니다. 최근 인공지능과 자연어처리 기술의 발전으로 금융 분야에서 언어 모델의 활용 가능성이 크게 확대되고 있습니다. 이에 한국거래소는 금융 특화 언어 모델의 개발과 성능 향상을 촉진하고, 이를 통해 더욱 정확하고 효율적인 금융 정보 분석 및 예측 서비스를 제공하고자 제3회 KRX 금융 언어 모델 성능평가 경진대회를 개최합니다.

본 대회를 통해 참가자들은 금융 특화 언어 모델을 개발하고, 한국거래소와 금융 특화 언어 모델 전문 기업 원라인AI가 공동 개발한 ‘KRX-Bench’를 이용하여 그 성능을 평가받을 수 있습니다. 이 대회는 금융 시장의 효율성을 높이고, 투자자들에게 더욱 정확하고 유용한 정보를 제공하는 데 기여할 것입니다. 또한, 금융 AI 기술 발전의 촉매제 역할을 하며, 한국 금융 시장의 경쟁력 강화에도 크게 기여할 것으로 기대됩니다. 우수한 성능의 금융 특화 언어 모델을 개발하여 대한민국 금융 시장의 새로운 혁신을 이끌어낼 여러분의 참여를 기다립니다.

KRX-Bench. 생소합니다. 무엇인지 궁금해서 확인하였습니다. 우선 기자중 일부입니다.

원라인에이아이(대표 정한얼)은 지난 20일, 이탈리아 토리노에서 열린 글로벌 금융 도메인 자연어 처리 학회인 ‘Financial Technology And Natural Language Processing 2024′(FinNLP 2024)에서 자사의 최신 논문 ‘KRX-Bench: Automating Financial Benchmark Creation via Large Language Models’에 대한 발표를 진행했다고 24일 밝혔다.

원라인에이아이는 금융 도메인을 중심으로 한글 언어모델의 연구 및 개발과 함께 한글 벤치마크 데이터셋의 발전에 기여하고 있는 기업으로, 국내외 여러 기업 및 학회와 협력하여 고급 언어 모델을 활용한 연구와 서비스 개발을 진행하고 있다.

이번 FinNLP 2024에서 발표하게 된 원라인에이아이의 논문은 ‘KRX-Bench: Automating Financial Benchmark Creation via Large Language Models’이다. 원라인에이아이와 한국거래소(KRX)는 작년 KRX 오픈이노베이션 프로젝트를 통해 금융 언어모델의 성능을 종합적으로 평가할 수 있는 벤치마크인 ‘KRX-Bench’를 개발하였으며, 해당 벤치마크에 대한 긍정적인 성능을 확인하여 발표했다고 회사는 설명했다. 이 벤치마크는 한국을 포함하여 미국, 일본 금융 언어모델을 변화하는 금융시장 상황을 반영하는 평가할 수 있는 종합적인 프레임워크를 제안한다. 연구를 주도한 손규진 원라인에이아이 연구원이 현장에서 직접 발표를 진행하였다.
원라인에이아이, 한국거래소와 ‘KRX-Bench’발표 – 국제 학회 ‘FinNLP 2024’ 참가중에서

기사중 논문은 KRX Bench: Automating Financial Benchmark Creation via Large Language Models에서 확인하실 수 있습니다. 발표논문은 영어입니다. 경진대회에 가면 논문을 간단히 한글로 정리한 자료가 있습니다.

Download (PDF, 4.12MB)

Download (PDF, 834KB)

2.
KRX-Bench가 무엇인지 알아보았는데.. 원점에서 질문을 해봅니다.

LLM의 벤치마크란?

이와 관련하여 LLM 성능, 어떻게 평가하는 것일까? (feat. lm-eval-harness)에서는 아래와 같이 소개합니다.

우리가 대학에 가기 위해 수능을 치르듯이, LLM도 자신의 학습된 지식과 능력을 평가받는 시험이 필요합니다. 이 시험이 바로 벤치마크입니다.위 표에 나와 있는 벤치마크들은 언어 모델의 성능을 다양한 분야에서 측정하는 데 사용됩니다.모델이 언어를 얼마나 잘 이해하는지, 추론 능력이 있는지, 그리고 다양한 지식을 바탕으로 문제를 해결할 수 있는지를 평가하는 것이죠.이러한 벤치마크는 모델이 각 영역에서 얼마나 뛰어난 성능을 보이는지, 정량적으로 평가할 수 있는 중요한 도구입니다.

수능 시험은 공신력이 있는 기관이 주관하여 수험생의 지식을 최대한 객관적으로 평가할 수 있도록 잘 정제된 문제들로 평가를 합니다.언어 모델도 마찬가지로 평가의 목적에 맞게 정제된 문제들을 만들어 내야 하는데요, 다행히 이미 여러 기관에서 제공하는 잘 만들어진 평가 벤치마크 데이터들이 존재합니다.

KRX-Bench와 위 설명을 연결하면 어느 정도 이해가 가능합니다. KRX-Bench외에 금융 벤치마크도구들이 많습니다. FinBen: A Holistic Financial Benchmark for Large Language Models을 보면 아래와 같은 부분이 있습니다.

Existing financial domain evaluation benchmarks including PIXIU (Xie et al., 2023b), FinanceBench (Islam et al., 2023) and BizBench (Koncel-Kedziorski et al., 2023), have Limited Evaluation Tasks and primarily focus on Financial NLP Tasks (As shown in Table 1). Most existing benchmarks cover only a small number of evaluation tasks and are centered on evaluating NLP capabilities, such as information extraction and QA. While PIXIU stands out by covering the highest number of tasks, it includes only one evaluation task in most categories. This narrow focus limits their ability to comprehensively evaluate LLMs across the diverse and complex landscape of financial applications, such as forecasting, risk management, and decision-making. It is insufficient for a thorough evaluation of LLM capabilities, especially in the financial area.

To bridge this gap, we propose FinBen, a novel comprehensive open-source evaluation benchmark developed through the collaborative efforts of experts in both computer science and finance. FinBen comprises 36 datasets spanning 24 financial tasks, meticulously organized to assess LLMs across seven critical aspects: information extraction (IE), textual analysis (TA), question answering (QA), text generation (TG), risk management (RM), forecasting (FO), and decision-making (DM). Each category targets specific skills of financial data handling and analysis, ensuring a thorough evaluation of LLMs and showcasing their proficiency in managing complex financial scenarios.

Download (PDF, 7.05MB)

FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets을 보면 Financial Large Language Models 을 여럿 소개하고 있습니다.

• FinBert [2] is a dedicated model for financial sentiment analysis with under one billion parameters, fine-tuned on a rich financial corpus to excel in finance-specific tasks.
• FLUE [23] offers a benchmark derived from five varied financial datasets, acting as an exhaustive evaluation tool for financial language understanding. Its derivative model,
FLANG-BERT, outperforms FinBert on these datasets due to domain-specific enhancements.
• BloombergGPT [33] is a closed-source model based on BLOOM, trained extensively on diverse financial datasets, thereby encapsulating a broad spectrum of the financial domain.
• FinGPT [37, 39, 36] is an open-source LLM, fine-tuned from a general LLM using low-rank adaptation methods [9], fostering accessibility for the broader community.
• PIXIU [34] functions as an evaluation benchmark and an instructional dataset. Its focus is solely on the dataset benchmark, exclusively evaluating models derived from Llama withoutconsidering other open-source LLMs.

Download (PDF, 314KB)

3.
오래 전 BloombergGTP와 IndexGPT를 넘어서 FinGPT로에서 금융 LLM을 소개한 적이 있습니다. FinGPT: Open-Source Financial Large Language Models와 관련하여 이후에 많은 글들이 나왔습니다.

FinGPT: Open-Source Financial Large Language Models (2023)은 논문 자체를 우리말로 설명하고 있습니다. 아래는 Yujh님이 Medium에 올린 사용방법입니다.

ChatGPT와 함께하는 FinGPT 정복기 1
ChatGPT와 함께하는 FinGPT 정복기 2
ChatGPT와 함께하는 FinGPT 정복기 3
ChatGPT와 함께하는 FinGPT 정복기 4
ChatGPT와 함께하는 FinGPT 정복기 5
ChatGPT와 함께하는 FinGPT 정복기 6

FinGPT이후 금융LLM분야에서 어떤 변화가 있을까요? A Survey of Large Language Models in Finance (FinLLMs)가 제공한 도표입니다.


Download (PDF, 873KB)

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.