요듬 AI 요즘 월스트리트 – Continual learning

1.
Geeknews에 올라온 매력적인 제목.

Why I don’t think AGI is right around the corner

구글링을 하면 ‘코 앞이다’라는 식으로 번역하지만 ‘눈 앞이다’로 하면 어떨까 합니다.

“눈 앞에 다가온 AGI시대, 사실이 아닙니다.”

OpenAI의 Sam Altman이 AGI가 가까운 미래라는 주장을 합니다. 이를 두고 설왕설래중입니다. Hackernws에 올라온 I don’t think AGI is right around the corner 댓글도 역시나 다양합니다.

앞서 글을 DeepML로 번역하였습니다. 번역중에서 핵심적으로 등장하는 개념은 Continual Learning입니다.

“일은 생각보다 오래 걸리고, 생각보다 빨리 일어날 수 있습니다.” – 루디거 도른부쉬

저는 팟캐스트에서 AGI에 대한 타임라인을 흥정하는 토론을 많이 해왔습니다. 어떤 게스트는 20년, 어떤 게스트는 2년이라고 생각하기도 합니다. 2025년 6월 현재 제 생각은 이렇습니다.

지속적인 학습

때때로 사람들은 모든 인공지능의 발전이 완전히 멈추더라도 오늘날의 시스템이 인터넷보다 훨씬 더 경제적으로 혁신적일 것이라고 말합니다. 저는 동의하지 않습니다. 저는 오늘날의 LLM이 마법과도 같다고 생각합니다. 하지만 포춘 500대 기업이 워크플로우를 혁신하기 위해 이를 사용하지 않는 이유는 경영진이 너무 고루해서가 아닙니다. 그보다는 LLM에서 인간다운 노동력을 끌어내는 것이 정말 어렵기 때문이라고 생각합니다. 이는 이러한 모델에 부족한 몇 가지 근본적인 역량과 관련이 있습니다.

하지만 근본적인 문제는 LLM은 시간이 지나도 사람처럼 더 나아지지 않는다는 것입니다. 지속적인 학습이 부족하다는 것은 큰 문제입니다. 많은 작업에서 LLM의 기준선은 평균적인 인간보다 높을 수 있습니다. 하지만 모델에 높은 수준의 피드백을 줄 수 있는 방법은 없습니다. 기본으로 제공되는 능력에 갇혀 있을 수밖에 없습니다. 시스템 프롬프트를 계속 조작할 수 있습니다. 하지만 실제로는 인간 직원이 경험하는 학습과 개선에 가까운 결과를 얻지 못합니다.

인간이 유용한 이유는 원시 지능 때문이 아닙니다. 그것은 맥락을 구축하고, 자신의 실패를 질문하고, 작업을 연습하면서 작은 개선과 효율성을 포착하는 능력 때문입니다.

아이에게 색소폰 연주를 가르치려면 어떻게 해야 할까요? 아이에게 색소폰을 불게 하고, 소리가 어떻게 나는지 듣고, 조정하게 할 수 있습니다. 이제 이런 식으로 색소폰을 가르친다고 상상해 보세요: 학생이 한 번 시도합니다. 학생이 실수를 하는 순간 학생을 돌려보내고 무엇이 잘못되었는지에 대한 자세한 설명을 적습니다. 다음 학생은 선생님의 악보를 읽고 찰리 파커의 곡을 차갑게 연주하려고 합니다. 학생이 실패하면 다음 학생을 위해 지침을 수정합니다.

이건 효과가 없을 거예요. 아무리 잘 다듬어진 프롬프트가 있더라도 설명만 읽고 색소폰 연주법을 배울 수 있는 아이는 없습니다. 하지만 사용자로서 우리가 LLM에게 무언가를 ‘가르칠’ 수 있는 유일한 방식은 이것뿐입니다.

예, RL 미세 조정이 있습니다. 하지만 인간의 학습처럼 의도적이고 적응적인 과정은 아닙니다. 제 편집자들은 매우 능숙해졌어요. 업무와 관련된 다양한 하위 작업에 대해 맞춤형 RL 환경을 구축해야 했다면 그렇게 되지 못했을 것입니다. 그들은 스스로 사소한 것들을 많이 알아차리고 무엇이 시청자의 공감을 불러일으키는지, 어떤 콘텐츠가 저를 흥분시키는지, 일상적인 워크플로를 어떻게 개선할 수 있는지 열심히 고민했습니다.

이제 더 스마트한 모델이 외부에서 보기에 매우 유기적으로 느껴지는 전용 RL 루프를 스스로 구축할 수 있는 방법을 상상할 수 있습니다. 제가 높은 수준의 피드백을 제공하면 모델이 검증 가능한 연습 문제를 제시하고, 부족한 기술을 연습할 수 있는 전체 환경까지 만들 수도 있습니다. 하지만 이것은 정말 어렵게 들립니다. 그리고 이러한 기술이 다른 종류의 작업과 피드백에 얼마나 잘 일반화될 수 있을지도 모르겠습니다. 결국 모델도 인간처럼 미묘하고 유기적인 방식으로 업무를 학습할 수 있게 될 것입니다. 하지만 온라인을 통한 지속적인 학습을 이런 종류의 모델에 도입할 수 있는 확실한 방법이 없기 때문에 앞으로 몇 년 안에 그런 일이 일어날 수 있을지는 모르겠습니다.

LLM은 실제로 세션 중간에 꽤 똑똑하고 유용하게 활용됩니다. 예를 들어, 저는 가끔 LLM과 에세이를 공동 집필할 때가 있습니다. 제가 개요를 제시하고 에세이 초안을 한 문단씩 써달라고 요청합니다. 4단락까지는 제안한 내용이 모두 엉망입니다. 그래서 전체 단락을 처음부터 다시 써서 “야, 네 글은 형편없어. 대신 이렇게 썼어요.”라고 말하죠. 그러면 다음 단락에 대한 좋은 제안이 나오기 시작합니다. 하지만 세션이 끝날 무렵에는 제 취향과 스타일에 대한 미묘한 이해가 사라집니다.

이에 대한 쉬운 해결책은 Claude Code처럼 세션 메모리를 30분마다 요약으로 압축하는 긴 롤링 컨텍스트 창처럼 보일 수도 있습니다. 이 풍부한 암묵적 경험을 모두 텍스트 요약으로 정리하는 것은 (매우 텍스트 기반인) 소프트웨어 엔지니어링 이외의 영역에서는 취약할 것이라고 생각합니다. 다시 한 번, 자신이 배운 내용을 장문의 텍스트 요약으로 다른 사람에게 색소폰 연주법을 가르치려고 하는 예를 생각해 보세요. 제가 /를 누르기 전에 함께 어렵게 엔지니어링한 최적화를 왜 그렇게 만들었는지에 대한 설명이 요약에 포함되지 않았기 때문에 클로드 코드조차도 종종 뒤집어버릴 것입니다.

이것이 바로 제가 팟캐스트에서 숄토와 트렌튼이 말한 내용에 동의하지 않는 이유입니다(이 인용문은 트렌튼의 말입니다):

“AI 발전이 완전히 멈춘다고 해도(그리고 모델이 정말 뾰족하고 일반적인 지능이 없다고 생각하더라도), 경제적으로 매우 가치가 있고 다양한 사무직 업무에 대한 데이터를 수집하는 것이 충분히 쉬워서 Sholto의 말대로라면 향후 5년 이내에 자동화될 것으로 예상할 수 있습니다.”

지금 AI의 발전이 완전히 멈춘다면 사무직 고용의 25% 미만이 사라질 것이라고 생각합니다. 물론 많은 업무가 자동화되겠죠. 클로드 4 오푸스는 기술적으로 자동 생성된 트랜스크립트를 다시 작성할 수 있습니다. 하지만 시간이 지남에 따라 개선되고 제 선호도를 학습하는 것은 불가능하기 때문에 저는 여전히 사람을 고용하고 있습니다. 더 많은 데이터를 확보하더라도 지속적인 학습의 진전이 없다면 사무직과 거의 비슷한 위치에 놓이게 될 것이라고 생각합니다. 기술적으로는 AI가 많은 하위 작업을 어느 정도 만족스럽게 수행할 수 있겠지만 컨텍스트를 구축하지 못하기 때문에 회사에서 실제 직원으로 운영하기는 불가능할 것입니다.

이 때문에 저는 향후 몇 년 동안의 혁신적 AI에 대해서는 비관적이지만, 향후 수십 년 동안의 AI에 대해서는 낙관적입니다. 지속적인 학습을 해결하면 모델의 가치에 큰 불연속성이 생기는 것을 보게 될 것입니다. 소프트웨어만의 특이점(모델이 더 똑똑하고 더 똑똑한 후속 시스템을 빠르게 구축하는 것)이 없더라도 우리는 여전히 광범위하게 배포된 인텔리전스 폭발처럼 보이는 무언가를 보게 될지도 모릅니다. AI는 경제 전반에 걸쳐 광범위하게 배치되어 다양한 업무를 수행하고 인간과 같은 방식으로 업무를 수행하면서 학습하게 될 것입니다. 하지만 인간과 달리 이러한 모델은 모든 모델에 걸쳐 학습한 내용을 통합할 수 있습니다. 따라서 하나의 AI는 기본적으로 세상의 모든 일을 수행하는 방법을 학습합니다. 온라인 학습이 가능한 AI는 추가적인 알고리즘 과정 없이도 기능적으로 매우 빠르게 초지능이 될 수 있습니다.

하지만 저는 OpenAI 라이브 스트리밍에서 지속적인 학습이 완전히 해결되었다고 발표하는 것을 기대하지는 않습니다. 연구실은 어떤 혁신이든 빠르게 출시하려는 인센티브가 있기 때문에, 진정으로 인간처럼 학습하는 것을 보기 전에 깨진 초기 버전의 지속적 학습(또는 테스트 시간 훈련 – 여러분이 원하는 대로 부르세요)을 보게 될 것입니다. 이 큰 병목 현상이 완전히 해결될 때까지 많은 분들의 지적이 있을 것으로 예상됩니다.

컴퓨터 사용

팟캐스트에서 인류학 연구원인 Sholto Douglas와 Trenton Bricken과 인터뷰했을 때, 그들은 내년 말까지 신뢰할 수 있는 컴퓨터 사용 에이전트가 나올 것으로 기대한다고 말했습니다. 지금은 이미 컴퓨터 사용 에이전트가 있지만 꽤 형편없습니다. 그들은 완전히 다른 것을 상상하고 있습니다. 내년 말에는 인공지능에게 “내 세금 좀 처리해줘”라고 말할 수 있을 거라는 예측입니다. 그러면 인공지능이 이메일, Amazon 주문, Slack 메시지를 검토하고, 청구서가 필요한 모든 사람과 이메일을 주고받고, 모든 영수증을 취합하고, 어떤 것이 사업 비용인지 결정하고, 에지 케이스에 대한 승인을 요청한 다음 1040 양식을 IRS에 제출합니다.

저는 회의적입니다. 저는 AI 연구자가 아니기 때문에 기술적인 세부 사항에 대해 반박할 수는 없습니다. 하지만 제가 아는 것이 거의 없는 상황에서 이 예측에 반대하는 이유는 다음과 같습니다:

– 지평선 길이가 길어질수록 롤아웃 시간도 길어져야 합니다. AI는 2시간 분량의 에이전트 컴퓨터 사용 작업을 수행해야 제대로 수행했는지 확인할 수 있습니다. 컴퓨터를 사용하려면 이미지와 비디오를 처리해야 하는데, 롤아웃 기간이 길어지는 것을 고려하지 않더라도 이미 컴퓨팅 집약적인 작업이라는 것은 말할 것도 없습니다. 이로 인해 진행 속도가 느려질 것으로 보입니다.

– 멀티모달 컴퓨터 사용 데이터에 대한 대규모 사전 학습 코퍼스가 없습니다. 소프트웨어 엔지니어링 자동화에 관한 Mechanize의 게시물에서 인용한 이 말이 마음에 듭니다: “지난 10년간 사업을 확장하는 동안 우리는 무료로 사용할 수 있는 엄청난 양의 인터넷 데이터에 큰 혜택을 받았습니다. 이는 자연어 처리를 해독하는 데는 충분했지만 모델을 신뢰할 수 있고 유능한 에이전트로 만드는 데는 충분하지 않았습니다. 1980년에 사용 가능한 모든 텍스트 데이터로 GPT-4를 훈련시킨다고 상상해 보세요. 필요한 연산 능력이 있다고 해도 데이터는 충분하지 않았을 것입니다.”

다시 말하지만, 저는 실험실에 있지 않습니다. 어쩌면 텍스트 전용 훈련을 통해 이미 다양한 UI의 작동 방식과 여러 구성 요소 간의 관계에 대한 훌륭한 사전 정보를 얻을 수 있을지도 모릅니다. 어쩌면 RL 미세 조정은 샘플 효율이 매우 높아서 그렇게 많은 데이터가 필요하지 않을 수도 있습니다. 하지만 이러한 모델이 갑자기 데이터에 대한 수요가 줄어들었다고 생각하게 만드는 공개적인 증거를 보지 못했습니다. 특히 이 영역에서는 훨씬 덜 실행되고 있습니다.
또는 이 모델들이 매우 뛰어난 프런트엔드 코더라서 연습용으로 수백만 개의 장난감 UI를 생성할 수 있을지도 모릅니다. 이에 대한 제 반응은 아래 글머리 기호를 참고하세요.

– 돌이켜보면 아주 단순해 보이는 알고리즘 혁신도 완성하는 데 오랜 시간이 걸리는 것 같습니다. 딥시크가 R1 논문에서 설명한 RL 절차는 높은 수준에서 보면 간단해 보입니다. 하지만 GPT-4가 출시되고 o1이 출시되기까지 2년이 걸렸습니다. 물론 이 솔루션에 도달하기까지 수많은 엔지니어링, 디버깅, 대안 아이디어의 가지치기가 필요했기에 R1/o1이 쉬웠다고 말하는 것은 엄청나게 오만한 말이라는 것을 알고 있습니다. 하지만 이것이 바로 제 요점입니다! ‘검증 가능한 수학 및 코딩 문제를 풀 수 있도록 모델을 훈련시킨다’는 아이디어를 구현하는 데 걸린 시간을 보면, 훨씬 적은 데이터로 완전히 다른 방식으로 작동하는 컴퓨터 사용이라는 훨씬 더 어려운 문제를 해결하는 어려움을 과소평가하고 있다는 생각이 듭니다.

추론

자, 찬물 그만 마셔요. 저는 황금알을 낳는 거위를 건네주면서도 그 거위가 얼마나 시끄러운지 불평하는 해커뉴스의 버릇없는 아이들처럼 되지는 않을 것입니다.

o3나 Gemini 2.5의 추론 흔적을 읽어보셨나요? 사실 추론입니다! 문제를 분석하고, 사용자가 원하는 것이 무엇인지 생각하고, 내부의 독백에 반응하고, 비생산적인 방향을 추구하고 있다는 것을 알아차리면 스스로 수정하는 것이죠. “기계가 당연히 많은 생각을 하고 많은 아이디어를 떠올려서 현명한 답을 내놓겠지. 그게 기계가 하는 일이니까요.”

일부 사람들이 너무 비관적으로 생각하는 이유 중 하나는 자신이 가장 잘할 수 있는 영역에서 가장 똑똑한 모델을 사용해 보지 않았기 때문입니다. 클로드 코드에게 모호한 사양을 제시하고 10분 동안 앉아서 애플리케이션이 작동할 때까지 기다리는 것은 매우 힘든 경험입니다. 어떻게 그렇게 할 수 있었을까요? 회로, 훈련 분포, RL 등에 대해 이야기할 수 있지만 가장 근사하고 간결하며 정확한 설명은 단순히 아기 일반 지능을 구동한다는 것입니다. 이쯤 되면 여러분 중 일부는 ‘실제로 작동하고 있구나’라고 생각해야 합니다. 우리는 지능적인 기계를 만들고 있구나.”라고 생각해야 합니다.

그렇다면 제 예측은 어떻게 되나요?

제 확률 분포는 매우 넓습니다. 그리고 저는 확률 분포를 믿는다는 점을 강조하고 싶습니다. 즉, 잘못된 2028년 ASI에 대비하기 위한 노력은 여전히 의미가 있으며, 저는 이것이 완전히 그럴듯한 결과라고 생각합니다.

하지만 제가 50/50으로 내기를 걸고 싶은 타임라인은 다음과 같습니다:

– 여러 웹사이트의 모든 영수증을 추적하고, 누락된 부분을 모두 찾고, 번거로운 송장을 위해 필요한 사람과 이메일을 주고받고, 양식을 작성하여 국세청에 보내는 등 유능한 일반 관리자가 일주일 안에 할 수 있는 것처럼 AI가 소규모 비즈니스의 세금 업무를 엔드투엔드 방식으로 처리할 수 있습니다: 2028

저는 지금이 컴퓨터의 GPT 2 시대라고 생각합니다. 하지만 사전 학습 코퍼스도 없고, 모델은 익숙하지 않은 액션 기본 요소를 사용하여 훨씬 더 긴 시간 동안 훨씬 더 적은 보상을 위해 최적화하고 있습니다. 즉, 기본 모델은 꽤 똑똑하고 컴퓨터 사용 작업에 대한 사전 학습이 잘 되어 있을 수 있으며, 전 세계에 컴퓨팅 및 AI 연구자가 훨씬 더 많기 때문에 더 나은 결과를 얻을 수도 있습니다. 소기업을 위한 세금 준비는 언어에 대한 GPT 4가 컴퓨터 사용에 대한 것과 같은 느낌입니다. GPT 2에서 GPT 4까지 가는 데 4년이 걸렸습니다.

명확히 말씀드리자면, 2026년과 2027년에 정말 멋진 컴퓨터 사용 데모가 나오지 않을 것이라는 말은 아닙니다(GPT-3은 정말 멋졌지만 실질적으로 유용하지는 않았습니다). 이 모델들은 컴퓨터 사용이 수반되는 일주일에 걸친 상당히 복잡한 프로젝트를 엔드투엔드 방식으로 처리할 수 없을 것이라는 말입니다.

– AI는 모든 사무직 업무에 대해 사람처럼 쉽고, 유기적이고, 매끄럽고, 빠르게 업무를 학습합니다. 예를 들어, AI 동영상 편집기를 고용하면 6개월이 지나면 사람만큼이나 내 선호도, 채널, 시청자에게 효과적인 콘텐츠 등을 깊이 있게 이해하고 실행할 수 있게 됩니다: 2032

현재 모델에 지속적인 온라인 학습을 넣을 수 있는 확실한 방법은 보이지 않지만, 7년은 긴 시간입니다! GPT 1은 7년 전 이맘때에 막 출시되었습니다. 앞으로 7년 동안 모델들이 현업에서 학습할 수 있는 방법을 찾을 수 있을 거라고 믿어 의심치 않습니다.

지속적인 학습이 장애가 될 거라고 그렇게 호들갑을 떨었나요?”라고 반응할 수도 있습니다. 하지만 당신의 타임라인은 최소한 광범위하게 배포되는 인텔리전스가 폭발적으로 증가하기까지 7년이나 남았다는 것입니다.”라고 반응할 수도 있습니다. 네, 맞습니다. 저는 비교적 짧은 시간 내에 꽤 거친 세상을 예측하고 있습니다.

AGI 타임라인은 매우 정상적입니다. 이번 10년이 아니면 망할 겁니다. (실제로 파산이라기보다는 매년 한계 확률이 낮아진다는 의미에 가깝지만, 그다지 눈에 띄지는 않습니다.) 지난 10년간의 AI 발전은 프론티어 시스템의 학습 컴퓨팅 확장(연간 4배 이상)에 의해 주도되어 왔습니다. 칩, 전력, 심지어 훈련에 사용되는 원시 GDP의 일부분을 보더라도 이러한 추세는 10년을 넘어 지속될 수 없습니다. 2030년 이후 AI의 발전은 대부분 알고리즘의 발전에서 이루어져야 합니다. 그러나 거기에서도 (적어도 딥러닝 패러다임 하에서는) 열매를 맺지 못할 것입니다. 따라서 AGI 크레이터의 연간 확률.

즉, 제 50/50 베팅이 더 오래 지속된다면 2030년대나 2040년대까지는 비교적 정상적인 세상을 보게 될지도 모릅니다. 하지만 그 외의 모든 세계에서는 현재 AI의 한계에 대해 냉정하게 생각하더라도 정말 말도 안 되는 결과를 예상해야 합니다.

2.
요즘 읽고 있는 책이 지능의 기원 – 우리의 뇌 그리고 AI를 만든 다섯 번의 혁신입니다. 인공지능을 위한 다양한 알고리즘의 기원을 찾을 수 있습니다. 개인적으로 재미있는 책입니다. 책중 ‘지속적인 학습’을 다루는 부분이 있습니다. 인간과 AI의 차이중 하나입니다. 인간은 평생 학습을 하고 학습한 내용을 유전적 혹은 문화적인 방식으로 다음 세대에 전달합니다. 인류가 발전해온 수 십만년의 역사가 그렇습니다. 반면 AI는 그렇지 않습니다.

이를 AI에서는 catastrophic forgetting (파멸적 망각)이라는 개념으로 정의하는 듯 합니다.

catastrophic forgetting은 인공지능과 기계 학습 분야에서 인공 신경망이 새로운 정보를 학습할 때 이전에 학습한 정보를 급격하게 잊어버리는 현상을 의미한다. 이는 주로 연속 학습(continual learning) 또는 온라인 학습 환경에서 발생하는 문제로, 모델이 새로운 데이터를 학습하는 과정에서 기존에 학습한 데이터에 대한 성능이 저하되는 상황이다.

이 문제를 해결하기 위해 다양한 접근 방법이 연구되고 있다. 대표적인 방법으로는 이전 데이터를 반복적으로 학습하는 리플레이(replay) 기법, 모델의 파라미터를 규제하는 방식, 그리고 새로운 정보와 기존 정보를 동시에 학습하는 전략 등이 있다. 예를 들어, 인지적 리플레이(cognitive replay) 기법은 모델이 이전에 학습한 데이터를 기억할 수 있도록 반복적으로 상기시키는 방법을 사용하여, 잊어버리는 현상을 줄이는 데 도움을 준다.

또한, 파레토 최적화(Pareto optimization)를 통해 이전 작업들 간의 상호작용을 모델링하고, 이를 기반으로 하여 이전 작업의 성능을 유지하면서 새로운 작업의 성능을 향상시키는 방법도 제안되었다. 이러한 접근법은 지속적인 학습 과정에서 모델의 전반적인 성능을 향상시키는 데 효과적이다.

이런 현상을 해결하기 위하여 등장한 개념이 Continual Learning입니다. A Comprehensive Survey of Continual Learning: Theory, Method and Application을 정리한 [논문 리뷰] A Comprehensive Survey of Continual Learning: Theory, Method and Application을 소개합니다.

 

Continual learning의 필요성

AI는 real-world의 변화에 적응하기 위해 지식을 점진적으로 획득, 업데이트, 누적 및 활용할 수 있어야 한다. 이는 마치 사람이 새로운 경험을 통해 지속적으로 배우고 성장하는 것과 유사하다.

Continual learning의 한계와 발전

AI를 통해 기존에 특정 task에 대해 학습했던 모델에 새로운 task의 데이터를 갖고 학습하게 되면, 기존에 갖고 있던 특정 task의 정보가 점점 잊혀지는 현상을 보인다. 이를 catastrophic forgetting이라 한다.

하지만, 최근 몇 년 동안 continual learning에 대한 이해와 응용이 크게 발전하였으며, 이 분야에 대한 관심이 커지고 있다. 이는 continual  learning이 real-world의 문제 해결에 점점 중요해지고 있음을 말한다.

Continual learning의 목표

Continual learning의 목표는 안정성과 가소성의 균형(stability-plasticity trade-off)을 맞추고, 작업 간의 일반화 능력(intra/inter-task generalizability)을 유지하면서 자원을 효율적으로 사용(resource efficiency)하는 것이다.

안정성과 가소성의 균형(stability-plasticity trade-off): 안전성(stability)은 기존에 학습한 정보를 잊지 않고 유지하는 능력이며, 가소성(plasticity)은 새로운 정보를 유연하게 학습하는 능력이다. 즉, continual learning이 안정성과 가소성의 균형을 지키는 것은 새로운 것을 배우면서도 기존의 지식을 잘 유지하는 것을 의미한다. 예를 들어, 새로운 언어를 배우면서도 기존의 알던 언어를 잊지 않는 것과 비슷하다.

작업 간의 일반화 능력(intra/inter-task generalizability): 내부 작업 일반화(intra task generalizability)는 하나의 특정 task 내에서 다양한 상황에 대응할 수 있는 능력이며, 예를 들어 AI가 ‘고양이 사진 분류’라는 task라는 작업에서 다양한 조명, 각도, 배경을 가진 고양이 사진을 모두 잘 분류 할 수 있다면 내부 작업 일반화가 잘 이루어진 것으로 볼 수 있다. 외부 작업 일반화(inter task generalizability)는 다른 task들 사이에서도 적용 가능한 능력이며, 예를 들어 같은 AI 모델이 ‘고양이 사진 분류’, ‘강아지 사진 분류’ 등의 다양한 분류 task 모두 잘 수행 했다면 외부 작업 일반화가 잘 이루어진 것으로 볼 수 있다. 즉, 작업 간의 일반화 능력이란 학습된 모델이 다양한 task나 상황에서도 잘 작용해야 한다는 것을 의미한다.

자원을 효율적으로 사용(resource efficiency): continual learning에서 제한된 자원(메모리 등)을 효율적으로 사용해야 하는 것을 의미한다.

Continual Learning과 유사한 개념으로 Lifelong Learning을 제시하는 분도 계십니다. 평생학습이란? (A Survey on Lifelong Learning)의 정리입니다.

평생학습(Lifelong Learning)

인간의 뇌는 배경지식을 바탕으로 새로운 것을 배우며, 새로운 것을 배운다고 하여 과거의 지식을 잊어버리지 않는다. Lifelong Learning은 인간의 인지를 모방하여 Catastrophic forgetting과 Semantic drift를 해결하고자하는 메커니즘이다. Lifelong Learning은 다음과 같은 2가지 특징이 있다.

▷ Multi Task Learning(다중 과제 학습)

  • Multi task learning은 단일 모델이 여러개의 task를 동시에 학습하는 방법론이다. 서로 다른 task A와 task B가 있다고 가정하자. Task A를 학습하여 모델 A를 만들었는데 task B가 추가되었다고 모델 B를 새로 학습하는 것은 비효율적이다. 우리는 100개의 task를 수행하기 위해서 Single task를 수행하는 모델 100개를 만들 수 없다. 모델 A가 task A와 task B를 모두 수행하도록 학습하는 것이 Multi task learning의 목적이다.

▷ Online Learning(온라인 학습)

  • 인간은 같은 내용만 반복해서 학습하지 않는다. 평생에 걸쳐 시시각각 새로운 자극을 받아들이며 그로부터 매순간 학습하고 외부 변화에 적응한다. Online Learning은 연속적으로 데이터를 받고 한번 학습에 사용된 데이터는 버리는 학습법이다. 즉, Single task를 순차적으로 학습해서 Multi task를 수행할 수 있어야하지만, Multi task를 수행하기 위해서 전체 dataset으로 재학습할 수 없다. 이때 모델이 task A와 task B를 순차적으로 학습하는 과정에서 발생하는 Catastrophic forgetting 문제를 극복해야 한다.

Lifelong Machine Learning이란 책이 있습니다. 2022년 발간한 책입니다. Continual Learning을 주제로 한 책입니다. 책중 일부분입니다.

Download (PDF, 328KB)

3.
그러면 이런 기술이 금융에서 어떻게 적용될 수 있을까요? 금융분야에서 가장 유용한 모델은 Reinforcement Learning입니다. 여기에 Continual 기술을 적용한 모델이 Continual Reinforcement Learning입니다. 최근 이와 관련한 논문들이 자주 보입니다.

A Survey of Continual Reinforcement Learning은 CRL과 관련한 현황을 정리하고 있습니다. 2025년 6월 논문입니다.

Download (PDF, 6.57MB)

위 논문에서 소개한 여러 논문중 금융과 관련한 논문은 아래입니다.

Continual portfolio selection in dynamic environments via incremental reinforcement learning

비숫한 주제의 논문들도 많이 있습니다. 그중 하나.

Continual Deep Reinforcement Learning for Financial Trading Using Bi-Directional Knowledge Transfer

개인적으로 가장 흥미로운 모델인 듯 합니다.

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.