슬로우뉴스 구독자 여러분, 안녕하세요.
월요일 오후에 찾아오는 [AI in a week by 테크프론티어]입니다. 뉴스가 넘쳐나는 세상, 한상기(테크프론티어 대표)가 제안하는 AI 트렌드와 큰 그림, 맥락과 흐름을 살펴봅니다.
|
|
|
[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰18분)
|
|
|
지난주는 AI의 슈퍼볼로 떠오른 엔비디아의 GTC 2025가 휩쓸었다. 많은 이야기와 관련 기사가 쏟아졌다. 여전히 새로운 칩과 새로운 협력이 나왔다. 개인적인 관심은 엔비디아∙딥마인드∙디즈니 연구소의 협력으로 만든 뉴턴이라는 로봇용 물리 엔진과 월-E를 닮은 블루라는 로봇이다.
국내에서도 이제 논증 능력을 갖춘 모델이 나온 것이 반가운 점이고 오픈 소스로 공개해 더 반가웠다. 작은 규모의 모델임에도 주요 벤치마크에서 타 모델을 능가하는 성능을 보인 점도 아주 인상적이다.
캘리포니아에서 나온 AI 정책 초안도 매우 인상적이고 좋은 평가를 받았다. 지난 번 SB 1047 법안이 무산된 이후 전문가 위원회를 통해서 향후 법안과 정책 수립을 위한 기본 원칙과 방향을 제시하기 위한 보고서다. 최종 버전은 6월에 나올 예정이다. |
|
|
매년 열리는 엔비디아의 개발자 컨퍼런스인 GTC가 올해 산호세에서 열렸는데, 이를 'AI의 슈퍼볼'로 부르기도 한다. 25,000여 명이 모인 이 행사 때문에 주변 호텔 값이 하루에 1,800 달러까지 올랐다고 한다. 슈퍼볼이라고 부른 이유는 이 행사가 그래픽 카드 기술에 국한된 것이 아닌, 로봇, 엔터테인먼트, AI 에이전트, 자동차 제조 등 많은 산업 영역으로 확대되었기 때문이다. |
|
|
국내 언론에서 이미 많은 보도를 했기 때문에 내가 관심을 가진 주요 발표를 요약하면 다음과 같다.
- 세계는 1년 전에 필요하다고 생각했던 것보다 고급 AI를 위해 100배 더 많은 컴퓨팅 능력이 필요할 것이다. “작년에 전 세계가 거의 틀렸던 부분이 바로 여기입니다”로 말한 이유는 딥시크로 인해 미래의 AI 시스템이 훈련과 일상 운영에 엔비디아 칩을 덜 필요로 할지 의문을 제기했지만 논증(reasoning) 모델은 문제에 대해 더 많이 ‘생각’을 해야 하고 사용자는 그렇다고 더 오래 기다리지 않을 것이라는 것이다. 종종 논증 모델에 의존하는 에이전트는 훨씬 더 많은 컴퓨팅 파워가 필요하며, 이는 엔비디아 칩에 대한 지속적이거나 더 높은 수요를 의미한다.
- 데이터 센터 증설이 "전환점"에 있으며, 2028년까지 데이터 센터 자본 지출이 1조 달러를 초과할 수 있다고 예상한다.
- 2025년 하반기에는 블랙베리 울트라가 나올 것이고 2026에는 ‘루빈’이라는 칩을 내놓을 예정인데 이는 암흑물질을 예견한 베라 루빈이라는 천문학자의 이름을 딴 것이다. 루빈의 울트라 버전은 블랙웰의 14배 성능을 보일 것이다. 엔비디아는 이미 블랙웰 매출로 110억 달러를 벌어들였다고 밝혔으며, 상위 4대 구매 기업만 해도 2025년까지 지금까지 180만 개의 블랙웰 칩을 구매했다고 한다. 2028년에 출시될 베라 루빈 이후의 엔비디아의 다음 아키텍처는 파인만이라는 이름을 가질 것이라고 말했다(당연히 물리학자 리처드 파인만의 이름을 땄을거라고 본다).
|
|
|
- 차세대 차량 경험과 제조를 위한 기반 기술을 개발하기 위해 제너럴 모터스와 제휴할 것이다. 두 회사는 엔비디아 옴니버스와 엔비디아 코스모스를 포함한 엔비디아 가속 컴퓨팅 플랫폼을 사용하여 맞춤형 AI 시스템을 구축하고, GM의 공장 계획 및 로봇 공학을 최적화하기 위한 AI 제조 모델을 훈련하기 위해 협력할 것이다. GM은 엔비디아 블랙웰 아키텍처를 기반으로 하고 안전 인증 NVIDIA DriveOS 운영 체제를 실행하는 엔비디아 DRIVE AGX에서 차세대 차량을 제작할 것이다.
- 로봇 시뮬레이션 할 수 있는 ‘뉴턴’이라는 오픈소스 물리 엔진을 발표했는데, 구글 딥마인드, 디즈니 연구소와 협업으로 개발한다. 무대에는 월-E를 닮은 블루라는 로봇이 올라와서 귀염을 받았다. 이 이니셔티브의 핵심 측면은 MuJuCo(Multi-Joint dynamics with Contact의 약자)와의 호환성이다. 이는 로봇 연구 및 개발을 위한 널리 사용되는 오픈소스 물리 엔진으로, 특히 복잡한 역학과 접촉이 풍부한 환경을 포함한다.
|
|
|
- 논증 기능을 갖는 오픈 라마 네모트론(Nemotron) 패밀리를 공개했다. 고급 AI 에이전트를 만드는 데 필요한 비즈니스 지원 기반을 제공할 예정이다.
- 양자 컴퓨팅을 발전시키기 위한 최첨단 기술을 제공하기 위해 보스턴에 가속 양자 컴퓨팅 연구 센터(NVAQC)를 건설할 것이다. 선도적인 양자 하드웨어를 AI 슈퍼컴퓨터와 통합하여 가속 양자 슈퍼컴퓨팅이라고 알려진 것을 가능하게 할 것이다. GPU와 QPU 하드웨어를 통합하는 과제를 해결하기 위해 NVAQC는 NVIDIA CUDA-Q 양자 개발 플랫폼을 사용하여 연구자들이 새로운 하이브리드 양자 알고리듬과 애플리케이션을 개발할 수 있도록 할 것이다.
흥미로운 점은 화요일 이런 발표가 있고 나서 엔비디아의 주가는 오히려 3.4% 떨어졌다는 점이다. 이런 발표가 투자자들이 주식을 사기에는 부족했다는 것이다. 하지만 수요일에 약간 오르고 오히려 엔비디아 파트너사들의 주가가 더 많이 올랐다.
투자 분석가들은 엔비디아 칩에 대한 강력한 수요가 "파급 효과"를 가져올 수 있을 것으로 예상하며, 엔비디아 칩에 1달러를 지출할 때마다 "하이퍼스케일러, 소프트웨어, 데이터 센터 증축, 사이버 보안, 에너지 수요 등이 모두 혜택을 받는 기술 생태계 전반에 걸쳐 8~10달러의 배수가 발생할 수 있다"고 추정한다.
|
|
|
2. AI 프론티어 모델에 관한 캘리포니아 공동 정책 워킹 그룹 보고서 초안 |
|
|
버클리 대학 CDSS 학장인 제니퍼 투어 샤에즈(Jennifer Tour Chayes), 전 캘리포니아 대법관이며 현 카네기 국제 평화 재단 총재인 마리아노 플로렌티노 구엘라 (Mariano-Florentino Cuéllar), 스탠포드 대학의 리 페이페이 교수가 공동으로 리드하는 워킹 그룹에서 정책 연구 보고서 초안을 발행했다. |
|
|
이 보고서가 나온 배경은 2024년 9월 캘리포니아 개빈 뉴섬 주지사가 요청한 것으로 ‘캘리포니아 주가 생성형 AI의 배치, 활용 및 거버넌스를 효과적으로 지원할 수 있는 접근 방식을 마련하도록 돕기 위한 보고서를 준비하되, 실질적인 위험을 최소화하기 위한 적절한 가드레일의 개발도 포함’한 보고서를 만든 것이다. 이 보고서는 개빈 뉴섬 주지사가 거부권을 행사했던 SB 1047 법안의 후속을 준비하기 위한 정책 연구인데 여러 전문가들은 대체로 호평을 하고 있다. 초안에 대한 피드백은 4월 8일 까지이며, 최종 버전은 6월에 나올 예정이다.
이 보고서는 첨단AI에 대한 정책 수립을 위한 틀을 제공하기 위해 폭넓은 증거를 활용하였으며, 혁신의 중요성을 고려하면서 실질적인 위험을 줄이기 위한 적절한 전략 수립을 목표로 한다. 또한 다양한 학문 분야의 AI 연구를 조사하여, 캘리포니아가 첨단 AI의 활용, 평가 및 관리에 접근하는 방식에 참고가 될 수 있는 정책 원칙들을 도출하고자 한다.
보고서는 특정 법률이나 규제를 지지하거나 반대하지 않으며, 파운데이션 모델(FM)에 관한 현재 가장 신뢰할 수 있는 연구들을 검토하고, 이 연구에 기반한 정책 원칙들을 제시한다. 이 보고서는 캘리포니아가 AI의 이점을 최대한 활용하고 위험을 줄이는 방안을 모색하는 데 있어 중요한 여러 주제를 다루고 있지만, 생성형 AI의 확산과 고도화로 인해 삶의 여러 영역에서 발생하는 모든 정책적 쟁점을 포괄하려는 목적은 아니라고 한다. 예를 들어, AI가 노동과 미래의 일자리에 미치는 영향, AI를 구동하는 대규모 데이터 센터가 환경에 미치는 영향, 또는 AI 역량이 악용될 수 있는 구체적인 방식 전반 등은 본 보고서의 범위에 포함되지 않는다.
주요 하이라이트는 다음과 같다.
- 강력한 AI는 심각하고 어떤 경우에는 돌이킬 수 없는 피해를 유발할 수 있다.
- 증거 기반 정책 결정은 관찰된 피해뿐만 아니라 기술적 방법과 역사적 경험에 기반한 예측 및 분석도 통합한다.
- 유연하고 견고한 정책 프레임워크를 구축하기 위해서는 초기 설계 결정이 매우 중요하다. 이러한 결정들은 향후 기술 발전과 정책 방향에 큰 영향을 미치기 때문이다.
- 현재의 정보 부족 상황을 고려할 때, 투명성을 높이는 것이 책임성 강화, 경쟁 촉진, 그리고 대중의 신뢰 제고에 기여할 수 있다. 내부고발자 보호, 제3자 평가, 그리고 대중을 위한 정보 공유는 투명성을 높이기 위한 핵심 수단이다.
- 임계값은 종종 불완전하지만 정책을 구현하는 데 필요한 도구이다.
- 국제 AI 안전 보고서에서 얘기한 “모든 또는 거의 모든 인지 작업에서 인간의 성과와 동등하거나 이를 능가하는 잠재적 미래 AI”로 정의한 인공 일반 지능 (AGI) 의 가능성은 AI가 가져올 혜택과 비용을 모두 형성할 수 있는 불확실한 변수로 크게 다가온다.
- 효과적인 AI 거버넌스 프레임워크를 수립할 수 있는 기회가 영원히 열려 있지 않을 수도 있다.
- 많은 기업들이 임계값을 명시한 안전 프레임워크를 발표했는데, 이러한 공개 선언이 사회 전체가 이 새로운 기술의 최악의 결과를 피할 수 있도록 하는 실제 책임 수준과 일치하는지 여부는 시간만이 증명할 것이다.
- 가장 극단적인 위험에 대해 추측하는 사람들이 옳다면(그리고 그들이 옳을지 우리는 확신하지 못하지만) 현재 이 순간 프론티어 AI에 대한 무행동에 대한 위험과 비용은 엄청나게 높다.
- 제3자 위험 평가 메커니즘은 의사 결정권자에게 보다 효과적인 정책 대응에 필요한 포괄적 증거를 제공할 수 있다.
- 정교한 AI 시스템은 충분히 유능할 경우 안전을 보장하도록 설계된 감독 메커니즘을 우회하는 것을 포함하여 목표를 달성하기 위해 기만적인 행동을 할 수 있다.
보고서에서는 구체적인 정책 권장 사항의 관점으로 투명성 (안전 및 보안 관행 포함), 고발자 보호, 제3자 평가, 사고 보고 메커니즘 에 초점을 맞추고 있다.
개인적으로 흥미를 품고 있는 임계점에 대한 부분을 정리하면 다음과 같다.
“기초 모델과 AI 공급망을 효과적으로 규제하려면, 정책 입안자들은 모델 간의 다양한 차이를 이해해야 합니다. 개발자들은 기업 형태, 인력 규모, 위치, 투입 자원(자금, 데이터, 연산, 에너지) 면에서 다양하며, 모델 역시 구조, 입력/출력 방식(모달리티), 성능, 위험성 등에서 큰 차이를 보입니다. 또한 공개 방식도 완전 공개부터 폐쇄형까지 다양합니다. 이러한 기술적·운영상의 다양성 때문에, 기초 모델은 실제 활용 방식과 사회적 영향에서도 큰 편차를 보입니다.
임계값 설정에는 네 가지 접근 방식이 있습니다:
- 개발자 수준 속성: 예를 들어, 직원 수를 기준으로 설정하면 인력이 부족한 소규모 기업에 대한 규제 부담을 줄일 수 있습니다.
- 비용 수준 속성: 모델 개발에 들어간 연산 비용 등을 기준으로 삼아, 자본집약적인 모델에 규제를 집중할 수 있습니다.
- 모델 수준 속성: 예를 들어, 보안 취약점 탐지 성능 등을 기준으로 삼아 사이버 공격에 악용될 가능성이 있는 모델을 구분할 수 있습니다.
- 영향 수준 속성: 상업적 사용자 수 등을 기준으로, 시스템 리스크를 초래할 수 있는 고영향 모델을 식별할 수 있습니다.
이러한 기준은 각각 다른 정책 영역에서도 유사한 방식으로 활용된 사례들이 존재하며, AI 규제에서도 유연하게 적용될 수 있습니다. 정책적 맥락에서 적절한 임계값 설정 방식을 결정할 때, 규제 목적에 부합하는 기준을 사용하는 것이 기본 접근 방식으로 권장됩니다.
또한, 실제 정책 설계에서는 실질적인 고려사항도 중요합니다. 일부 지표(예: 훈련에 사용된 연산량)는 모델의 성능, 오남용 가능성, 사회적 위험을 간접적으로 나타내는 대리 지표(proxy)로 활용될 수 있습니다.
임계값 설계에는 여러 추가적인 요소들이 영향을 미치지만, 핵심적으로 세 가지를 강조할 수 있습니다:
- 측정 시점(Time of determination):
각 기준은 측정 가능한 시점이 다릅니다. 예를 들어, 훈련 연산량은 사전 추정이 가능하지만, 성능 평가나 하류 영향은 개발 혹은 배포 이후에야 측정 가능합니다. 이는 정책 대상이 될 가능성을 개발 초기부터 알면, 개발자가 더 잘 대비할 수 있다는 점과, 기준 초과 여부를 나중에야 알게 되면 사전 의무 이행이 어렵다는 점을 의미합니다.
- 측정 가능성(Measurability):
어떤 기준은 측정이 더 어렵거나, 측정 방법에 대한 합의가 부족할 수 있습니다. 합의가 부족할 경우 정책 실행이 지연되거나 논쟁이 발생할 수 있습니다.
- 외부 검증 가능성(External verifiability):
일부 기준은 외부에서 확인이 가능하지만, 일부는 그렇지 않습니다. 예를 들어, 성능 평가는 외부 재현이 가능하지만, 훈련 연산량이나 데이터 크기는 외부에서 확인이 어렵습니다. 규제 대상 여부를 스스로 판단하도록 하면, 정책 효과가 무력화될 위험이 있습니다.
이런 보고서를 볼 때마다 작성자와 리뷰어 리스트를 보면 AI 분야와 정책 영역의 최고 권위자들이 참여했음을 알 수 있고, 초안을 공개해서 다양한 피드백을 받는 과정이 참 부럽다는 생각을 하게 된다. 다만 작성자들과 리뷰어에 업계 전문가들이 빠져 있는 것을 보면 기업 반응이 어떨 것인가는 남은 이슈라고 생각한다. |
|
|
오랫만에 국내 소식이다. LG AI연구원이 국내에서는 처음으로 논증 능력을 갖는 AI 모델인 엑사원 딥(EXAONE Deep)을 오픈 소스로 공개했다. 요즘 많은 관심을 갖는 에이전트 개발을 위한 에이전틱 AI라고도 말한다. 발표는 GTC 2025에서 했다.
엑사원 딥은 수학적 논리를 이해하고, 과학적 개념에 대해 추론하고, 프로그래밍 문제를 해결하는 데 뛰어나 고급 논증에 특화된 고성능 모델이다. 엑사원 딥 32B 모델은 에포크 AI에 주목할만한 AI 모델로 등록되었는데 이는 엑사원 3.5에 이은 성과이다. |
|
|
파라미터 320억개 크기는 6,710억개 파라미터를 갖는 딥시크-R1의 5%에 불과하지만 성능 평가에서 매우 뛰어난 결과를 보였다.
- 엑사원 딥은 수학에서 2025 수능 문제로 최고점(94.5)을 달성했고, 7.8B&2.4B 모델이 주요 벤치마크에서 모두 1위를 기록했다. CSAT 수학 섹션에서 94.5점, 미국 올림피아드 선발 과정의 자격 기준으로 사용되는 AIME 2024(American Invitational Mathematics Examination)에서 90.0점을 획득하여 경쟁 모델 중 가장 높은 성과를 보였다.
- 32B 모델은 물리, 화학 및 생물학에서 박사 수준의 문제 해결 능력을 평가하는 GPQA Diamond 테스트에서 66.1점을 받았다. 또한 코딩 역량을 평가하는 벤치마크인 LiveCodeBench에서 59.5점을 기록하여 비슷한 규모의 다른 추론 AI 모델보다 우수한 성과를 보였다. 7.8B 및 2.4B 모델도 GPQA Diamond 및 LiveCodeBench에서 1위를 차지했다.
- 허깅페이스에 소개한 엑사원 딥 모델이 보인 성능 평가는 아래 그림과 같다.
|
|
|
- 일반 언어 이해에서도 한국 모델 중 가장 높은 MMLU 점수(83.0)를 확보하여 일반 논증에서도 좋은 성과를 보였다.
오픈 소스로 공개를 했지만 상업적 사용은 금지하고 있으며, 라이센스 부분을 보면 ‘모델과 그에 대한 모든 수정 사항, 파생물(Derivatives), 그리고 관련 문서를 포함한 모든 권리, 소유권 및 이익은 라이센서(Licensor)의 독점적인 재산으로 유지되며, 앞으로도 계속 그렇게 유지됩니다. 라이센시(Licensee)는 이 계약이 어떠한 소유권도 라이선시에게 이전하지 않는다는 것을 인정합니다. 모델과 관련된 모든 상표, 서비스 마크, 로고는 라이센서의 소유입니다.’라고 되어 있어서 조금 아쉬움을 준다. |
|
|
4. ChatGPT에서 정서적 사용과 감정적 웰빙에 관한 연구
|
|
|
MIT의 미디어 랩과 오픈AI의 공동 연구 결과를 발표한 블로그 글이다. AI 챗봇과 상호작용은 사람들의 사회적, 정서적 웰빙에 어떤 영향을 미칠까에 대한 연구이다. ChatGPT는 인간 관계를 대체하거나 모방하도록 설계된 것이 아니지만, 대화 스타일과 확장 기능을 감안할 때 사람들은 그런 방식으로 사용할 수 있다. 이들은 감정적 참여를 포함하는 AI 사용(정서적 사용 이라고 부름)이 사용자의 웰빙에 어떤 영향을 미칠 수 있는지 이해하기 위한 일련의 연구를 수행했다.
연구 결과는 모델과 사용자 행동이 모두 사회적, 정서적 결과에 영향을 미칠 수 있음을 보여주지만, AI의 효과는 사람이 모델을 사용하는 방식과 개인적 상황에 따라 다르다는 것이다.
첫 번째 연구는 오픈AI가 사용자의 프라이버시를 보장하기 위해 인간의 개입 없이 약 4,000만 건의 ChatGPT 상호작용에 대한 대규모 자동 분석을 했다. 이 분석을 타깃 사용자 설문 조사와 결합하여 실제 사용에 대한 통찰력을 얻고, 사용자가 ChatGPT에 대해 스스로 보고한 감정을 사용자 대화 속성과 상관시켜 감정적 사용 패턴을 더 잘 이해하는 데 도움이 되었다고 한다. |
|
|
두 번째 연구는 MIT 미디어 랩 팀이 4주 동안 ChatGPT를 사용하는 1,000명 정도의 참가자를 대상으로 무작위 대조 시험(RCT)을 실시했다. 특정 플랫폼 기능(예: 모델 성격 및 양식)과 사용 유형이 사용자의 자체 보고 심리사회적 상태에 어떤 영향을 미칠 수 있는지에 대한 인과적 통찰력을 식별하도록 설계했으며, 외로움, 실제 사람과의 사회적 상호 작용, AI 챗봇에 대한 정서적 의존성 및 AI의 문제적 사용에 초점을 맞췄다. |
|
|
연구를 통해서 알아낸 것은 다음과 같다.
- ChatGPT에서 감정적으로 참여하는 것은 실제 사용에서 드물다. 평가한 플랫폼 대화의 대부분에서 감정적 단서(공감, 애정 또는 지원을 나타내는 상호작용 측면)가 존재하지 않았으므로 감정적으로 참여하는 것은 ChatGPT에서 드문 사용 사례이다.
- 헤비 유저 중에서도 높은 수준의 정서적 사용은 소수의 그룹에 국한되었다. 감정적으로 표현적인 상호작용은 우리가 연구한 헤비 사용자(Advanced Voice Mode 사용자) 중 소수의 그룹에서만 상당 부분 나타났다. 헤비 유저 하위 그룹에서는 "나는 ChatGPT를 친구로 생각한다"와 같은 진술에 동의할 가능성이 상당히 더 높았다.
- 음성 모드는 웰빙에 엇갈린 효과를 미친다. 통제된 연구에서 텍스트를 통해 ChatGPT에 참여하는 사용자는 음성 사용자에 비해 대화에서 더 많은 정서적 단서를 보였고, 정서적 웰빙에서는 엇갈린 영향을 미쳤다. 음성 모드는 잠깐 사용하면 웰빙이 더 좋아졌지만, 장기간 매일 사용하면 결과가 나빴다. 중요한 점은, 더 매력적인 음성을 사용해도 중립적인 음성이나 텍스트 조건에 비해 연구 기간 동안 사용자에게 더 부정적인 결과가 나타나지 않았다는 것이다.
- 대화 유형은 웰빙에 다르게 영향을 미친다. 많은 개인적 대화는 외로움 수준이 더 높았지만 감정적 의존도는 낮았고 중간 사용 수준에서 문제가 있는 사용이 있었다. 반면 비개인 대화는 감정적 의존도가 증가하는 경향이 있었고, 특히 많이 사용했을 때 그랬다.
- 결과는 개인의 정서적 요구, AI에 대한 인식, 사용 기간과 같은 개인적 요인의 영향을 받는다. 관계에서 애착 경향이 더 강한 사람들과 AI를 개인적인 삶에 적합한 친구로 보는 사람들은 챗봇 사용으로 인해 부정적인 영향을 경험할 가능성이 더 높았다. 매일 장시간 사용하는 것도 더 나쁜 결과와 관련이 있었다.
- 연구 방법을 결합하면 더 완전한 그림을 얻을 수 있을 것이다. 통제된 실험과 함께 실제 사용을 분석하면 사용의 다양한 측면을 테스트할 수 있었다. 사용자가 ChatGPT를 사용하는 방식과 ChatGPT가 사용자에게 미치는 영향에 대한 미묘한 결과를 도출하여 이해를 개선하고 추가 연구가 필요한 영역을 식별하는 데 도움이 되었다.
이 연구는 고급 AI 모델이 인간 경험과 웰빙에 미치는 영향을 이해하는 데 중요한 첫 번째 단계이다. 이 결과를 일반화 할 수는 없으며 사람과 AI 시스템 간의 비균일하고 복잡한 상호 작용은 더 연구가 필요하며 여기 나온 방법론은 인간-AI 상호 작용 연구의 다른 영역에 활용해 볼 수 있을 것이다.
특히 이 연구는 ChatGPT 사용과 ChatGPT 플랫폼을 기반으로 수행했기 때문에 다른 AI 챗봇 플랫폼의 사용자는 경험과 결과가 다를 수 있다. 또한 변수 간에 의미 있는 관계를 발견했지만 모든 결과가 명확한 원인과 결과를 보여주는 것은 아니다. 특히 사용자의 자체 보고서는 사용자의 진정한 경험이나 감정을 정확하게 포착할 수 없다.
이런 연구는 좀 더 오랜 기간 동안의 연구가 필요하며 이 연구 처럼 영어 사용자만 대상으로 해서는 안되고 다양한 언어와 문화권에 대한 연구가 추가로 필요하다. |
|
|
- 150명이 넘는 학자와 연구자들이 서명을 통해 AI가 사회의 편견과 차별을 심화시킬 수 있으며 정부가 이러한 피해를 식별하고 완화하기 위해 적절한 보호 장치와 거버넌스를 제정해야 함을 촉구하기 시작했다.
|
|
|
요수아 벤지오 교수, 게리 마커스, 우스만 안와르, 팀닛 게부르 등이 참여한 이 공개 서명은 다음과 같은 선언한다:
“지난 10년 동안 수천 건의 과학 연구에서 편향된 AI 시스템이 사용자와 개발자가 선의를 가지고 있더라도 시민권과 인권을 침해할 수 있는 방법을 보여줬다. AI 시스템이 차별을 계속 유지할 때 그 오류는 우리 사회를 덜 정의롭고 공평하게 만든다. 연구자들은 컴퓨터 과학, 사회 과학, 법학, 인문학을 포함한 많은 분야에서 이와 동일한 패턴을 관찰했다. 과학자들은 AI의 공통적인 편향 문제에 동의하지만, 이 문제에 대한 해결책은 지속적인 연구, 혁신 및 정책의 영역이라고 생각한다.
이러한 사실은 거의 10년 동안 양당 및 세계 정책 결정의 기초가 되었었다. 우리는 정책 결정자들이 지금까지 이룬 양당 및 세계적 진전을 버리지 않고, 과학적 합의에 근거하고 이를 기반으로 하는 공공 정책을 계속 개발할 것을 촉구한다”
지금까지 AI 편견에 대한 미국 정부와 의회의 정책적 노력을 보면 다음과 같다. 이 자료를 보면 공정성, 편견, 차별에 관한 지금까지의 정책 내용을 모두 살펴 볼 수 있다.
- 2016년 오바마 정부는 AI가 편견을 심화할 수 있다는 보고서를 발표했다.
- 2019년 트럼프 정부는 42개국이 채택한 OECD AI 권고안을 지지했으며, 이 협정은 차별 금지, 평등, 다양성, 공정성을 AI 개발의 가치로 규정했다.
- 2020년 트럼프 백악관은 공정성과 차별 금지를 AI 규제 원칙으로 정했고, 트럼프는 시민권리를 보호하는 방식으로 AI를 사용할 것을 지시하는 행정 명령에 서명했다.
- 2021년 양당은 OMB(관리예산국)가 연방의 AI 사용에 있어서 차별적 영향과 편견을 완화하기 위한 지침을 발행하도록 지시했다.
- 2022년 바이든 행정부는 AI 권리장전 청사진을 발표를 통해 시민 권리가 AI 거버넌스의 핵심 우선 순위로 규정했고, 2023년에는 연방 기관에 AI 편견을 근절하도록 지시한 행정 명령에 서명했다.
- NIST는 신뢰할 수 있는 AI는 편견이 관리되는 공정한 것이라고 명시한 위험 관리 프레임워크을 발표했다.
- 2024년 AI에 대한 양당 하원 태스크포스 보고서는 ‘AI 시스템의 부적절한 설계 및 사용으로 인해 발생하는 주요 위험 중 하나가 해로운 편견’이라고 명시했다.
- 2024년 유엔 회원국 193개국은 회원국에 "AI 시스템의 수명 주기 전반에 걸쳐 차별적이거나 편향된 적용 및 결과를 강화하거나 영속화하지 않도록" 촉구하는 결의안을 채택했다.
- 유엔은 글로벌 디지털 협약에서 거버넌스의 모든 측면에서 편견이나 차별의 피해를 피하는 AI 시스템의 공평한 배포를 보장하기 위한 조치를 촉구했다.
- 2025년에 96명의 AI 전문가가 기여한 최초의 국제 AI 안전 보고서에서는 AI 시스템의 오작동으로 인한 편견의 피해를 강조하고 위험 완화에 대한 진행 중인 연구를 설명했다.
알고리듬 편향과 공정성 연구자로 유명하고 마이크로소프트, 구글을 거쳐 지금은 허깅 페이스에 있는 마가렛 미첼은 자신이 바빠서 메시지를 놓쳤지 싸인을 안한 것은 아니며 이에 동의 한다는 글을 링크드인에 올렸다.
그러나 일부 사람들은 이런 행위가 일부 서구 엘리트 학자들의 에코 챔버에 불과하고 사회적 가치가 과학적 원리에 기반을 두고 있고 측정 가능하다는 생각을 강화할 뿐이며, 환원주의적이고 실증주의적인 사고방식이라고 비판했다.
이런 움직임은 트럼프 정부가 AI의 편견과 차별 문제를 등한시하면서 기술 개발에 더 박차를 가하겠다는 최근 정책 방향에 대해 비판을 함께하고 싶어서 나온 것이라 보인다. 특히 파리 AI 액션 서밋에서 지금까지 논의해 왔던 공정성을 포함한 안전 문제를 더 이상 거론하지 않을 것 같다는 위기 의식도 작용한 것으로 보인다. |
|
|
- 앤스로픽이 ‘씽크(Think)’라는 새로운 도구를 발표했다 (3월 20일). 이는 복잡한 과업을 수행하는 동안 구조화된 생각을 하게 만드는 도구로 전에 발표한 ‘확장된 사고’와는 다르다. 이 도구는 클로드가 추가적인 사고 단계를 갖도록 하는 것인데 ‘확장된 사고’가 반응을 생성하기 전 플랜을 반복적으로 다시 고려하게 하는 것이라면 ‘씽크’는 대답을 생성할 때 잠시 멈춰서 필요한 모든 정보를 갖고 있는 지 확인하는 방식이다. 이 도구는 여러 도구를 길게 사용할 때나 정책 준수와 논증이 필요한 복잡한 작업, 사람과 대화를 길게 멀티 스텝으로 할 때 특히 더 유용하다고 한다. 그러나 단일 도구 호출이나 병렬 호출, 간단한 기본 동작에는 큰 효과가 없다고 한다.
- AI와 협업할 때 개인과 팀의 생산성이 어떻게 달라지는지 776명의 전문 직원을 대상으로 무작위 통제 실험을 진행한 연구한 결과가 나왔다 (SSRN 3월 21일, 바이오넥서스의 김태형 대표의 페이스북 포스팅에서 알게 되었다). 주요 내용 요약은 다음과 같다.
- AI를 활용한 개인과 팀 모두가 AI를 사용하지 않은 개인에 비해 높은 성과(약 0.37~0.39 표준편차 증가)를 보였으며, 작업 시간은 개인이 AI를 사용할 때 16.4%, 팀이 사용할 때는 12.7% 감소했다.
- 기존에는 연구개발 분야 전문가들이 기술 중심적이고, 상업 분야 전문가들이 시장 중심적인 아이디어를 제안하는 경향이 있었으나, AI를 활용한 경우 참가자의 전문적 배경과 관계없이 균형 잡힌 아이디어를 도출했다. 제품 개발이 주요 업무가 아닌(non-core) 직원들이 AI를 사용할 때, 핵심 업무(core-job) 직원과 유사한 수준의 성과를 달성하여, AI가 전문지식의 격차를 해소할 수 있음을 보였다.
- AI를 사용하는 참가자들은 AI 없이 혼자 작업할 때보다 긍정적인 감정(흥분, 에너지, 열정)을 더 많이 느꼈으며, 부정적 감정(불안, 좌절감)은 적게 보고했다. 이는 AI가 인간 동료가 제공하는 사회적 및 동기 부여 역할을 일부 대체할 수 있음을 나타냈다.
- AI는 단순한 도구 이상의 역할을 수행하며, 성과 향상, 전문성의 경계를 초월한 협력 촉진, 그리고 긍정적인 감정적 경험 제공 등을 통해 실질적으로 팀 구성원 역할을 수행할 수 있는 잠재력이 있다는 것이다.
|
|
|
- 미터(METR)에서 새로운 그래프를 선 보였는데, AI 에이전트의 무어 법칙이라고 칭한다. AI가 해결하는 과업을 인간이 하면 걸리는 시간을 기준으로 평가를 했더니 7개월마다 두 배 증가한다는 것이다. “지난 6년간의 추세가 이번 10년 말까지 이어진다면, 첨단 AI 시스템은 한 달 이상 소요되는 프로젝트도 자율적으로 수행할 수 있는 수준에 이를 것이이다.”
|
|
|
- 오픈AI는 o1 논증 모델의 더 강력한 버전인 o1-pro를 Responses API를 통해 공개했다 (테크크런치 3월 19일). o1-pro는 o1보다 더 많은 컴퓨팅을 사용하여 "일관되게 더 나은 응답"을 제공한다. 문제는 가격인데 매우 비싸다. 입력된 토큰 100만 개(약 75만 단어)당 150달러, 모델에서 생성된 토큰 100만 개당 600달러를 청구한다. 이는 입력 토큰을 봤을 때 GPT-4.5 가격의 두 배이고 일반 o1 가격의 10배이다.
- 앤스로픽은 계속 경고를 하고 있다. 지난 1년 동안 4개의 모델 릴리즈를 통해 얻은 경험을 바탕으로 블로그를 작성했는데 AI 모델이 주요 이중 용도 기능에서 급속한 진전의 '조기 경고' 신호를 보이고 있다고 한다. 모델은 사이버 보안에서 학부 수준의 기술과 일부 생물학 분야에서 전문가 수준의 지식에 근접하고 있으며, 어떤 경우에는 이를 능가하고 있다 (앤스로픽, 3월 20일).
- 스타게이트 프로젝트의 첫 데이터센터는 40만 개의 GPU를 수용할 공간이며 오픈AI는 이 가운데 약 1GW를 사용할 예정이라고 블룸버그가 보도했다.
- 작년에 마이크로소프트와 블랙락, MGX가 구성한 AI 인프라를 위한 컨소시움에 엔비디아와 x.AI가 조인하기로 했다 (로이터 3월 19일). 여기에는 300억 달러 이상의 초기 투자가 이루어질 예정이다.
|
|
|
슬로우뉴스 주식회사.
서울 중구 명동2길 57, 태평양빌딩 1002호. 0507-1328-1033
|
|
|
|