AI 뉴스 5월 22, 2026 2 min read

Microsoft Fara1.5 공개: 브라우저 AI 에이전트 4B·9B·27B가 바꾸는 자동화 경쟁

Microsoft Research의 Fara1.5는 브라우저 작업을 수행하는 컴퓨터 사용 에이전트 모델군입니다. 4B·9B·27B 세 가지 크기와 배포 효율성이 자동화 경쟁에 주는 의미를 짚습니다.

Microsoft Fara1.5 공개: 브라우저 AI 에이전트 4B·9B·27B가 바꾸는 자동화 경쟁

무엇이 바뀌었나: MSR이 브라우저 컴퓨터 제어 에이전트 Fara1.5(4B·9B·27B)를 공개했고, Microsoft Research 자료와 Azure AI Foundry 카탈로그로 모델 구조와 배포 경로를 함께 확인할 수 있습니다. 왜 지금 중요한가: 공개 벤치마크 성능이 높더라도 실제 도입 판단은 안전 장치, 영어 전용 제약, 배포 범위를 함께 봐야 합니다. 누가 먼저 체감하나: 에이전트 도입을 검토하는 제품팀·운영팀·투자자는 독립 검증 전까지 성능 수치와 운영 제약을 분리해 봐야 합니다.

Microsoft의 핵심 비교를 시각화한 보조 이미지
Microsoft의 핵심 비교를 시각화한 보조 이미지

무엇이 실제로 달라졌나?

Microsoft의 핵심은 발표 문장 자체보다 공식 자료, 벤치마크 조건, 실제 배포 방식이 서로 맞물리는지에 있습니다. 핵심 쟁점은 첫 번째 핵심 주장의 적용 범위와 근거 수준입니다. 공개 자료가 제품 범위와 일정까지 뒷받침하면 검토를 앞당길 수 있고, 연결이 약하면 관찰 항목으로 남겨야 합니다.

확인과 미확인: 지금 검증 상태

구분 현재 판단
확인된 사실 공식 자료 기준 발표 주체와 핵심 모델 정보는 확인된 사실로 다룹니다.
해석 성능 주장은 방향성 신호로 보되 실제 운영 판단은 보류해야 할 판단입니다.
미확인 독립 벤치마크가 나오기 전까지는 가격, TCO, 호환성 비용을 확정하지 않습니다.

왜 지금 확인해야 하나?

  • 발표 주체와 적용 대상이 같은지 본다.
  • 일정, 제품명, 적용 지역이 최신 자료와 맞는지 본다.
  • 실행 범위와 남은 예외가 공개됐는지 본다.
  • 보도 해석이 공식 자료보다 앞서간 부분이 있는지 본다.
  • 벤치마크 조건과 실제 운영 환경이 얼마나 다른지 본다.

누가 먼저 영향을 받나?

사용자와 실무자는 기능 또는 공급 조건이 자기 환경에 실제로 적용되는지 봐야 합니다. 투자자와 운영 담당자는 수치가 원문 기준인지, 해석 기사에서 확장된 표현인지 나눠야 합니다.

지금 판단 기준은 무엇인가?

확인할 영역 현재 연결된 근거 판단 포인트
Microsoft Research가 브라우저용 컴퓨터 사용 에이전트(CUA) 모델군 Fara1.5-4B, Fara1.5-9B, Fara1.5-27B를 공개했습니다. 핵심은 모델명보다 브라우저에서 비교·양식 입력·예약 같은 실제 작업을 얼마나 안정적으로 수행하는지, 그리고 배포 가능한 크기와 안전 장치가 함께 제시됐는지입니다. microsoft.com, techcommunity.microsoft.com 발표 주체와 적용 대상이 같은지 본다.
핵심 질문이었던 성능 우위의 실체를 파악했습니다. Fara1.5-27B 모델은 Online-Mind2Web 벤치마크에서 72%의 작업 성공률을 기록하여 OpenAI Operator(58.3%), Gemini 2.5 Computer Use(57.3%), Yutori Navigator n1(64.7%)을 상회하는 성능을 보였습니다. 9B 모델 역시 동일 규모 모델인 MolmoWeb 8B, GUI-Owl-1.5 8B 등을 능가하는 63%의 성공률을 입증했습니다. microsoft.com, techcommunity.microsoft.com 일정, 제품명, 적용 지역이 최신 자료와 맞는지 본다.
기존의 한계를 극복하기 위해 제안된 ‘FaraGen1.5’ 합성 데이터 생성 파이프라인의 메커니즘을 규명했습니다. 연구진은 로그인이나 인증이 필요한 환경(gated domains) 문제를 해결하기 위해 메일, 캘린더 등 6개의 가상 앱 클론 환경인 ‘FaraEnvs’를 구축해 훈련 데이터 확보에 활용했습니다. 또한, 결제나 메일 발송 등 민감한 단계에서는 독단적으로 진행하지 않고 사용자 확인을 구한 뒤 일시 정지하도록 설계된 안전 메커니즘을 탑재했습니다. microsoft.com, techcommunity.microsoft.com 실행 범위와 남은 예외가 공개됐는지 본다.
실무자들이 주목해야 할 핵심 설계 특징인 ‘동작 일시 정지(Pause)’의 명확한 작동 조건을 파악했습니다. Fara1.5는 작업을 수행하는 도중 개인 정보 제공이 추가로 필요할 때, 모호한 사용자 지시문으로 판단될 때, 그리고 결제 완료나 이메일 발송 등 승인 없이 처리하기 어려운 되돌릴 수 없는 작업을 마주할 때 독단적인 판단을 멈추고 인간 개입(Human-in-the-loop)을 강제하도록 사전 학습되어 있습니다. microsoft.com, techcommunity.microsoft.com 보도 해석이 공식 자료보다 앞서간 부분이 있는지 본다.
마이크로소프트 애저 파운드리 모델 카탈로그의 시스템 카드 분석 결과, Fara1.5 모델군은 공식적으로 ‘영어 전용(English only)’ 모델로 설계되었습니다. 영어가 아닌 텍스트나 인터페이스를 처리할 경우 에이전트 성능이 심각하게 저하되거나 내장된 안전 장치가 오작동할 수 있다는 제약이 확인되었습니다. 이는 한글 기반의 국내 웹 서비스나 한국어 지시문 처리가 필수적인 국내 비즈니스 환경에 당장 도입하기에는 기술적 공백이 크다는 중요한 시사점을 줍니다. microsoft.com, techcommunity.microsoft.com 벤치마크 조건과 실제 운영 환경이 얼마나 다른지 본다.
  • 판단에 미치는 의미: 이 성능 지표들이 독립된 타 연구진에 의해 재현 가능한 수준인지 파악하기 위해 공식 기술 보고서 전문과 아카이브(arXiv) 논문을 면밀히 추적하고 있습니다. 또한 모델들의 구동 환경인 샌드박스 브라우저 인터페이스 ‘MagenticLite’의 구현 방식과 실제 배포 방식에 대한 구체적인 세부 기술 정보를 수집하여 실무 관점에서의 적합성을 평가하고자 합니다.

지금 써볼지 말지 판단 기준

공식 출처와 독립 출처가 같은 방향을 가리키고 적용 범위가 내 상황과 맞으면 검토합니다. 핵심 조건이 비어 있으면 지금은 관찰 목록에 둡니다.

바로 확인할 체크리스트

  • 공식 또는 1차 출처가 핵심 주장에 직접 연결되어 있는지 확인한다.
  • 금액·날짜·규제 조건처럼 결정에 영향을 주는 항목은 원문 기준으로 다시 대조한다.
  • 뉴스·분석 출처는 배경 설명으로만 사용하고 최종 판단은 원문 공개 자료에 둔다.

아직 보류할 조건은 무엇인가?

  • 후속 공시, 공식 FAQ, 규제 문서, 제품 문서가 업데이트되면 현재 판단을 다시 확인한다.

FAQ: Microsoft에서 자주 묻는 질문

Microsoft에서 무엇을 먼저 확인해야 하나?

공식 출처의 발표 주체, 모델명, 적용 범위, 벤치마크 조건이 서로 맞는지 먼저 확인해야 합니다.

지금 도입해도 되는 조건은 무엇인가?

독립 벤치마크, 실제 가격이나 TCO, 배포 범위와 호환성 비용이 확인될 때 검토를 앞당길 수 있습니다.

결론: 지금은 발표보다 검증 조건을 먼저 볼 때다

앞으로 봐야 할 지표는 독립 벤치마크, 실제 가격 또는 TCO, 배포 범위, 그리고 호환성 비용입니다. 이 네 가지가 공개 출처에서 함께 확인되면 검토를 앞당기고, 하나라도 비어 있으면 지금은 관찰 목록에 두는 편이 안전합니다.

Fluxaivory

AI 워크플로우 분석 및 자동화 에이전시 운영 전략가. 미래지향적 비즈니스 파이프라인과 툴 체인을 설계합니다.