LLaMA 4와 LM Studio 0.4 정리: MoE 전환과 로컬 AI 환경의 변화

작년까지만 해도 LLaMA 3 시리즈에 LM Studio 0.3을 조합해서 로컬 AI를 돌리는 게 최선이었다. 그런데 2025년 4월 메타가 LLaMA 4를 공개하고, LM Studio도 0.4 메이저 업데이트를 거치면서 상황이 완전히 달라졌다. 솔직히 말하면, LLaMA 4 Scout을 처음 H100 한 장에 올렸을 때의 충격이 아직도 생생하다. 이전 세대와는 차원이 다른 멀티모달 성능에 1000만 토큰 컨텍스트 윈도우라니. 그리고 LM Studio 0.4는 MCP 지원부터 헤드리스 데몬까지, 개인용 챗봇 수준을 넘어서 팀 단위 서비스 플랫폼으로 진화했다.

이 글은 작년에 썼던 LLaMA + LM Studio 가이드를 2026년 최신 기술 기준으로 전면 리뉴얼한 버전이다. LLaMA 4 시리즈의 구조적 변화부터 LM Studio 0.4의 핵심 신기능, 그리고 실제로 내 PC에서 돌리기까지의 과정을 경험 기반으로 풀어본다. 각 모델별 VRAM 요구량까지 정리했으니, 자기 환경에 맞는 조합을 찾는 데 도움이 될 거다. 1년 사이에 정말 많은 게 바뀌었는데, 결론부터 말하면 로컬 AI의 진입 장벽은 낮아졌고 할 수 있는 일은 훨씬 많아졌다.

Contents

LLaMA가 여전히 중요한 이유, 그리고 달라진 것

메타의 LLaMA 시리즈는 2023년 첫 출시 이후 오픈소스 LLM 생태계의 사실상 표준으로 자리 잡았다. GPT나 Claude 같은 상용 모델과 달리 모델 가중치를 직접 다운로드해서 내 서버에서 돌릴 수 있다는 점이 핵심이다. 파인튜닝도 자유롭고, 데이터가 외부로 나가지 않으니 보안이 중요한 환경에서 특히 빛을 발한다.

2026년 현재 LLaMA의 위상은 더 견고해졌다. 커뮤니티 규모가 압도적이다 보니 관련 도구, 파인튜닝 레시피, 양자화 모델이 가장 빨리 나온다. Hugging Face에서 meta-llama 조직 페이지만 봐도 LLaMA 3.1, 3.2, 3.3, 그리고 최신 LLaMA 4까지 다양한 선택지가 정리되어 있다. 오픈소스 LLM에 입문한다면 LLaMA 생태계부터 익히는 게 효율적인 이유가 여기에 있다.

달라진 점은 명확하다. LLaMA 4부터 아키텍처 자체가 바뀌었다. 기존의 Dense Transformer에서 Mixture of Experts, 줄여서 MoE 구조로 전환한 것이다. 쉽게 말하면 하나의 거대한 뇌가 모든 질문에 답하는 방식에서, 전문가 여러 명이 역할을 나눠서 처리하는 방식으로 바뀐 거다. 그리고 텍스트만 처리하던 이전과 달리, 이미지와 텍스트를 동시에 이해하는 네이티브 멀티모달 모델이 됐다. 이 두 가지 변화가 LLaMA 4의 핵심이고, 이전 세대와의 가장 큰 차별점이다.

LLaMA 시리즈 전체 정리, 1세대부터 4세대까지의 진화

LLaMA의 역사를 간단히 짚고 넘어가자. 버전별 특성을 알아야 자기 환경에 맞는 모델을 고를 수 있다.

LLaMA 1은 2023년 초 메타가 처음 공개한 모델로, 7B부터 65B까지 네 가지 사이즈가 있었다. 연구용 라이선스로만 제공됐고 상업적 활용은 불가능했다. 그런데 모델 가중치가 토렌트를 통해 유출되면서 오히려 오픈소스 LLM 붐에 불을 붙였다. 지금 생각하면 그 사건이 없었다면 로컬 AI 생태계가 이렇게 빨리 성장하지 못했을 거다.

LLaMA 2는 2023년 하반기에 나왔는데, 가장 큰 변화는 상업적 이용이 허가된 것이다. 7B, 13B, 70B 모델을 제공했고, Chat 버전도 함께 배포해서 일반인도 대화형으로 바로 사용할 수 있게 됐다. Hugging Face, Replicate 등과 통합되면서 접근성이 크게 좋아졌다. 이때부터 기업에서도 LLaMA를 실서비스에 적용하기 시작했고, 나도 이때 처음으로 RTX 3090에서 7B 모델을 돌려봤다.

LLaMA 3 시리즈는 2024년부터 2025년 초까지 순차적으로 공개됐다. 이 시리즈가 사실상 로컬 AI의 전성기를 열었다고 해도 과언이 아니다. 3.1은 8B, 70B, 405B 모델을 포함했고, 3.2에서는 1B, 3B 경량 모델과 11B, 90B 멀티모달 모델이 추가됐다. 3.3은 70B 사이즈의 텍스트 전용 인스트럭션 튜닝 모델로, 성능 대비 리소스 효율이 뛰어나서 지금도 로컬 환경에서 가장 많이 쓰이는 모델 중 하나다. 내가 사내 QA 봇을 만들 때도 LLaMA 3.3 70B를 기본으로 깔고 시작했는데, 한국어 성능도 기대 이상이었다.

LLaMA 4는 2025년 4월 5일에 공개됐고, 완전히 새로운 세대다. Scout, Maverick, Behemoth 세 가지 모델로 구성되어 있다. Scout은 17B 액티브 파라미터에 16개 전문가 네트워크를 가진 모델이다. 총 파라미터는 109B이지만 추론 시에는 17B만 활성화되니까 H100 GPU 한 장에서 돌릴 수 있다. 컨텍스트 윈도우가 무려 1000만 토큰이라서 엄청나게 긴 문서도 한 번에 처리할 수 있다. Maverick은 같은 17B 액티브 파라미터에 128개 전문가를 가진 모델로, 총 파라미터 400B짜리 대형 모델이다. GPT-4o, Gemini 2.0 Flash와 경쟁하는 수준의 성능을 보여주고, 메타 AI 어시스턴트의 핵심 엔진으로 쓰이고 있다. Behemoth는 288B 액티브 파라미터에 약 2조 개 총 파라미터를 가진 초거대 모델인데, 아직 공개되지 않았고 Scout과 Maverick의 학습에 교사 모델로 활용됐다.

내가 직접 느낀 LLaMA 4의 가장 큰 변화는 역시 MoE 아키텍처 전환이다. 전체 파라미터 중 일부 전문가만 활성화하는 방식이라, 모델 크기 대비 추론 속도가 훨씬 빠르다. Scout을 테스트했을 때 LLaMA 3.1 8B보다 더 좋은 성능을 내면서 추론 속도는 비슷한 수준이었다. 다만 EU 지역 사용자는 라이선스 제한이 있고, 월간 활성 사용자 7억 이상인 기업은 별도 라이선스가 필요하다는 점은 참고해야 한다.

LM Studio 0.4, 단순 챗봇을 넘어선 로컬 AI 플랫폼

LM Studio는 로컬 환경에서 오픈소스 LLM을 가장 쉽게 돌릴 수 있는 GUI 기반 도구다. 코딩 없이 모델을 다운로드하고, 채팅 인터페이스에서 바로 대화할 수 있어서 비개발자도 쉽게 접근할 수 있다. 내부적으로는 llama.cpp 엔진을 사용해서 GGUF 포맷의 양자화 모델과 궁합이 좋고, Mac에서는 MLX 엔진으로 Apple Silicon을 네이티브로 활용한다. 2026년 2월 기준 최신 버전은 0.4.5이고, 작년의 0.3.x 시절과 비교하면 완전히 다른 도구가 됐다.

가장 큰 변화는 llmster 데몬 도입이다. GUI 없이 서버나 클라우드 인스턴스에서 헤드리스로 돌릴 수 있게 됐다. 개인 PC에서 실험하다가 팀 서버로 옮기는 과정이 훨씬 자연스러워졌다. 병렬 추론도 지원해서, 예전처럼 요청이 큐에 쌓여서 하나씩 처리되는 게 아니라 여러 요청을 동시에 처리할 수 있다. 이 변화 하나만으로도 소규모 팀에서 LM Studio를 운영 환경으로 쓸 수 있는 길이 열렸다.

MCP(Model Context Protocol) 지원도 핵심적인 변화다. 외부 MCP 서버를 연결해서 로컬 모델에 도구 사용 능력을 부여할 수 있다. 예를 들어 파일 시스템 접근, 웹 검색, 데이터베이스 조회 같은 기능을 로컬 LLM에 붙이는 거다. 나도 사내 슬랙 MCP 서버를 연결해서 로컬 모델이 사내 채널 정보를 참조하도록 설정해봤는데, 생각보다 잘 작동했다. 단순한 챗봇이 아니라 업무 도구로서의 가능성을 확인한 순간이었다.

LM Link 기능도 주목할 만하다. Tailscale과 파트너십으로 만든 원격 접속 기능인데, 원격 LM Studio 인스턴스에 연결해서 마치 로컬에 모델이 있는 것처럼 사용할 수 있다. 엔드투엔드 암호화를 지원해서 보안 걱정도 덜하다. 회사 GPU 서버에 LM Studio를 띄워놓고 집에서 접속하는 식으로 활용하면 출퇴근 장소에 구애받지 않고 동일한 AI 환경을 유지할 수 있다.

API 호환성도 대폭 강화됐다. OpenAI 호환 API는 기본이고, Anthropic 호환 엔드포인트(/v1/messages)까지 지원한다. Python과 TypeScript SDK도 1.0 정식 버전이 나왔고, CLI 도구인 lms의 기능도 풍부해졌다. lms load 명령에 –estimate-only 옵션을 붙이면 모델 로딩 전에 GPU와 전체 메모리 사용량을 미리 확인할 수 있어서 VRAM 부족으로 실패하는 일을 줄일 수 있다. 상업적 사용도 이제 별도 라이선스 없이 자유롭게 가능하다는 것도 큰 변화다.

실전 설치와 사용, 내 PC에서 LLaMA 돌리기

LM Studio에서 LLaMA 모델을 실행하는 과정은 정말 간단하다. 복잡한 환경 설정 없이 몇 단계만 거치면 된다.

먼저 LM Studio 공식 사이트에서 자기 운영체제에 맞는 설치 파일을 다운로드한다. Windows, macOS, Linux 모두 지원하고, Linux ARM도 지원하니까 NVIDIA DGX Spark 같은 환경에서도 바로 쓸 수 있다. 설치 용량 자체는 약 550MB 정도다. 설치 후 첫 실행 시 사용자 경험 수준을 선택하는 화면이 나오는데, 개발자라면 Developer Mode를 활성화하는 게 좋다. 0.4부터는 일반 모드와 Developer Mode 두 가지로 단순화됐다.

모델 다운로드는 앱 내 Discover 탭에서 바로 할 수 있다. 검색창에 llama를 치면 다양한 양자화 버전의 LLaMA 모델들이 나온다. GGUF 포맷이 기본이고, Mac에서는 MLX 포맷 모델도 선택할 수 있다. 자기 GPU VRAM에 맞는 양자화 버전을 고르면 되는데, LM Studio가 자동으로 VRAM 추정치를 보여주니까 참고하면 된다.

처음 시작하는 사람에게는 LLaMA 3.2 3B Q4 양자화 모델을 추천한다. 다운로드 사이즈도 2GB 정도로 작고, 일반 노트북에서도 돌아가니까 설치 과정에 익숙해지기 좋다. 익숙해지면 LLaMA 3.3 8B, 그다음 70B로 올라가면 된다.

모델을 다운로드하면 채팅 탭에서 바로 대화를 시작할 수 있다. 0.4에서 추가된 Split View 기능을 쓰면 두 개의 채팅을 나란히 놓고 모델 간 응답을 비교할 수 있어서 모델 선택 시 유용하다. 서버 기능을 켜면 localhost에서 OpenAI 호환 API가 활성화되니까, 자기가 만든 애플리케이션에서 바로 API 호출을 할 수 있다.

CLI로도 모든 작업이 가능하다. lms get 명령으로 모델을 다운로드하고, lms load로 로딩한 뒤, lms chat으로 터미널에서 바로 대화할 수 있다. 서버 환경에서는 이 방식이 더 편하다. 특히 lms load에 –estimate-only 플래그를 붙이면 실제 로딩 전에 GPU 메모리와 시스템 메모리 사용 추정치를 확인할 수 있어서, VRAM 부족으로 모델 로딩이 실패하는 황당한 경험을 미리 방지할 수 있다. 나도 처음에 이 기능을 몰라서 70B 모델을 24GB GPU에 그냥 올렸다가 뻗는 경험을 여러 번 했다.

하드웨어 사양 가이드, 모델별 요구 VRAM 정리

로컬에서 LLaMA를 돌리려면 GPU VRAM이 가장 중요하다. 모델 크기와 양자화 방식에 따라 필요한 VRAM이 크게 달라진다.

LLaMA 3.2 1B는 FP16 기준 약 2GB, Q4 양자화 시 약 1GB면 충분하다. 가벼운 실험이나 엣지 디바이스용으로 적합하다. LLaMA 3.2 3B는 FP16 기준 6GB, Q4로는 2GB 정도라서 일반 노트북에서도 충분히 돌릴 수 있다.

LLaMA 3.3 8B급은 FP16 기준 약 16GB, Q4 양자화로 약 5GB가 필요하다. RTX 3060 12GB나 RTX 4060 8GB면 Q4 양자화된 8B 모델을 여유있게 돌릴 수 있다. 한국어 일상 대화나 간단한 코드 생성 정도는 이 사양으로 충분하다.

LLaMA 3.3 70B는 FP16이면 140GB가 필요해서 일반 GPU로는 어렵고, Q4 양자화를 적용하면 약 40GB로 줄어든다. RTX 4090 24GB 한 장으로는 부족하고, 48GB급 L40s나 A6000, 또는 RTX 4090 두 장이 필요하다. 성능은 확실히 차원이 다르지만 그만큼 진입 장벽도 높다.

LLaMA 4 Scout은 총 파라미터가 109B이지만 MoE 구조라 액티브 파라미터가 17B다. 양자화 없이도 H100 80GB 한 장에 올릴 수 있다. 양자화된 GGUF 버전은 커뮤니티에서 점진적으로 만들어지고 있는데, 아직은 LLaMA 3.x 시리즈가 로컬 환경에서 더 안정적이다.

개인 사용자라면 RTX 4060 Ti 16GB나 RTX 4070 Ti Super 16GB 정도면 8B급 모델을 쾌적하게 돌릴 수 있다. Mac 사용자는 M2 Pro 이상이면 통합 메모리 덕분에 생각보다 큰 모델도 돌릴 수 있다. 스타트업이나 중소기업에서 팀 단위로 쓸 거라면 L40s 48GB나 A100 80GB급 GPU를 갖춘 서버를 추천한다. 클라우드로 시작하려면 AWS, GCP, Azure 모두 GPU 인스턴스를 제공하니까 월 단위로 빌려 쓰는 것도 방법이다. 특히 처음 로컬 AI를 경험해보는 단계라면 클라우드에서 큰 모델을 먼저 테스트해보고, 본격적으로 쓸 모델과 사양이 확정되면 온프레미스 장비를 구매하는 순서가 비용 측면에서 현명하다. GPU 가격이 워낙 비싸다 보니 잘못된 선택을 하면 수백만 원이 날아갈 수 있으니까.

2026년 LLaMA 생태계 최신 동향과 전망

2026년 LLaMA 생태계에서 주목할 흐름을 정리해보자.

첫째, LLaMA 4의 MoE 아키텍처가 오픈소스 생태계 전반에 영향을 주고 있다. DeepSeek V3가 먼저 보여줬던 MoE의 효율성을 메타가 LLaMA 4에서 본격 채택하면서, 이제 대형 모델도 적정한 하드웨어에서 돌릴 수 있는 시대가 열렸다. 같은 성능을 더 적은 GPU로 달성할 수 있다는 건 로컬 AI에 있어 게임 체인저다.

둘째, LM Studio의 MCP 지원은 로컬 LLM의 활용 범위를 근본적으로 넓혔다. 단순한 텍스트 생성을 넘어서, 외부 도구와 연결된 에이전트 워크플로우를 로컬에서 구현할 수 있게 된 거다. Claude Code와의 연동까지 지원하면서, 코딩 보조 도구로서의 가치도 높아지고 있다. 앞으로 MCP 생태계가 더 커지면 로컬 LLM의 실용성은 지금과 비교할 수 없을 정도로 올라갈 거다.

셋째, LLaMA 3.x 시리즈는 여전히 건재하다. LLaMA 4가 나왔다고 해서 3.x가 쓸모없어진 게 아니다. 오히려 3.3 70B는 텍스트 전용 작업에서 가성비가 뛰어나고, 양자화 도구와 파인튜닝 파이프라인이 가장 잘 갖춰져 있어서 실무에서는 여전히 주력 모델이다. 3.2의 1B, 3B 경량 모델도 엣지 디바이스나 온디바이스 AI에서 활발하게 쓰이고 있다. 새 버전에 바로 뛰어들기보다는 검증된 3.x를 기반으로 잡고, 4 시리즈는 점진적으로 도입하는 전략이 현실적이다. 실제로 내 주변의 스타트업 개발자들도 대부분 이 전략을 따르고 있다. 안정성이 검증된 모델 위에 서비스를 올리고, 새 모델은 별도 환경에서 충분히 테스트한 뒤에 전환하는 식이다.

마무리

LLaMA 4의 MoE 아키텍처와 네이티브 멀티모달, 그리고 LM Studio 0.4의 헤드리스 데몬과 MCP 지원. 이 조합이 2026년 로컬 AI의 풍경을 바꾸고 있다. 1년 전만 해도 로컬에서 이미지를 이해하는 AI를 돌린다는 건 꽤 번거로운 일이었는데, 이제는 LM Studio에서 클릭 몇 번이면 가능한 시대가 됐다.

중요한 건 자기 환경에 맞는 조합을 찾는 거다. 가벼운 실험이라면 LLaMA 3.2 3B와 LM Studio를 Mac에서 바로 돌리면 되고, 실무 수준의 한국어 처리가 필요하면 LLaMA 3.3 70B Q4를 GPU 서버에 올리면 된다. LLaMA 4 Scout은 H100이나 L40s 환경이 갖춰져 있다면 반드시 한 번 경험해볼 가치가 있다. MoE 구조의 효율성과 멀티모달의 가능성을 직접 체감하면 로컬 AI에 대한 시각 자체가 달라진다. 기술은 빠르게 바뀌지만, 직접 설치하고 돌려본 경험은 어떤 문서보다 값지다. LM Studio를 열고 모델 하나를 내려받는 것부터 시작해보자. 생각보다 간단하고, 생각보다 강력하다.