0sooobin0 님의 블로그

  • 홈
  • 태그
  • 방명록

quantization 1

[llm_python]beomi/llama-2-ko-7b 4bit quantization 양자화 모델 구동하기

졸업 프로젝트로 LangChain + FastAPI 기반 RAG 시스템을 만들던 중,기존 llm성능이 너무 떨어져NVIDIA GeForce RTX 4070 SUPER (12GB VRAM) 외장gpu를 교수님께 받게 되었다. 작은 모델( skt/kogpt2-base-v2 )에서 조금 더 사이즈를 키워 라마기반 모델( beomi/llama-2-ko-7b )을 돌려보았다. beomi/llama-2-ko-7b 모델은 full precision 기준 10~12GB 이상의 VRAM을 요구한다.내 GPU는 RTX 4070 SUPER로 12GB VRAM이라 간당간당해서 4bit 양자화(Quantization)를 적용했다.VRAM 사용량을 약 3~4GB로 감소시켜 더 안정적인 로딩이 가능해짐. 개발 환경은 다음과 같다..

졸업 프로젝트 2025.05.26
이전
1
다음
더보기
프로필사진

0sooobin0 님의 블로그

0sooobin0 님의 블로그 입니다.

  • 분류 전체보기 (5)
    • 텍스트 마이닝 (0)
    • 졸업 프로젝트 (5)
    • 2025전기 산학 (0)

Tag

asus geforce rtx 4070 super, Llama, llm오류해결, nvidia geforce rtx 4070 super, 라마코, 토큰초과에러, quantization, 인덱싱에러, llama-ko, HuggingFace, KoGPT2, use_fast, omp에러, akitio node titan, beomi/llama-2-ko-7b, safetensors, langchain, eGPU, OMP, mouse freezing,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바