'quantization' 태그의 글 목록

[llm_python]beomi/llama-2-ko-7b 4bit quantization 양자화 모델 구동하기

졸업 프로젝트로 LangChain + FastAPI 기반 RAG 시스템을 만들던 중,기존 llm성능이 너무 떨어져NVIDIA GeForce RTX 4070 SUPER (12GB VRAM) 외장gpu를 교수님께 받게 되었다. 작은 모델( skt/kogpt2-base-v2 )에서 조금 더 사이즈를 키워 라마기반 모델( beomi/llama-2-ko-7b )을 돌려보았다. beomi/llama-2-ko-7b 모델은 full precision 기준 10~12GB 이상의 VRAM을 요구한다.내 GPU는 RTX 4070 SUPER로 12GB VRAM이라 간당간당해서 4bit 양자화(Quantization)를 적용했다.VRAM 사용량을 약 3~4GB로 감소시켜 더 안정적인 로딩이 가능해짐. 개발 환경은 다음과 같다..

졸업 프로젝트 2025.05.26

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

0sooobin0 님의 블로그

quantization 1

티스토리툴바