2. [Stable Diffusion] Blender & Stable Diffusion 활용

1. 용어 및 개념 정리

1) Comfy UI의 노드 시스템(Video to Video 기준)

블렌더의 지오메트리 노드, 터치 디자이너, 후디니, 유니티의 VFX 노드와 유사하고 데이터가 연결되어 흐름을 형성하며, 통합된 작업 흐름을 만듦
크게 Input / Base / AnimateDiff / IPAdapter / ControlNet/ Render / Upscale&FrameRate Interpolation 의 그룹으로 묶임
- 같은 색상의 소켓끼리 연결 (데이터의 형태가 같도록
- 커스텀 가능 (색상, 형태, 제목 등 수정가능)
- 추가 (마우스 클릭 두번하여 검색 / 오른쪽 마우스 클릭하여 선택지로 이동)
- 노드들을 Group 안에 정리 가능
- Queue Prompt 버튼을 통해 생성 시작

Group 1) Input

Load Video

블렌더의 렌더 아웃풋을 인풋으로 넣어주기
작업의 베이스가 될 영상
최소 fps(ex.12fps), 최소 화질로 시작해 워크플로우 마지막 마트에서 프레임 인터폴레이션(프레임 속도 빠르게) / 화질 업스케일링이 가능
스테이블 디퓨전 모델별로 특화된 해상도를 사용하면 생성에 유리

Load Video(Path) 노드는 Load Video (Upload) 노드와 달리 해당 영상의 경로를 입력하면 워크플로우에 로드됨

Seed

생성 Queue의 Seed 역할
Seed가 달라지면 완전히 다른 결과가 나옴
Randomize Each Time / New Fixed Random이 있음
Randomize를 통해 매번 다르게 생성할지 / Fixed를 통해 사용했던 버전 그대로 수정할지를 주의해야 함

VAE(변분 오토인코더, Variational AutoEncoder)

인풋 비디오가 Stable Diffusion이 이해할 수 있는 형태로 바뀌어야 하는데 그것이 Latent(잠재 데이터)가 있는 VAE Encode
입력 데이터를 잠재 공간(latent space)으로 압축하고, 다시 이를 사용해 원래의 데이터를 복원하는 구조를 지님
- Vae Encode : 인풋 비디오의 픽셀값을 잠재 데이터 (latent) 로 압축, 변환
- Vae Decode : latent 를 다시 이미지로 복원

Reroute

노드 흐름 연결(확장)
복잡해진 워크플로우를 정리하고 연결하는 데에 용이

Group 2) Base

LCM LoRA

생성 속도를 빠르게 해주는 LoRA

사용 조건
1. LCM LoRA와 AnimateDiff의 모델을 Animate LCM으로 설정
2. K Sampler의 step 수를 현저히 낮춰도 됨(20 아래)
3. K Sampler의 cfg : 1.0 ~ 2.0
4. K Sampler의 sampler : LCM

CR VAE Input Swith

필수는 아님
CR VAE Input Switch는 VAE의 사용 여부를 선택하는 기능
체크포인트에 VAE가 포함된 모델이 여러 개 있어 없는 모델은 로드된 VAE 모델을 가져오고 이를 통해 VAE 1번이나 2번을 선택할 수 있음

Clip

텍스트 / 이미지 등을 이해하기 위한 모델
CLIP Text : Positive, Negative 프롬프트 등의 텍스트를 이해하여 변환
CLIP Vision : 이미지를 이해하여 변환(IPAdapter)

Group 3) AnimateDiff

애니메이션 모션을 생성할 수 있도록 도와주는 역할
Text / Image to Video 생성에 필요한 모델
Context(맥략) : 일관성을 유지하기 위한 설정. 앞 뒤 프레임에 대한 맥락을 이해해야 모션을 이어줄 수 있음
FreeU, Context Option은 앞 뒤의 일관성이나 자연스러운 프레임의 연결 등을 도와주는 장치
Motion Module(mm) : 연속된 프레임 간 자연스러운 동작 연결을 생성하기 위한 장치
LCM LoRA 사용 시에는 AnimateDiff 모델을 Animate LCM으로 설정

Group 4) IP-Adapter

Iamge Prompt Adapter : 이미지를 프롬프트로 사용하도록 하는 모델
IPAdapter Model Loder : 모델 업로드
CLIP Vision : 이미지를 이해하기 위한 모델 'Vision'
Prep Image for CLIP Vision : CLIP Vision에 입력되기 전 이미지 크기 최적화(준비하기)

만약 ComfyUI 폴더 내의 IPA-dapter 폴더에 저장 시 (\Data\Packages\ComfyUI\models\ipadapter) 적용이 되지 않는다면, \Data\Models 폴더 내에 'Ipadpater' 폴더를 만들어 저장할 것

Group 5) ControlNet

원본 이미지의 특정 내용을 감지하여 반영
선, 깊이감, 면, 포즈 등 다양한 포인트를 인식
작업 내용에 따라 서로 다른 ControlNet을 선택하여 적용
strength 조정 가능
start percent : 해당 controlNet의 반영이 시작되는 시점 (0.0일 경우 처음부터 모두 반영)
end percent : 해당 controlNet의 반영이 끝나는 시점 (1.0일 경우 끝까지 모두 반영)

Control GIF

QRCode Monster라는 모델은 예상치 못하는 흐름을 가져다 줌

Group 6) Render

K Sampler

렌더의 역할을 함
Model : Checkpoint, LoRA, AnimateDiff, IPAdapter 등을 거쳐 온 보라색 노드를 연결
Positive : positive CLIP, Prompt, ControlNet 등 노란색 노드를 연결
Negative : negative CLIP, Prompt, ControlNet 등 노란색 노드를 연결
Latent Image : VAE Encode를 거쳐 나온 Latent 또는 Empty Latent Image의 Latent 등을 연결
Steps : 몇 번의 연산 과정을 거칠 지(LCM LoRA를 사용한는 것이 아니라면 최소 24)
cfg : 생성 과정 중 프롬프트 등의 조건을 얼마나 반영 할 지 (8.0~12.0 혹은 LCM LoRA를 사용할 경우 1.0~2.0 권장)
cfg가 높을수록 입력 조건 충실히 반영(너무 높을 경우 왜곡됨)
Scheduler : 샘플링 연산의 종류
Denoise : Noise 비율을 얼마나 줄 것인가(denoise가 높을수록 원본에서 벗어남)

Video Combine

생성된 이미지들을 모아서 영상 생성
fps, 영상 포맷(gif, mp4 등) 설정 가능
Loop count : 반복되는 횟수
Save metadata : 해당 영상에 메타데이터 첨부(워크플로우 설정에 대한 정보) → 정보가 새지 않았으면 좋겠다면 false로 설정

Group 7) Upscale & FrameRate Interpolation

Upscale

Upscale Latent : 원하는 해상도의 업스케일 latent 설정(2배)
Upscale Latent By : 'scale_by(확대율)'를 통해 몇 배로 업스케일 할 지 설정
Upscale_method : 업스케일 연산 방법

VFI

Video Frame Interpolation : 영상 보간(인터폴레이션)
multiplier를 통해 프레임 간의 움직임을 부드럽게 N배 설정
Render의 Video Combine에서 frame rate가 12였던 것을 multiplier 2로 설정하니 마지막 Video Combine에서는 frame rate를 24로 해줄 수 있음

Export PNG

오른쪽 마우스 클릭하여 Workflow Image 설정 -> 워크플로우를 svg / png 파일로 추출
데이터를 임베드할 시 이미지 자체에 워크플로우를 저장 (save metadata 와 비슷하게 적용됨)
save_metadata가 true로 설정되어 모든 워크플로우에 대한 정보가 담긴 영상 및 이미지를 갖고 있어도 워크플로우가 불러와짐

'2. 3D 렌더링 및 생성형 AI 공부 > Stable Diffusion & Blender' 카테고리의 다른 글

1. [Stable Diffusion] Blender & Stable Diffusion 이해 (2)	2025.03.26

1. 용어 및 개념 정리

1) Comfy UI의 노드 시스템(Video to Video 기준)

Group 1) Input

Group 2) Base

Group 3) AnimateDiff

Group 4) IP-Adapter

Group 5) ControlNet

Group 6) Render

Group 7) Upscale & FrameRate Interpolation

'2. 3D 렌더링 및 생성형 AI 공부 > Stable Diffusion & Blender' 카테고리의 다른 글

티스토리툴바