Stable Diffusion 이란?

텍스트를 입력받아 해당 텍스트와 일치하는 이미지 생성 딥러닝 모델

Stable Diffusion 특징

  1. 고품질 이미지 생성: Stable Diffusion은 복잡한 텍스트 입력에도 고해상도 이미지를 생성할 수 있습니다.
  2. 텍스트-이미지 변환: 사용자가 입력한 텍스트를 기반으로 이미지를 생성하므로, 창의적인 아이디어를 시각적으로 표현하는데 유용
  3. 오픈소스: 많은 연구자와 개발자가 모델을 개선하고 활용

Stable Diffusion 모델의 학습 과정

  1. 데이터 수집: 모델을 학습시키기 위해서는 대규모의 텍스트-이미지 페어 데이터셋이 필요
  2. 데이터 전처리: 수집된 데이터를 모델에 맞게 전처리 (이미지 정규화 및 텍스트 토큰화)
  3. 모델 학습: 전처리된 데이터를 사용하여 모델을 학습. 이 과정에서 이미지와 텍스트 간의 관계를 학습
  4. 모델 평가: 학습된 모델의 성능을 평가하고 모델 개선

Stable Diffusion 파인 튜닝

파인튜닝이란 사전학습된 모델을 특정 작업이나 데이터셋에 맞추기 위해 추가 학습하는 과정

DreamBooth 파인 튜닝

사용자 지정 데이터셋을 활용하여 사전 학습된 모델을 특정 요구 사항에 맞추도록 조정한다. DreamBooth는 이미지 생성 모델, 특히 텍스트-이미지 변환 모델에 자주 사용된다.

세부 조정: 특정한 소수의 이미지를 사용하여 모델을 파인튜닝 할 수 있다.
높은 품질: 입력 데이터의 세밀한 특징을 학습하여 높은 품질의 출력을 생성한다.
전용 모델 생성: 특정 인물이나 스타일을 학습하여, 유사한 결과물을 일관되게 생성할 수 있다.

자언여 처리 (NLP)

머신러닝을 사용하여 텍스트의 구조와 의미를 파악

토크나이저

토크나이저는 텍스트를 단어, 서브 단어, 문장 부호 등의 토큰으로 나누는 작업을 수행
텍스트 전처리의 핵심 과정이다.

공백 기반 토크나이저

텍스트를 공백으로 구분하여 토크나이징하는 가장 간단한 방법. 영어와 같이 공백으로 단어가 구분되는 언어에서 잘 작동한다.
중국어나 한국어와 같이 공백이 없거나 연결되어 있는 경우에 적합하지 않다.

기본 정규식 토크나이저

정규식을 사용하여 텍스트를 분할하는 방식. 사용자가 원하는 기준에 따라 토크나이징 가능하다.

BPE (Byte Pair Encoding)

서브 워드 토크나이징을 위한 알고리즘으로, 일정한 크기의 보카뷰러리를 만들기 위해 데이터셋에서 가장 많이 발생하는 문자쌍을 병합하는 방식으로 토큰 생성

Reference

https://contentstailor.com/entry/Stable-Diffusion%EA%B3%BC-%ED%8C%8C%EC%9D%B8-%ED%8A%9C%EB%8B%9D-%EB%B0%A9%EB%B2%95-%EC%99%84%EB%B2%BD-%EA%B0%80%EC%9D%B4%EB%93%9C

https://contentstailor.com/entry/%ED%85%8D%EC%8A%A4%ED%8A%B8-%ED%88%AC-%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%B3%80%ED%99%98-Hugging-Face-Diffusers-%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%9C-%EC%8B%A4%EC%8A%B5

https://contentstailor.com/entry/DreamBooth%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%9D%B4%EB%AF%B8%EC%A7%80-%ED%8C%8C%EC%9D%B8%ED%8A%9C%EB%8B%9D-%EC%BD%94%EB%93%9C%EC%99%80-%EA%B5%AC%ED%98%84-%EB%B0%A9%EB%B2%95

https://databoom.tistory.com/entry/NLP-%ED%86%A0%ED%81%AC%EB%82%98%EC%9D%B4%EC%A0%80-Tokenizer

+ Recent posts