DevGang
Авторизоваться

DiffSensei — нейросеть для создания индивидуальной манги

DiffSensei AI, создатель революционной нейросетевой манги, предлагает вам самим попробовать написать свою историю! Система, использующая мультимодальные модели и LoRA, генерирует мангу в три этапа: макеты, персонажи, диалоги. Хотя система пока несовершенна (проблемы с нечеткими персонажами и стилистическим единством), она уже предоставляет мощный инструмент для создания персонализированных историй. Этот инструмент — находка для художников и писателей! 

DiffSensei может создавать регулируемые черно-белые манга-панели с гибкой адаптацией персонажей.

Основные характеристики:

🌟 Генерация панелей манги с различным разрешением (размер края 64-2048!)

🖼️ Одно входное изображение персонажа, создание различных образов

✨ Универсальные приложения: индивидуальная генерация манги, создание настоящей человеческой манги

🎉 Новости

[2024-12-13] Выпущена новая версия gradio demo без MLLM (гораздо меньшее использование памяти)!

[2024-12-10] Выпущены контрольная точка, набор данных и код вывода!

Быстрый старт

# Create a new environment with Conda
conda create -n diffsensei python=3.11
conda activate diffsensei
# Install Pytorch and Diffusers related packages
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# Install other dependencies
pip install -r requirements.txt
# Third-party repo for running the gradio demo
pip install gradio-image-prompter

Загрузка модели

Загрузите нашу модель DiffSensei с huggingface и поместите ее в папку checkpoints следующим образом:

  • Если вы не планируете использовать компонент MLLM, вы можете загрузить модель без компонента MLLM и использовать gradio_wo_mllm.py для получения результатов.
checkpoints
  |- diffsensei
    |- image_generator
      |- ...
    |- mllm
      |- ...

Вывод с помощью Gradio

Предоставляем демо-версию Gradio для вывода DiffSensei.

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

Также предлагается версия без MLLM, предназначенная для меньшего использования памяти. Если выбрана эта версия, можно пропустить загрузку компонента MLLM в контрольной точке, что значительно сократит потребление памяти. (Может быть запущен на одном графическом процессоре 4090 емкостью 24 ГБ с параметром batch-size=1 для панелей малого или среднего размера). Хотя в этой версии может быть немного снижена совместимость с текстом, общее качество практически не пострадает.

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio_wo_mllm \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

Пожалуйста, наберитесь терпения. Попробуйте больше подсказок, персонажей и случайных начинок, а также загрузите понравившиеся вам манга-панно!

Набор данных MangaZero

Из-за проблем с лицензией не возможно напрямую предоставлять доступ к изображениям. Вместо этого предоставляются URL-адреса изображений манги (в MangaDex) и аннотации к набору данных MangaZero. Обратите внимание, что выпущенная версия MangaZero составляет около 3/4 от полного набора данных, используемого для обучения. Изображения отсутствуют из-за того, что некоторые URL-адреса недоступны. Для аналогичного использования данных о манге настоятельно рекомендуется всем, кто заинтересован, свободно собирать свои данные из MangaDex, следуя инструкциям MangaDex API..

Скачайте MangaZero с Huggingface.

После загрузки файла аннотации, поместите файл аннотации в файл data/mangazero/annotations.json и запустите scripts/dataset/download_mangazero.py для загрузки и упорядочивания изображений.

python -m scripts.dataset.download_mangazero \
  --ann_path data/mangazero/annotations.json \
  --output_image_root data/mangazero/images

Ссылка

article{wu2024diffsensei,
  title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},
  author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},
  journal={arXiv preprint arXiv:2412.07589},
  year={2024},
}

В будущем DiffSensei AI планирует расширить применение технологии на комиксы и анимацию. Оставайтесь с нами!

Источник:

#Python
Комментарии
Чтобы оставить комментарий, необходимо авторизоваться

Присоединяйся в тусовку

В этом месте могла бы быть ваша реклама

Разместить рекламу