DiffSensei — нейросеть для создания индивидуальной манги
DiffSensei AI, создатель революционной нейросетевой манги, предлагает вам самим попробовать написать свою историю! Система, использующая мультимодальные модели и LoRA, генерирует мангу в три этапа: макеты, персонажи, диалоги. Хотя система пока несовершенна (проблемы с нечеткими персонажами и стилистическим единством), она уже предоставляет мощный инструмент для создания персонализированных историй. Этот инструмент — находка для художников и писателей!
DiffSensei может создавать регулируемые черно-белые манга-панели с гибкой адаптацией персонажей.
Основные характеристики:
🌟 Генерация панелей манги с различным разрешением (размер края 64-2048!)
🖼️ Одно входное изображение персонажа, создание различных образов
✨ Универсальные приложения: индивидуальная генерация манги, создание настоящей человеческой манги
🎉 Новости
[2024-12-13] Выпущена новая версия gradio demo без MLLM (гораздо меньшее использование памяти)!
[2024-12-10] Выпущены контрольная точка, набор данных и код вывода!
Быстрый старт
# Create a new environment with Conda
conda create -n diffsensei python=3.11
conda activate diffsensei
# Install Pytorch and Diffusers related packages
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# Install other dependencies
pip install -r requirements.txt
# Third-party repo for running the gradio demo
pip install gradio-image-prompter
Загрузка модели
Загрузите нашу модель DiffSensei с huggingface и поместите ее в папку checkpoints
следующим образом:
- Если вы не планируете использовать компонент MLLM, вы можете загрузить модель без компонента MLLM и использовать
gradio_wo_mllm.py
для получения результатов.
checkpoints
|- diffsensei
|- image_generator
|- ...
|- mllm
|- ...
Вывод с помощью Gradio
Предоставляем демо-версию Gradio для вывода DiffSensei.
CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
--config_path configs/model/diffsensei.yaml \
--inference_config_path configs/inference/diffsensei.yaml \
--ckpt_path checkpoints/diffsensei
Также предлагается версия без MLLM, предназначенная для меньшего использования памяти. Если выбрана эта версия, можно пропустить загрузку компонента MLLM в контрольной точке, что значительно сократит потребление памяти. (Может быть запущен на одном графическом процессоре 4090 емкостью 24 ГБ с параметром batch-size=1 для панелей малого или среднего размера). Хотя в этой версии может быть немного снижена совместимость с текстом, общее качество практически не пострадает.
CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio_wo_mllm \
--config_path configs/model/diffsensei.yaml \
--inference_config_path configs/inference/diffsensei.yaml \
--ckpt_path checkpoints/diffsensei
Пожалуйста, наберитесь терпения. Попробуйте больше подсказок, персонажей и случайных начинок, а также загрузите понравившиеся вам манга-панно!
Набор данных MangaZero
Из-за проблем с лицензией не возможно напрямую предоставлять доступ к изображениям. Вместо этого предоставляются URL-адреса изображений манги (в MangaDex) и аннотации к набору данных MangaZero. Обратите внимание, что выпущенная версия MangaZero составляет около 3/4 от полного набора данных, используемого для обучения. Изображения отсутствуют из-за того, что некоторые URL-адреса недоступны. Для аналогичного использования данных о манге настоятельно рекомендуется всем, кто заинтересован, свободно собирать свои данные из MangaDex, следуя инструкциям MangaDex API..
Скачайте MangaZero с Huggingface.
После загрузки файла аннотации, поместите файл аннотации в файл data/mangazero/annotations.json
и запустите scripts/dataset/download_mangazero.py
для загрузки и упорядочивания изображений.
python -m scripts.dataset.download_mangazero \
--ann_path data/mangazero/annotations.json \
--output_image_root data/mangazero/images
Ссылка
article{wu2024diffsensei,
title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},
author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},
journal={arXiv preprint arXiv:2412.07589},
year={2024},
}
В будущем DiffSensei AI планирует расширить применение технологии на комиксы и анимацию. Оставайтесь с нами!