CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms

티스토리 뷰

공부한 내용 정리/인공지능

CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms

ProWiseman 2020. 8. 8. 00:37

들어가며

이번에 StyleGAN2로 CAN 구현 후 Style Transfer로 화풍 학습 시키는 프로젝트를 하면서 CAN에 대해 공부하게 됐다. 내용은 GAN을 알고 있다고 가정하며 GAN에 대한 내용은 생략했으며 자세한 내용은 논문을 보면 좋겠다.

내용

Background

이 논문은 D. E. Berlyne이 제안한 이론에서 동기를 얻었다(motivated)고 했다. Berlyne은 심리학적 개념인 각성(arousal)이 미적 현상을 연구하는데 큰 관련이 있다고 했다. 각성의 정도(Level of arousal)는 인간이 얼마나 경계하거나 흥분하냐에 따라 측정된다고 한다.

각성 잠재력(arousal potential)이라는 용어는 각성을 증가시키는 자극 패턴(stimulus patterns)의 특성을 지칭한다고 한다. Berlyne은 가장 중요한 각성을 증가시키는 미적 특성은 참신함(novelty), 놀라움(surprisingness), 복잡성(complexity), 모호함(ambiguity), 당황스러움(puzzlingness)이라고 강조했다.

참신함은 자극이 관찰자가 이전에 보거나 경험했던 것과 다른 정도를 나타낸다. 놀라움은 기대에 동의하지 않음의 정도를 나타낸다. 놀라움은 반드시 참신함과 관련되는 것은 아니며 예를 들어 이것은 참신함의 부족에서 비롯될 수 있다. 복잡성은 자극에 독립적인 요소의 수가 증가함에 따라 증가하는 자극 내 특성이다. 모호함은 자극의 의미(semantic)와 구문(syntactic) 정보 사이의 충돌을 의미한다. 당황스러움은 잠재적으로 일관적이지 않은 여러 가지 의미로 인한 모호함을 나타낸다.

몇몇 연구에 따르면 사람들은 적당한 각성 잠재력을 선호한다고 한다. 각성 잠재력이 너무 적으면 지루하다고 느끼고, 너무 많으면 혐오 시스템을 활성화시켜 부정적인 반응을 초래한다고 한다. 이러한 행동들은 각성 잠재력과 쾌락 반응(hedonic response)을 상관시키는(correlates) Wundt curve에 의해 설명된다.

Martindale은 예술 생산 시스템을 이끌어내는 데 있어 습관화(habituation)가 중요하다고 강조했다. 만약 예술이 계속 비슷한 예술작품을 생산한다고 할 때, 각성 잠재력과 예술의 바람직함은 직접적으로 줄어들 적이다. 따라서 어느 시점에서든 예술 생산 시스템은 생산된 예술의 각성 잠재력을 증가시키려고 노력할 것이다. 다시 말해 습관화는 예술이 바뀌도록 지속적인 압력을 형성할 것이다. 그러나 Wundt curve 연구 결과에 따르면, 각성 잠재력의 증가는 음의 쾌락(hedonic) 범위로 떨어지지 않고 습관화를 보상하는 데 필요한 최소량 내에 있어야 한다(supernormal(어떻게 해석해야 될지 모르겠음)보다 약간의 자극이 바람직하다.). Martindale은 이것은 최소 노력(least effort)의 법칙이라 부른다. 따라서 예술 변화 속도로 이어지는 반대 압력이 있다.

Art Generation Agent

에이전트의 목표는 혐오 시스템을 활성화하지 않고 음의 hedonic 범위로 떨어지지 않고 제한된 방식으로 각성 수준이 높은 예술을 생성하는 것이다. 다른 말로 에이전트는 참신하지만 너무 참신하지 않은 예술을 생성하려고 노력하는 것이다. 여기서 나온 Art Generation Agent는 예술 작품을 인코딩할 메모리를 갖고 있고, 지속적으로 새로운 예술작품을 업데이트하는 것이 가능하다. 에이전트는 이 인코딩 된 메모리를 간접적인 방법으로 사용하면서 각성 잠재력을 억제하여 새로운 예술 작품을 생성한다. 반면 각성 잠재력을 증가시키는 몇 가지 방법이 있는데, 이 논문에서는 스타일의 모호함(stylistic ambiguity)와 스타일 평균의 편차를 증가시키는 에이전트를 만드는 데에 중점을 두었다. 다만 에이전트가 예술로서 허용되는 범위를 벗어나도록 하는 것은 피하였다. 에이전트는 확립된 스타일 규범에서 벗어나 창의적인 공간을 탐색하여 새로운 예술을 만들기 위해 노력한다.

제안된 art-generating agent는 다음으로 설명할 Creative Adversarial Network(CAN)에 의해 실현될 것이다. 이 네트워크는 기존의 예술적 움직임이나 스타일을 따르지 않는 예술을 생성하도록 설계되었지만 사람이 생성된 예술을 보고 최대한 어떤 스타일에 속해있는지 혼란스러워하도록 노력한다.

GAN: Emulative and not Creative

GAN은 카테고리나 캡션에 따라 이미지 생성에 용이하다. 우리는 레이블을 학습함으로써 다른 예술 스타일이나 다른 예술 장르의 이미지를 생성하도록 디자인되거나 학습된 GAN을 생각할 수 있다. 이것은 확실히 르네상스나 인상파, 입체파 같은 예술을 생성할 수 있다. 그러나 그런 건 창의적인 게 아니다. 오늘날의 어느 창의적인 예술가도 바로크나 인상파 스타일이나 어느 전통적 스타일이든 모방하려고 하지 않을 것이다. Berlyne과 Martindale에 따르면 예술가들은 참신하거나 놀랍고 모호하고 당황스러운 예술을 만듦으로써 그들의 예술에 각성 잠재력을 늘리려 노력할 것이다. 이러한 부분은 GAN을 창의적인 작업물을 생성하는 데에 사용하는 것의 근본적인 한계를 제시한다.

From being Emulative to being Creative

이 논문에서 제안된 Creative Adversarial Network (CAN)에서 Generator는 세 가지 포인트를 얻기 위한 두 개의 모순되는 힘으로 작용하는 Discriminator로부터 두 가지의 신호를 받도록 디자인되어있다. 여기서 얻고자 하는 세 가지 점은 다음과 같다.

참신한 결과물을 생성한다.
참신한 결과물은 너무 참신하지 말아야 한다. 너무 많이 참신하면 너무 많이 각성될 것이고 혐오 시스템을 활성화시킬 것이다. 이는 Wundt curve에 따라 쾌락 범위가 음의 범위로 떨어질 것이다.
생성된 작업물은 스타일적 모호함이 증가해야 한다.

GAN과 비슷하게 CAN도 두 개의 적대 네트워크(adversary networks)가 있다. Discriminator는 르네상스, 바로크, 인상파, 표현주의 등과 같은 스타일 레이블과 관련된 예술 데이터셋에 접근할 수 있다. 그리고 이것을 스타일을 구별하는 데에 사용된다. Generator는 데이터셋에 아무런 접근 권한이 없이 무작위 인풋으로부터 예술을 생성하기 시작한다. 하지만 GAN과 달리 Generator가 생성한 작업물에 대해 Discriminator로부터 두 가지의 신호를 받는다. 첫 번째 신호는 "예술이냐 아니냐"이다. 이것은 Discriminator가 생성된 예술이 진짜 예술과 같은 분포로부터 오는지 알릴 것이다. Generator는 이 신호만을 수신하기 때문에 결국 예술을 모방하여 이미지를 생성하는 쪽으로 수렴할 것이다.

Generator가 받는 두 번째 신호는 Discriminator가 얼마나 이미 정해진(established) 스타일로 생성된 예술을 분류할 수 있는지 이다. 만약 Generator가 Discriminator 가 예술이라고 생각하고 또한 이미 정해진 스타일로 쉽게 분류할 수 있다면 Generator는 Discriminator를 이미 정해진 스타일의 실제 예술이라고 믿게 하여 속였을 것이다. 반대로, 창의적인 Generator는 Discriminator가 혼란스럽도록 예술을 생성할 것이다. 결론은 한편으론 Discriminator가 생성된 이미지를 예술이라고 속이고 다른 한편으론 Discriminator가 스타일에 대해 혼란을 느끼도록 하는 것이다. 이 과정을 블록 다이어그램으로 그려본다면 다음과 같다.

나름대로의 요약

나름대로 이 논문을 요약해 보자면 각성 잠재력이 너무 적거나 많이 않도록 Discriminator가 예술인지 아닌지와 어떤 스타일에 속하는지 판별하고 결국 Generator가 생성한 이미지가 Discriminator가 보기에 예술이며 어떤 스타일인지 혼란스러워하는 방향으로 학습시키는 모델을 Creative Adversarial Network (CAN)이라고 하는 것 같다.

Reference

https://arxiv.org/pdf/1706.07068.pdf (CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms)

https://www.researchgate.net/figure/The-Wundt-Curve-1874-left-shows-the-hedonic-function-used-to-calculate-interest-the_fig6_220851248 (The Wundt Curve)

'공부한 내용 정리 > 인공지능' 카테고리의 다른 글

[논문 리뷰]EfficientNetV2: Smaller Models and Faster Training (0)	2023.01.19
[논문 리뷰]Sequence to Sequence Learning with Neural Networks (0)	2023.01.19
[논문 리뷰]Deep contextualized word representations (1)	2023.01.16
[TinyML]Tiny Machine Learning: The Next AI Revolution (0)	2023.01.14
StyleGAN / StyleGAN2 (2)	2020.08.08

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

티스토리 뷰