OpenAI의 DALL-E 2 AI는 일부 아티스트에게만 나쁜 소식입니다.

OpenAI의 DALL-E 2는 인공 지능이 창의성의 영역에 절대로 침투하지 않을 것이라고 생각했던 사람들에게 충격으로 다가왔습니다. 그러나 DALL-E 2는 예술가의 직업을 가져오기 위해 여기에 있습니까?

DALL-E 2는 어떻게 작동합니까?

DALL-E 2는 너무 인상적이어서 거의 마술처럼 보이지만 어떻게 그렇게 놀랍고 사실적인 이미지를 만드는지에 대한 광범위한 세부 사항은 이해하기 어렵지 않습니다.

DALL-E 2에는 두 가지 주요 구성 요소가 있습니다. 첫 번째는 오늘날 가장 발전된 자연어 기계 학습 알고리즘인 GPT-3입니다. DALL-E 2는 CLIP(Contrastive Language-Image Pre-training)으로 알려진 또 다른 OpenAI 모델도 사용합니다.

관련된머신 러닝이란 무엇입니까?

GPT-3 및 CLIP을 통해 컴퓨터는 정교한 자연어를 이해하고 생성할 수 있습니다. 수십억 개의 이미지와 (주로) 인터넷의 자연어 설명으로 DALL-E 신경망을 훈련함으로써 개념 간의 관계를 학습합니다.

어떤 의미에서 DALL-E는 이미지를 제공하면 AI가 이미지가 보는 것을 설명하려고 시도하는 일반적인 기계 학습 방식의 반대입니다.

베이스 기타를 연주하는 북극곰을 만드는 DALL-E 2의 확산 이미지 생성 예. — 오픈AI

TV 쇼의 악명 높은 “Not a Hotdog” 앱을 생각해 보십시오. 실리콘 밸리. 여기서 차이점은 AI에게 사진이 핫도그인지 여부를 묻는 대신 핫도그를 설명하고 학습한 모든 것을 기반으로 완전히 원본 핫도그 이미지를 생성한다는 것입니다.

DALL-E의 두 번째 주요 부분은 이미지를 생성하는 방법입니다. 그것은 “확산”으로 알려진 방법을 사용합니다. 구체적으로, 인간의 언어로 작성된 이미지 설명의 이해는 GLIDE라는 OpenAI 모델을 사용하여 이미지로 변환됩니다. GLIDE는 무작위로 생성된 노이즈로 구성된 이미지를 촬영한 다음 자연어로 설명된 이미지와 일치할 때까지 노이즈를 점진적으로 제거합니다. 대리석 블록으로 시작하여 조각상만 남을 때까지 조각조각 깎는 조각가를 다소 연상시킵니다.

DALL-E 2 내부에 대한 훨씬 더 기술적이고 자세한 설명을 보려면 AssemblyAI 딥 러닝 블로그에서 DALL-E 2 설명자를 적극 추천합니다.

DALL-E 2가 파괴적인 이유

인간을 일터로 몰아가는 로봇. — ivector/Shutterstock.com

DALL-E 2는 이미지를 생성할 수 있는 최초의 기계 학습 소프트웨어와는 거리가 멉니다. 많은 이전 시스템이 있었고 DALL-E 2는 다른 프로젝트에서 배운 교훈을 기반으로 합니다. 그렇다면 왜 이 시간이 파괴적인 전환점처럼 느껴지는 것일까요?

한 가지 중요한 이유는 DALL-E 및 DALL-E 2가 만드는 이미지가 미학적으로 보기 좋다는 것입니다. 다른 AI 이미지 생성 시스템은 사람들이 불안하거나 꿈에서 본 것과 같은 이미지를 만드는 경우가 많습니다. 약간 Uncanny Valley와 비슷하지만 시각 예술을 위한 것입니다. DALL-E 2는 분명히 예술적인 눈이나 약간의 미적 감각이 있는 이미지를 만듭니다.

따라서 DALL-E 2가 만드는 이미지는 미적 감각을 개발하는 데 평생을 바친 재능 있는 예술가나 사진 작가가 만든 이미지와 비슷합니다. 그런 사람이 DALL-E 2가 몇 초 만에 뱉어낼 수 있는 이미지를 보고 관련성이 없어질 것 같은 느낌을 받는 것을 상상하는 것은 어렵지 않습니다.

시스템은 자연어 프롬프트에서 몇 초 만에 아름다운 고해상도 이미지를 만들 수 있을 뿐만 아니라 해당 이미지를 조정 및 편집하거나 기존 이미지의 여러 변형을 제공할 수도 있습니다. 그렇다면 아티스트가 이젤과 드로잉 태블릿을 포장하고 대신 “코딩을 배워야” 한다는 의미입니까?

DALL-E 2는 아티스트가 사라지는 것이 아니라 변할 것임을 의미합니다.

OpenAI는 단순히 기술을 세상에 공개하는 데 매우 신중했습니다. 남용의 여지가 분명히 많기 때문에 이것은 합리적입니다. 그러나 이제는 그것이 가능하다는 것을 보여주었으므로 상업적 또는 독립적인 AI 연구원이 DALL-E가 하는 일을 복제하고 모든 사람이 사용할 수 있게 하는 데 시간이 걸리지 않을 것입니다. 머신 러닝 분야의 대기업들은 Google Imagen과 같은 자체 고성능 AI 아티스트도 대기하고 있습니다.

판도라의 상자는 닫을 수 없기 때문에 시각 예술의 세계가 돌이킬 수 없이 변할 것이라는 사실을 받아들여야 하지만 그렇다고 해서 예술가가 과거의 일이 되는 것은 아닙니다.

그것을 보는 한 가지 방법은 이와 같은 기술이 모든 사람의 손에 예술을 생성할 수 있는 힘을 부여한다는 것입니다. 이제 강조점은 이미지를 생성하는 기술적인 능력에서 비전을 정확하게 설명하고 반복하는 능력으로 이동하여 화면에 보이는 것이 생각했던 것과 일치할 때까지입니다. 다시 말해, 계산기의 존재로 인해 더 많은 사람들이 정확한 계산을 할 수 있는 것처럼, 더 많은 사람들이 이제 시각적으로 자신을 표현할 수 있는 능력을 갖게 될 것입니다.

특정 유형의 아티스트는 더 이상 실행 가능한 비즈니스 모델이 없을 수 있습니다. 수수료를 받고 생계를 유지하고 있다면 클라이언트의 설명에 따라 1시간에 100개의 이미지를 만들고 해당 이미지를 거의 즉시 변경할 수 있는 프로그램과 경쟁하기 어렵습니다. 대신 이러한 도구를 사용하여 자신의 비전을 실현한 다음 감성에 따라 고유한 이미지를 판매할 수 있습니다.

고객은 항상 옳다

또한 이러한 이미지는 궁극적으로 사람이 소비하기 위해 만들어졌다는 사실을 기억하는 것도 중요합니다. 우리 인간은 편리함과 기술적 우위를 넘어선 고유한 가치를 가지고 있습니다. 생성된 예술이 풍부하고 따라서 상대적으로 저렴하고 일회용인 세상에서는 단순히 상대적으로 희귀할 수 있기 때문에 인간이 만든 예술을 감상(그리고 구매)하려는 청중이 항상 있을 것입니다.

다시 말해서, DALL-E 2와 같은 소프트웨어는 조립 라인 아트웍을 만들어 생계를 유지하는 아티스트에게 종말을 고할 수 있지만 말할 것이 있고 말할 수 있는 독특한 시각적 정체성을 가진 아티스트의 전망을 약화시키지는 않을 것입니다.

DALL-E 2는 어떻게 작동합니까?

DALL-E 2가 파괴적인 이유

DALL-E 2는 아티스트가 사라지는 것이 아니라 변할 것임을 의미합니다.

고객은 항상 옳다

LEAVE A REPLY Cancel reply