ChatGPT는 이제 이미지를 보고 음성을 들을 수 있습니다

0
134

Microsoft가 지원하는 스타트업 OpenAI는 최근 생성형 AI 기반 챗봇인 ChatGPT에 음성 및 이미지 기능을 추가하여 보고 듣고 말할 수 있게 되었습니다.

이러한 기능은 사용자가 음성 대화를 하거나 대화 내용을 ChatGPT에 보여줄 수 있는 새롭고 보다 직관적인 유형의 인터페이스를 제공합니다.

ChatGPT는 이제 이미지를 보고 음성을 들을 수 있습니다

ChatGPT는 이제 이미지를 보고 음성을 들을 수 있습니다

ChatGPT에 추가된 새로운 기능을 살펴보겠습니다.

목소리

이제 사용자는 음성을 사용하여 AI 도우미와 앞뒤로 대화할 수 있습니다. 새로운 텍스트 음성 변환 모델을 기반으로 하는 ChatGPT는 이제 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있습니다.

OpenAI는 전문 성우들과 협력하여 남성과 여성의 목소리를 포함하는 5가지 다양한 음성 옵션을 만들었습니다. 또한 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 사용자가 말한 내용을 텍스트로 변환했습니다.

음성 대화를 시작하려면 모바일 앱에서 설정을 열고 “새 기능”을 클릭하세요. 그런 다음 음성 대화를 선택하세요. 완료되면 홈 화면 오른쪽 상단에 있는 헤드폰 버튼을 누르고 5가지 음성 옵션 중에서 원하는 음성을 선택하세요.

이미지

이제 ChatGPT는 사용자가 업로드한 이미지에 응답할 수 있습니다. 예를 들어, 사용자는 여행 중에 랜드마크 사진을 찍어 자세한 정보를 얻거나 냉장고와 식료품 저장실 사진을 보낼 수 있으며, AI 비서는 재료가 있는 저녁 식사에 어떤 요리를 요리할 수 있는지 제안할 수 있습니다.

이는 사진, 스크린샷, 텍스트와 그림이 모두 포함된 문서 등 다양한 이미지에 언어 추론 기술을 적용하는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 하는 이미지 이해를 통해 가능합니다.

시작하려면 사진 버튼을 탭하여 이미지를 캡처하거나 선택하세요. iOS 또는 Android 기기를 사용하는 경우 먼저 더하기 버튼을 탭해야 합니다. 또한 여러 이미지에 대해 논의하거나 OpenAI의 그리기 도구를 사용하여 AI 보조자를 안내할 수 있습니다.

“음성 및 이미지는 생활에서 ChatGPT를 사용할 수 있는 더 많은 방법을 제공합니다. 여행하는 동안 랜드마크 사진을 찍고 흥미로운 점에 대해 실시간 대화를 나누세요.” 발표 월요일 블로그 포스팅에서

“집에 오면 냉장고와 식료품 저장실 사진을 찍어 저녁 식사로 무엇을 먹을지 알아보세요. 그리고 단계별 레시피에 대해 후속 질문을 하세요. 저녁 식사 후에는 사진을 찍고 문제 세트에 동그라미를 치고 힌트를 부모와 공유함으로써 자녀의 수학 문제를 도와주세요.”

유효성

앞으로 2주 동안 ChatGPT Plus 및 Enterprise 고객은 음성 및 이미지 기능을 사용할 수 있습니다. 음성 기능은 iOS 및 Android(설정에서 선택)에서 사용할 수 있지만 이미지 기능은 모든 플랫폼에서 사용할 수 있습니다.