자연어 처리 란 무엇이며 어떻게 작동합니까?

스마트 폰에서 채팅 봇과 대화 중입니다. — NicoElNino / Shutterstock.com

자연어 처리를 통해 컴퓨터는 우리가하는 말을 실행할 수있는 명령으로 처리 할 수 있습니다. 기본 원리와 삶의 질을 향상시키는 데 어떻게 사용되는지 알아보십시오.

자연어 처리 란 무엇입니까?

알렉사, 시리, 구글 어시스턴트, 빅스 비, 코타나 등 스마트 폰이나 스마트 스피커를 사용하는 모든 사람들은 요즘 음성 지원 어시스턴트를 보유하고 있습니다. 매년,이 음성 어시스턴트는 우리가 지시 한 것을 인식하고 실행하는 데 더 나아지는 것처럼 보입니다. 하지만이 조수가 우리가하는 말을 어떻게 처리하는지 궁금한 적이 있습니까? NLP 덕분에이를 수행 할 수 있습니다.

역사적으로 대부분의 소프트웨어는 고정 된 특정 명령 세트에만 응답 할 수있었습니다. 열기를 클릭하여 파일이 열리거나 스프레드 시트가 특정 기호 및 수식 이름을 기준으로 수식을 계산합니다. 프로그램은 프로그래밍 된 프로그래밍 언어를 사용하여 통신하므로 인식 된 입력이 제공 될 때 출력을 생성합니다. 이와 관련하여 단어는 항상 원하는 출력을 제공하는 여러 가지 기계적 레버 세트와 같습니다.

이것은 복잡하고 비 구조적이며 문장 구조, 어조, 악센트, 타이밍, 구두점 및 상황에 따라 다양한 의미를 갖는 인간 언어와 대조적입니다. 자연어 처리는 기계가 입력과 인간 언어로 인식하는 것 사이의 격차를 해소하려는 인공 지능의 한 지점입니다. 우리가 자연스럽게 말하거나 타이핑 할 때 기계가 우리가 말한 것과 일치하는 출력을 생성하기 위해서입니다.

이것은 실제 단어의 의미 위에서 인간 언어의 다양한 요소에서 의미를 도출하기 위해 방대한 양의 데이터 포인트를 취함으로써 수행됩니다. 이 프로세스는 컴퓨터 학습이라는 개념과 밀접한 관련이 있으며,이를 통해 컴퓨터는 더 많은 데이터 포인트를 얻을 때 더 많은 것을 배울 수 있습니다. 이것이 우리가 자주 상호 작용하는 대부분의 자연어 처리기가 시간이 지남에 따라 더 좋아지는 이유입니다.

개념을 더 잘 설명하기 위해 언어와 정보를 처리하기 위해 NLP에서 사용되는 최상위 기술 중 두 가지를 살펴 보겠습니다.

관련 : 인공 지능의 문제 : 기계는 학습하고 있지만 이해할 수는 없다

토큰 화

토큰 화는 음성을 단어 나 문장으로 나누는 것을 의미합니다. 각 텍스트는 토큰이며, 이러한 토큰은 연설이 처리 될 때 표시됩니다. 간단하게 들리지만 실제로는 까다로운 과정입니다.

Google 키보드와 같은 텍스트 음성 변환 소프트웨어를 사용하여 친구에게 메시지를 보내고 있다고 가정 해 보겠습니다. “공원에서 만나요.” 휴대 전화에서 해당 녹음을 가져 와서 Google의 텍스트 음성 변환 알고리즘을 통해 처리 할 때 Google은 방금 말한 것을 토큰으로 분할해야합니다. 이 토큰은“만남”,“나”,“at”,“the”및“park”입니다.

사람들은 단어 사이에 다른 길이의 일시 정지를 가지고 있으며, 다른 언어는 단어 사이에서들을 수있는 일시 정지 방법이 거의 없을 수 있습니다. 토큰 화 프로세스는 언어와 방언에 따라 크게 다릅니다.

줄기와 정리

형태소 분석 및 Lemmatization에는 기계가 인식 할 수있는 어근에 대한 추가 또는 변형을 제거하는 프로세스가 포함됩니다. 이것은 본질적으로 동일한 것을 의미하는 여러 단어에 걸쳐 음성 해석을 일관성있게하기 위해 수행되며, 이는 NLP 처리를 더 빠르게 만듭니다.

형태소 분석은 어근에서 접두사를 제거하는 조잡한 빠른 프로세스로, 어근 이전 또는 이후에 첨부 된 단어에 추가됩니다. 이것은 단순히 글자를 제거하여 단어를 가장 간단한 기본 형태로 만듭니다. 예를 들면 다음과 같습니다.

“산책”이“산책”으로 바뀝니다
“Faster”가“fast”로 바뀝니다
“심각도”는“심각도”로 바뀝니다

보다시피, 형태소 분석은 단어의 의미를 완전히 바꾸는 데 부정적인 영향을 줄 수 있습니다. “심각도”와“심각도”는 같은 의미는 아니지만 접미사 과정에서 접미사“ity”가 제거되었습니다.

다른 한편으로, lemmatization은 단어를 기본으로 줄여서 부자. 단어의 문맥과 문장에서 사용되는 방법을 고려합니다. 또한 단어 데이터베이스와 용어 각각의 용어를 찾아 보는 것도 포함됩니다. 예를 들면 다음과 같습니다.

“Are”는“be”로 바뀝니다
“조작”이“조작”으로 바 turns
“심각도”는“심각한”으로 바뀝니다

이 예에서 lemmatization은“심각도”라는 용어를“심각한”으로 바꾸는 데 사용되는데, 이는 기본형과 근본입니다.

NLP 사용 사례와 미래

앞의 예제는 자연어 처리의 표면을 긁기 시작합니다. 여기에는 일상 생활에서 사용되는 다양한 사례 및 사용 시나리오가 포함됩니다. NLP가 현재 사용되고있는 몇 가지 예는 다음과 같습니다.

예측 텍스트 : 스마트 폰에 메시지를 입력하면 문장에 맞는 단어 나 이전에 사용한 단어가 자동으로 제안됩니다.
기계 번역 : 언어를 처리하고 번역하기 위해 고급 형태의 NLP를 통합하기 위해 Google Translate와 같이 널리 사용되는 소비자 번역 서비스.
챗봇 : NLP는 지능형 챗봇의 토대, 특히 고객 서비스에서 고객이 실제 사람을 만나기 전에 고객을 지원하고 요청을 처리 할 수있는 기반입니다.

앞으로 더 많은 것이 있습니다. NLP 사용은 현재 뉴스 미디어, 의료 기술, 작업장 관리 및 재무와 같은 분야에서 개발 및 배포되고 있습니다. 향후 로봇과 본격적인 정교한 대화를 나눌 수있는 기회가 있습니다.

NLP에 대해 더 자세히 알고 싶다면 Towards Data Science 블로그 또는 Standford National Langauge Processing Group에서 확인할 수있는 환상적인 자료가 많이 있습니다.

자연어 처리 란 무엇입니까?

토큰 화

줄기와 정리

NLP 사용 사례와 미래

LEAVE A REPLY Cancel reply