AI
Natural Language Processing
![category 대표 이미지](https://blog.kakaocdn.net/dn/OAwIz/btsa8BWntpB/IHfjWbaYM9MPzrJOnUISdk/img.png)
-
Bark 란? 트랜스포머 기반 text-to-audio 모델 (Model Card) 대화 뿐 아니라 음악, 배경 소음, 간단한 사운드 효과와 웃음 소리, 한숨, 울음 소리 등 non-verbal 한 부분까지 생성할 수 있다. 프롬프트 형식으로 생성할 수 있다. 다양한 언어를 제공한다. 라이센스 : NonCommercial 4.0 International 영리 목적으로는 사용할 수 없다. 다양한 non-verbal 효과 더보기 [laughter] : 웃음 [laughs] : 웃음 [sighs] : 한숨 [music] : 음악 [gasps] [clears throat] : 목 가다듬기 — or ... : 머뭇거림 ♪ 텍스트 앞에 ♪ (음악 표시)를 추가하면 노래를 부르듯이 음성을 생성한다. 배경음악도 어느정..
Bark : 트랜스포머 기반 text-to-audio 모델Bark 란? 트랜스포머 기반 text-to-audio 모델 (Model Card) 대화 뿐 아니라 음악, 배경 소음, 간단한 사운드 효과와 웃음 소리, 한숨, 울음 소리 등 non-verbal 한 부분까지 생성할 수 있다. 프롬프트 형식으로 생성할 수 있다. 다양한 언어를 제공한다. 라이센스 : NonCommercial 4.0 International 영리 목적으로는 사용할 수 없다. 다양한 non-verbal 효과 더보기 [laughter] : 웃음 [laughs] : 웃음 [sighs] : 한숨 [music] : 음악 [gasps] [clears throat] : 목 가다듬기 — or ... : 머뭇거림 ♪ 텍스트 앞에 ♪ (음악 표시)를 추가하면 노래를 부르듯이 음성을 생성한다. 배경음악도 어느정..
2023.04.27 -
설치하기 pip 으로 인한 설치는 버전 문제 때문인지 안된다. github 저장소를 직접 내려받은 후, 일부 코드를 수정해야 한다. git clone https://github.com/ssut/py-hanspell.git 1) URL 변경 네이버 맞춤법 검사기를 사용하기 때문에 url 이 변경된 경우 동작하지 않는다. constant.py 의 base_url 을 수정해야 한다. base_url = 'https://m.search.naver.com/p/csearch/ocontent/util/SpellerProxy' 2) spell_check.py 수정 spell_checker.py 의 payload 부분 수정 (48번째 줄) payload = { 'color_blindness': '0', 'q': text..
py-hanspell 맞춤법 검사기 설치하기설치하기 pip 으로 인한 설치는 버전 문제 때문인지 안된다. github 저장소를 직접 내려받은 후, 일부 코드를 수정해야 한다. git clone https://github.com/ssut/py-hanspell.git 1) URL 변경 네이버 맞춤법 검사기를 사용하기 때문에 url 이 변경된 경우 동작하지 않는다. constant.py 의 base_url 을 수정해야 한다. base_url = 'https://m.search.naver.com/p/csearch/ocontent/util/SpellerProxy' 2) spell_check.py 수정 spell_checker.py 의 payload 부분 수정 (48번째 줄) payload = { 'color_blindness': '0', 'q': text..
2023.04.22 -
빌드 환경 MS Window 는 지원하지 않는다. C++14로 개발했기 때문에 이를 지원하는 컴파일러가 필요하다. 1. 빌드 툴 다운로드 pip install cmake 2. khaiii 빌드 및 설치 git clone https://github.com/kakao/khaiii.git # khaiii 디렉토리로 이동 cd khaiii # build 디렉토리 생성 mkdir build # cmake 실행 cd build && cmake .. # 빌드 make all # 리소스 빌드 make resource && make large_resource # 설치 make install # python 바인딩 make package_python cd package_python && pip install . 3. 테스..
Khaiii 형태소 분석기 설치하기빌드 환경 MS Window 는 지원하지 않는다. C++14로 개발했기 때문에 이를 지원하는 컴파일러가 필요하다. 1. 빌드 툴 다운로드 pip install cmake 2. khaiii 빌드 및 설치 git clone https://github.com/kakao/khaiii.git # khaiii 디렉토리로 이동 cd khaiii # build 디렉토리 생성 mkdir build # cmake 실행 cd build && cmake .. # 빌드 make all # 리소스 빌드 make resource && make large_resource # 설치 make install # python 바인딩 make package_python cd package_python && pip install . 3. 테스..
2023.04.22 -
1) 텍스트 클리닝 (html / url / 특수 문자 제거 등) 크롤링 데이터의 경우 html tag 제거 필요하지 않은 특수문자 매핑 또는 제거 ㄱ-ㅎ/ㅏ-ㅣ 등 자음과 모음으로만 이루어진 글자들 제거 @#$%^&*() 등 puctuation(문장부호) 제거 import re punct = "/-'?!.,#$%\'()*+-/:;@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&' punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "..
한국어 텍스트 데이터 전처리1) 텍스트 클리닝 (html / url / 특수 문자 제거 등) 크롤링 데이터의 경우 html tag 제거 필요하지 않은 특수문자 매핑 또는 제거 ㄱ-ㅎ/ㅏ-ㅣ 등 자음과 모음으로만 이루어진 글자들 제거 @#$%^&*() 등 puctuation(문장부호) 제거 import re punct = "/-'?!.,#$%\'()*+-/:;@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&' punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "..
2023.04.22 -
키워드 추출 (Keyword Extraction)이란? Keyword extraction is about automatically finding what’s relevant in a large set of data. 문서를 가장 잘 나타내는 N개의 키워드를 찾는 작업 1. Model 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 KeyBERT KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar..
키워드 추출하기 (1)키워드 추출 (Keyword Extraction)이란? Keyword extraction is about automatically finding what’s relevant in a large set of data. 문서를 가장 잘 나타내는 N개의 키워드를 찾는 작업 1. Model 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 KeyBERT KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar..
2023.04.22 -
KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar to a document. 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 BERT로 문서 단위의 표현 추출 (document-embeddings) N-gram 단어와 구문을 위해 word embeddings cosine similarity 로 문서와 가장 유사한 단어/구문 찾기 MIT License 로 오픈소스 파이썬 모듈 Embedding Models 임베딩 모..
KeyBERTKeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar to a document. 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 BERT로 문서 단위의 표현 추출 (document-embeddings) N-gram 단어와 구문을 위해 word embeddings cosine similarity 로 문서와 가장 유사한 단어/구문 찾기 MIT License 로 오픈소스 파이썬 모듈 Embedding Models 임베딩 모..
2023.04.21