엑셀 작업을 하다가 중복단어가 있는 경우 삭제하기 내용을 적용하여. "중복단어 삭제"를 정리해 보았습니다. 🌌 다룰 내용 리스트 형식의 전체 단어 중 2개 이상인 단어의 경우 삭제하고 1개만 추출하기. 전체 단어 중 단어가 2개 이상인 경우 삭제하고 1개만 추출하기. join과 OrderedDict.fromkeys를 사용한 방법 *import 설정 및 기본 내용은 생략했습니다. 1. list에 담긴 값 list = ['안녕','안녕','하이','안녕','방가'] 2. 최상단에 collections 모듈의 OrderedDict클래스를 선언 from collections import OrderedDict 파이썬 3.6 이전에는 사전에 얻은 데이터를 순서대로 얻을 수 없었습니다. 즉 무작위 순서로 데이터를 얻..
pdftotext나 docx를 사용하여 문서를 파싱 한 후 필요 없는 헤더와 푸터를 자를 필요가 있습니다. 예시로 이미지와 같은 부분만 남기고 서론과 결론은 자를 경우에 대한 함수를 짜 보겠습니다. 가정: 라이브러리를 통해 파일을 불러온 상태입니다. 본론만 가져오기 목표 1. 전체 글에서 특정 단어가 나올 경우 서론을 날린다. 2. 전체 글에서 특정 단어가 나올 경우 결론을 날린다. 3. 날린 부분에 대한 빈 문자열 처리를 해서 전체 길이를 같게 유지한다. 목표의 세부 가정 1. 전체 글에서 특정 단어를 찾는다. 2. 전체 글에 대한 각각의 string index 번호를 알아낸다. 3. 전체 string에서 특정 단어가 나올 경우 해당 index를 last_index로 담는다. 4. last_index ..
파이썬으로 어절수 조건에 맞는 경우만 출력하는 경우를 포스팅하려합니다. 제가 풀다가 이것도 도저히 못 풀겠어서 헤맸네요... 알고리즘 열심히 풀어야겠습니다... 매번 뭘 써야겠다는 아는데 퍼즐이 맞춰지지 않는 느낌... 정말 화나네요 ^^;; 조건: 30어절 이하 10어절 이상일 경우만 출력하기 ' - 출력하고자 하는 리스트 sent_tokens = ['이처럼 대외적 위기에',' 따라 군무는 격상되었고', '정부는 군사우위정책을 본격적으로 시행하였다.1900년 6월 의화단진압 전쟁이 시작되었고', '인접국의 전쟁 상황은 국경에서의 문제를 수반하였다.', '대한제국은 난민문제 및 청비의 침략 등을 막기 위해 평안・함경도에 진위대를 증설했고타 지역으로부터 지원 병력을 차출하여 배치하기도 하였다.', '이로써..
여러가지 함수의 input, output알아보기 - split() - join() - append - extend - a ='', a+=b split() - 기준점: ()안 내용, 빈공간 시 공백기준으로 나눔 input: string output: list "".join() - 기준 ""로 리스트의 문자열들을 붙여준다. input: list output: string append - 빈 배열에 stirng 값을 더해준다. input: string output: list extend input: string output: list 토큰화 a =' ' , a += b. 한페이지에 string이 " " 기준으로 여러개 있을 시 사용하여 붙일 수 있다. "".join()이 먹히지 않아서 사용했는데. 둘의 차이점..
1. kss 모듈을 먼저쓸까? 정제와 토큰화 후 kss를 쓸까? -> 모듈을 사용하여 불러온 pdf를 split('\n')해주고, 함수를 사용하여 정제 후 깨끗한 한글문장에서 kss를 사용. 2. kss 사용을 위한 문자열 변환 시키기 -> 임의의 ex_sentence = '' 를 생성 후 한글을 출력해 string sentence를 ex_sentence =+ sentence 이용하여 만듬 2. 파이참에서 출력 시 부분적으로 짤리는 오류가 있었고, 터미널에선 없었는데 왜 그럴까? -> 추후 추가 3. footer의 규칙없는 더러운 내용 지우는 방법? -> 정규식을 써야할 지, 다른 방법이 있나 고민 중... 4. all_text = '' / all_text += sentence 의 사용으로 ''를 붙이자..
파이썬으로 pdf -> text 추출을 하기 위해 공부한 내용을 정리한다. 처음부터 정리했기 때문에 데이터 정제를 하는 사람이라면 꼭 참고하여 도움이 되길... 처음 인지해야 할 것! ☆ 처음 들어온 값이 리스트인지 스트링 타입인지 알 것 - 이걸 알고 있는 상태로 전체 로직을 구성해야한다. ☆ 들어오는 인풋 값과 나가는 아웃풋이 무엇으로 나가는지 생각해야 한다.(위와 같은 내용) - 아무것도 모를 때 신경을 쓰지 않았는데 그러다 보니 타입 오류 & 정규식이 먹지 않는 현상이 발생한다. ☆ 네이밍 신경 쓰기 - answer, result, sentence 이런 것만 돌리지 말고 한눈에 이해할 수 있는 변수명 사용하기 ☆ 작동이 되지 않는다면 print() 함수를 이용하여 하나하나 어떤 값이 들어오는지 찍..
특징 1. Typescript는 typed 언어로 내가 사용하는 변수와 데이터가 어떤 종류인지 내가 직접 설정을 해줘야 한다. 장점 -> 언어 컴파일러가 내가 맞게 하고 있는지 아닌지 알려준다. / 오류에 대해 신경을 덜 쓸 수 있는 장점이 있다. 2. argument값을 실수로 작성하지 않았을 경우 알려준다. -> sayHi라는 메소드에 namge, age, gender를 전달 인자 값을 담고 있다. 그러나 우리가 작업을 하다가 실수로gender를 빼먹고 sayHi(name, age);라고 선언을 한다면 어떻게 될까? Expected 3 arguments(전달인자), but got 2.라고 친 절 히 알려준다!!!! 이것은 Typescript에서만 되는 기능이다. Javascript는 알려주지 않는다...
첫 설정 1. 커맨드에서 작업 파일로 이동한다. yarn init 입력-> package.json 생성 2. 커맨드에 yarn global add typescript 설치 tsconfig.json 1. tsconfig.json 파일 생성 -tsconfig.json은 이 파일에 TypeScript가 어떻게 JavaScript형식으로 바뀔 건지 설정하는 파일 "module" : nodejs를 간단히 사용할 수 있고 다양한 걸 import 하거나 export 할 수 있게 사용 "target" : 어떤 버전의 JavaScript로 컴파일되고 싶은지 적는 것 "sourceMap" : 어떠한 sourceMap 처리를 하고 싶은지 나타냄 -소스 맵(Source Map)이란 배포용으로 빌드한 파일과 원본 파일을 서로 ..
- Total
- Today
- Yesterday