열 선택 및 데이터 타입 설정
때로는 데이터의 일부만 필요할 때가 있습니다. usecols 인수를 사용하면 가져올 열을 지정할 수 있습니다. 이 인수는 열 인덱스 (0 부터 시작) 의 튜플(값의 변경 불가능한 시퀀스, 예: (1, 2)) 을 받습니다. 예를 들어, usecols=(1, 2)는 "열 1 과 2 만 가져오기"를 의미합니다.
또한 dtype 인수를 사용하여 가져온 모든 데이터에 대해 특정 데이터 타입(data type) 을 강제할 수 있습니다. 프로그래밍에서 데이터 타입은 값이 저장되는 방식과 해당 값에 대해 수행할 수 있는 연산을 결정합니다. 예를 들어, dtype=int는 모든 값을 정수 (whole numbers) 로 변환하고, dtype=float는 소수점 숫자 (decimals) 로 유지하도록 보장하며, dtype=str은 텍스트로 취급합니다. dtype=int는 소수점 부분을 잘라냅니다 (22.5 는 22 가 됩니다).
스크립트를 수정하여 Temperature(열 1) 와 Humidity(열 2) 만 가져오고 이들이 부동 소수점 숫자로 처리되도록 하겠습니다.
main.py를 마지막으로 업데이트하세요:
import numpy as np ## NumPy 라이브러리 가져오기
## 특정 열 선택 및 데이터 타입 설정
data = np.genfromtxt('/home/labex/project/my_data.csv', delimiter=',', skip_header=1,
missing_values='NA', filling_values=0,
usecols=(1, 2), dtype=float)
## 결과 배열 출력
print(data)
참고: 이 예시에서는 filling_values를 0으로 변경했습니다.
파일을 저장하고 터미널에서 실행하세요:
python main.py
최종 출력은 온도 및 습도 데이터만 포함하는 2D 배열이 됩니다:
[[22.5 45. ]
[23.1 48. ]
[ 0. 46. ]
[23.5 52. ]]
관련 열만 선택하고 모든 데이터 불일치를 처리하여 데이터셋을 성공적으로 가져오고 정리했습니다.