ndarray를 bool list를 통해 인덱싱하는 방법에 대해 정리합니다.
Boolean indexing
-
ndarray 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링하는 것
-
ndarray 에서 굉장히 자주 사용되는 기능
-
브로드캐스팅을 활용하여 ndarray로 부터 bool list 얻기
-
e.g) 짝수인 경우만 찾아보기
1
2
3
| # 1과 100사이 10개의 간격씩으로 해서 int값들로 무작위 생성
x = np.random.randint(1, 100, size=10)
print("x:",x)
|
x: [25 95 44 3 23 41 81 58 33 18]
1
2
| # 2는 scalar(상수) 이기 때문에 브로드 캐스팅이 가능하다.
x % 2 == 0
|
array([False, False, True, False, False, False, False, True, False,
True])
bool list로 boolean indexing 적용하기
1
2
3
4
| # even number : 짝수
# array에서 even number만을 필터링 해주는 mask생성
even_mask = x % 2 == 0
print(even_mask)
|
[False False True False False False False True False True]
1
2
3
| # even_mask에서 True인 경우의 값들만 필터링이 되었다.
print("x:",x,"\n")
print("The even number among the array x is :", x[even_mask])
|
x: [25 95 44 3 23 41 81 58 33 18]
The even number among the array x is : [44 58 18]
numpy의 boolean indexing을 사용하면 기존의 loop을 사용하는 방식을 하지 않고도 값을 필터링 할 수 있다.
1
2
3
4
5
6
7
8
| a = x.tolist()
even_number=[]
for i in a:
if i % 2 == 0:
even_number.append(i)
print("The even number among the array x is :",even_number)
|
The even number among the array x is : [44, 58, 18]
한번에 boolean indexing 적용하기
array([44, 58, 18])
1
2
| # 30보다 큰 x값만 추려내기
x[x > 30]
|
array([95, 44, 41, 81, 58, 33])
다중조건 사용하기
AND 조건
1
2
| # 조건 1 : 짝수
x % 2 == 0
|
array([False, False, True, False, False, False, False, True, False,
True])
1
2
| # 조건 2 : 30 이상인 수
x < 30
|
array([ True, False, False, True, True, False, False, False, False,
True])
1
2
| # AND 조건 적용 : 짝수이면서 30이상인 수만 출력하기
x[(x % 2 == 0) & (x < 30)]
|
array([18])
OR 조건
1
2
| # 조건 1 : 30보다 작은 값
x < 30
|
array([ True, False, False, True, True, False, False, False, False,
True])
1
2
| # 조건 2 : 50보다 큰 값
x > 50
|
array([False, True, False, False, False, False, True, True, False,
False])
1
2
| # OR 조건 적용 : 30보다 작거나, 50보다 큰 값들만 출력
x[(x < 30) | (x > 50)]
|
array([25, 95, 3, 23, 81, 58, 18])
예제) 2019년 7월 서울 평균기온 데이터
-
평균기온이 25도를 넘는 날수는?
-
평균기온이 25를 넘는 날의 평균 기온은?
1
2
3
4
5
6
| temp = np.array(
[23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
26.7, 25.1, 25.0, 22.7, 21.9, 23.6,
24.9, 25.9, 23.8, 24.7, 25.6, 26.9,
28.6, 28.0, 25.1, 26.7, 28.1, 26.5,
26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])
|
31
평균기온이 25도를 넘는 날수?
1
2
3
| # len(temp[temp > 25.0])
print("평균기온이 25도를 넘는 날의 수는",len(temp[temp > 25.0]),"입니다.")
|
평균기온이 25도를 넘는 날의 수는 21 입니다.
1
2
3
| # True는 기본적으로 정수연산에서 1임을 활용
# temp가 25이상이면 True -> 인 값들만 sum
print("평균기온이 25도를 넘는 날의 수는",np.sum(temp > 25.0),"입니다.")
|
평균기온이 25도를 넘는 날의 수는 21 입니다.
평균기온이 25를 넘는 날의 평균 기온은?
1
2
| # np.mean(temp[temp > 25.0])
print("평균기온이 25도를 넘는 날의 평균 기온은",np.mean(temp[temp > 25.0]),"도 입니다.")
|
평균기온이 25도를 넘는 날의 평균 기온은 26.857142857142858 도 입니다.
댓글남기기