import requests
from bs4 import BeautifulSoup



# simbol - nasdaq 100
# resolution - hour (60min)
# from & to - time line

url = "https://tvc4.investing.com/9bc5a8c1e5c8929dcfe46983235e7b41/1644651978/18/18/88/history?symbol=20&resolution=60&from=1583096400&to=1644652046" 

from urllib.request import Request, urlopen

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()



# 358일치의 시간단위 데이터
(1644537600 - 1613606400)/ 3600 / 24

358.0



# HTML -> Str
str_data = webpage.decode('utf-8')
print(str_data)



# string 형식의 data set을 dictionary로 바꿔줌

data = eval(str_data)
primary_time, recent_time = data['t'][0] , data['t'][-1]



# 가장 과거와 최근 시간 파악

from datetime import datetime
import time

# timestamp to datetime 
datetimeobj = datetime.fromtimestamp(recent_time)

datetimeobj.strftime("%Y-%m-%d-%H")

'2022-02-11-21'



# 개장 시간이 14시이고 장 마감이 21시로 되어있기에 수정

for i in range(0,len(data['t'])):
  data['t'][i] -= 18000



# 시간 데이터 "%Y-%m-%d-%H" 꼴로 변환
date_list = []
for tmp in data['t']:
  d = datetime.fromtimestamp(tmp)
  date_list.append(d.strftime("%Y-%m-%d-%H"))

# 마지막 20개의 시간 데이터 확인
date_list[-20:]

['2022-02-09-13',
 '2022-02-09-14',
 '2022-02-09-15',
 '2022-02-09-16',
 '2022-02-10-09',
 '2022-02-10-10',
 '2022-02-10-11',
 '2022-02-10-12',
 '2022-02-10-13',
 '2022-02-10-14',
 '2022-02-10-15',
 '2022-02-10-16',
 '2022-02-11-09',
 '2022-02-11-10',
 '2022-02-11-11',
 '2022-02-11-12',
 '2022-02-11-13',
 '2022-02-11-14',
 '2022-02-11-15',
 '2022-02-11-16']



# dict형 OHLC 데이터 -> dataframe 
import pandas as pd

z = zip(data['o'],data['h'],data['l'],data['c'])
z = list(z)


df_date = pd.DataFrame(date_list, columns=['date'])
df_price = pd.DataFrame(z, columns=['Open','High','Low','Close'])
df_price



# 시간데이터 가격데이터 결합
df = pd.concat([df_date,df_price], axis=1, ignore_index=False)



# Hour로 몇시인지 새로운 열로 구분
df['Hour'] = df['date'].str[-2:]

# 캔들의 크기 = 해당 시간대의 변동성을 파악
df['Volatility'] = (df['High'] - df['Low'])/ df['Low']

df.head()



# 종가 데이터는 open과 end가 같으므로 제거
# 써머 타임인 경우 장 마감이 15이므로 
## 써머 타임이 아닌 경우의 데이터를 보존하기위해 캔들크기가 0인 경우만 제거

condition1 = df[(df['Hour'] == '16')].index
condition2 = df[(df['Hour'] == '15') & (df['Volatility'] == 0)].index
df = df.drop(condition1)
df = df.drop(condition2)



df.plot.scatter(x='Hour',  y='Volatility',figsize=(16,8))

<matplotlib.axes._subplots.AxesSubplot at 0x7fe1654e0e90>



import matplotlib.pyplot as plt

boxplot = df.boxplot(column='Volatility', by = 'Hour',figsize=(16,8))
plt.show()

/usr/local/lib/python3.7/dist-packages/matplotlib/cbook/__init__.py:1376: VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray.
  X = np.atleast_1d(X.T if isinstance(X, np.ndarray) else np.asarray(X))



# 각 날별로 시초가 대비 가격 변화율인 Day_rate 특성을 새로 만든다.
day_rate = []

flag = 0

for idx in range(len(df)):
  if (df['Hour'].iloc[idx] == '08'):
    open = df['Open'].iloc[idx]
  elif ((df['Hour'].iloc[idx] == '09') & (df['Hour'].iloc[idx-1] != '08')):
    open = df['Open'].iloc[idx]

  day_rate.append( ((df['Close'].iloc[idx] - open)/ open)*100 )



df['Day_rate'] = day_rate

df.head(10)



import matplotlib.pyplot as plt

#plt.figure()
boxplot = df.boxplot(column='Day_rate', by = 'Hour',figsize=(16,8))
plt.show()

/usr/local/lib/python3.7/dist-packages/matplotlib/cbook/__init__.py:1376: VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray.
  X = np.atleast_1d(X.T if isinstance(X, np.ndarray) else np.asarray(X))



from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))


import requests
from bs4 import BeautifulSoup


# simbol - nasdaq 100 F, WTI F
# resolution - hour (60min)
# from & to - time line // 2022-01-01


from urllib.request import Request, urlopen

# NASDAQ Future symbol : 8874
# WTI Future symbol : 8849
# S&P 500 F : 1175153
# Russell F : 1174944
# Gold F : 8830
# BTC : 1057391
# QLD : 14207
# TSLA : 13994

long_url = "https://tvc4.investing.com/f260fb7c8e75ae2ce49d13fec98539d7/1645104032/1/1/8/history?symbol=8874&resolution=60&from=1640996500&to=1650000000" 
short_url = "https://tvc4.investing.com/4c48fe6a63b9b709b73e8ec996f2d66f/1645104213/1/1/8/history?symbol=1057391&resolution=60&from=1640996500&to=1650000000" 


long_req = Request(long_url, headers={'User-Agent': 'Mozilla/5.0'})
long_webpage = urlopen(long_req).read()

short_req = Request(short_url, headers={'User-Agent': 'Mozilla/5.0'})
short_webpage = urlopen(short_req).read()


# HTML -> Str

long_str_data = long_webpage.decode('utf-8')
short_str_data = short_webpage.decode('utf-8')

long_data = eval(long_str_data)
short_data = eval(short_str_data)


# timestamp 형태의 시간 데이터를 "%Y-%m-%d-%H" 꼴로 변환

from datetime import datetime
import time

long_time = []
short_time = []

for l in long_data['t']:
  ll = datetime.fromtimestamp(l)
  long_time.append(ll.strftime("%Y-%m-%d-%H"))

for s in short_data['t']:
  ss = datetime.fromtimestamp(s)
  short_time.append(ss.strftime("%Y-%m-%d-%H"))


# dict형 OHLC 데이터 -> dataframe 
import pandas as pd

long_z = zip(long_data['o'],long_data['h'],long_data['l'],long_data['c'])
long_z = list(long_z)
short_z = zip(short_data['o'],short_data['h'],short_data['l'],short_data['c'])
short_z = list(short_z)

long_date = pd.DataFrame(long_time, columns=['date'])
long_df = pd.DataFrame(long_z, columns=['Open','High','Low','Close'])
short_date = pd.DataFrame(short_time, columns=['date'])
short_df = pd.DataFrame(short_z, columns=['Open','High','Low','Close'])

# 날짜 데이터와 OHLC 데이터를 통합 시킨다.
long_df = pd.concat([long_date,long_df], axis=1, ignore_index=False)
short_df = pd.concat([short_date,short_df], axis=1, ignore_index=False)


# 시간대별 수익률
long_df['rate'] = (long_df['Close'] - long_df['Open']) / long_df['Open'] + 1
short_df['rate'] = (short_df['Close'] - short_df['Open']) / short_df['Open'] + 1

# long 포지션은 그대로, short 포지션은 1 - 수익률로 변화율을 만들어 준다.
long_df['cumulative'] = (long_df['Close'] - long_df['Open'].iloc[0]) / long_df['Open'].iloc[0] + 1
short_df['cumulative'] = 1 - (short_df['Close'] - short_df['Open'].iloc[0]) / short_df['Open'].iloc[0]

# 원래는 일일 수익률을 누적곱으로 표현해 누적 수익률을 구할 수 있지만 
# 이전 행 close가 다음 행 open하고 같아야 하는데 그렇지 않아서 기준 값으로 구하였다.
# long_df['cumulative'] = long_df['rate'].cumprod()
# short_df['cumulative'] = short_df['rate'].cumprod()


long_df.set_index('date', inplace=True)
short_df.set_index('date', inplace=True)


long_df


from scipy import stats
corr =  pd.concat([long_df['Open'],short_df['Open']], axis=1, join='inner', ignore_index=False,  keys=['L', 'S'])

r, p_val = stats.pearsonr(corr['L'], corr['S'])

print("Nasdaq 100 과 BTC의 상관계수는" , r , "입니다.")

Nasdaq 100 과 BTC의 상관계수는 0.6248682640190434 입니다.


# 합성 포지션 (Long-Short)을 구현한다.
# 둘의 데이터 포인트의 수가 다르므로, 교집합으로 묶어준다. 

composite = pd.concat([long_df['cumulative'],short_df['cumulative']], axis=1, join='inner', ignore_index=False, keys=['L_cul', 'S_cul'])
composite['cumulative'] = ((composite['L_cul'] + composite['S_cul']) / 2  - 1) * 100


composite


import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

fig = plt.figure(figsize=(18,10)) ## 캔버스 생성
fig.set_facecolor('white') ## 캔버스 색상 설정
ax = fig.add_subplot() ## 프레임 생성
 
ax.plot(composite['cumulative'], color='#000000') ## 선그래프 생성

plt.title("Nasdaq Long / BTC Short ROE")
plt.ylabel('ROE')
plt.xlabel('Date')
plt.grid(True, lw=0.4, ls='--')

plt.xticks(rotation=45) ## x축 눈금 라벨 설정 - 40도 회전 
ax.xaxis.set_major_locator(ticker.MultipleLocator(56))
#plt.title('Sales for 10 days',fontsize=20) ## 타이틀 설정
plt.show()

5초만에 모든 일을 긍정으로 바꾸는 방법 (261)	2023.01.07
[자기개발] 내가 무엇을 해야할지 모르겠을 때 - 해야 할 3가지 (74)	2022.12.31
"객관적이다"라는 것이 가능한 말일까?? (222)	2022.08.24

[Project] 주식을 몇 시에 매수하는 것이 가장 좋을까?? (1)	2022.09.23
[Skewness Volatility] 왜 떨어짐은 크고, 상승은 작은가? (0)	2022.09.20
[금융 상품] 달러의 역사 - 미국이 기축통화 지위를 버릴 수 밖에 없는 이유 (월가아재) (38)	2022.09.07
Finance 참고 블로그 (27)	2022.03.20
[Quant Strategy] NCAV 전략 - 2022.03.16 기준 (12)	2022.03.17

	Open	High	Low	Close
0	8565.199219	8590.081055	8491.083008	8517.889648
1	8520.058594	8596.576172	8446.653320	8560.044922
2	8557.462891	8727.137695	8557.357422	8722.620117
3	8725.032227	8733.438477	8659.299805	8727.702148
4	8729.794922	8734.330078	8635.952148	8679.777344
...	...	...	...	...
3939	14573.364258	14604.063477	14518.272461	14521.224609
3940	14521.410156	14553.126953	14327.309570	14339.782227
3941	14337.040039	14394.203125	14225.609375	14272.733398
3942	14271.288086	14342.342773	14194.586914	14247.276367
3943	14253.838867	14253.838867	14253.838867	14253.838867

	date	Open	High	Low	Close	Hour	Volatility
0	2020-03-02-09	8565.199219	8590.081055	8491.083008	8517.889648	09	0.011659
1	2020-03-02-10	8520.058594	8596.576172	8446.653320	8560.044922	10	0.017749
2	2020-03-02-11	8557.462891	8727.137695	8557.357422	8722.620117	11	0.019840
3	2020-03-02-12	8725.032227	8733.438477	8659.299805	8727.702148	12	0.008562
4	2020-03-02-13	8729.794922	8734.330078	8635.952148	8679.777344	13	0.011392

	date	Open	High	Low	Close	Hour	Volatility	Day_rate
0	2020-03-02-09	8565.199219	8590.081055	8491.083008	8517.889648	09	0.011659	-0.552346
1	2020-03-02-10	8520.058594	8596.576172	8446.653320	8560.044922	10	0.017749	-0.060177
2	2020-03-02-11	8557.462891	8727.137695	8557.357422	8722.620117	11	0.019840	1.837913
3	2020-03-02-12	8725.032227	8733.438477	8659.299805	8727.702148	12	0.008562	1.897246
4	2020-03-02-13	8729.794922	8734.330078	8635.952148	8679.777344	13	0.011392	1.337717
5	2020-03-02-14	8677.587891	8703.663086	8577.958008	8610.159180	14	0.014654	0.524914
6	2020-03-02-15	8611.547852	8876.590820	8610.048828	8876.590820	15	0.030957	3.635544
8	2020-03-03-09	8892.039062	8892.039062	8748.486328	8782.742188	09	0.016409	-1.229154
9	2020-03-03-10	8781.586914	8999.271484	8781.586914	8931.540039	10	0.024789	0.444229
10	2020-03-03-11	8928.881836	8935.212891	8708.589844	8833.012695	11	0.026023	-0.663811

[금융상품] 원자재 투자의 대표 산업 금속과 선물거래 특징 (0)	2022.09.28
[Skewness Volatility] 왜 떨어짐은 크고, 상승은 작은가? (0)	2022.09.20
[금융 상품] 달러의 역사 - 미국이 기축통화 지위를 버릴 수 밖에 없는 이유 (월가아재) (38)	2022.09.07
Finance 참고 블로그 (27)	2022.03.20
[Quant Strategy] NCAV 전략 - 2022.03.16 기준 (12)	2022.03.17

NRGU 미국 정유주 3배 레버리지 ETN 분석, 향후 전망 (61)	2022.11.01
[ETF] 배당 ETF : SCHD ETF 분석과 향후 전망 (60)	2022.11.01
[미국 주식] 구글(GOOGL) 주식 분석 및 전망 feat. 유튜브 (79)	2022.08.24
7월 CPI 과연 어떻게 될까?? - 경기 침체 오나요?? (40)	2022.08.09
나는 왜 미국 주식을 하는가? (179)	2020.12.22

	Open	High	Low	Close	rate	cumulative
date
2022-01-02-23	16368.75	16400.25	16368.75	16384.25	1.000947	1.000947
2022-01-03-00	16389.75	16420.50	16384.75	16416.00	1.001602	1.002887
2022-01-03-01	16418.00	16427.50	16400.25	16403.25	0.999102	1.002108
2022-01-03-02	16401.75	16416.00	16393.50	16415.75	1.000854	1.002871
2022-01-03-03	16415.75	16418.00	16400.50	16407.00	0.999467	1.002337
...	...	...	...	...	...	...
2022-02-18-17	13979.25	14056.25	13941.75	13942.75	0.997389	0.851791
2022-02-18-18	13945.25	14007.75	13906.50	13989.50	1.003173	0.854647
2022-02-18-19	13989.50	14125.00	13981.75	14106.75	1.008381	0.861810
2022-02-18-20	14111.00	14140.75	13962.00	13998.25	0.992010	0.855181
2022-02-18-21	14008.25	14038.00	13987.25	13993.75	0.998965	0.854906

[Quant Strategy] NCAV 전략 - 2022.03.16 기준 (12)	2022.03.17
[Project] 증권사 리포트에 따라 사면 어떻게 될까?? (35)	2022.03.11
Project : Price and EPS NTM (1)	2021.12.09
[금융상품] 채권 (18)	2021.10.26
[금융상품] 원유 (20)	2021.10.18

지금까지 캐글을 시작하지 못햇던 이유 (34)	2022.02.07
[프로그래머를 위한 선형대수] Review (2) (6)	2022.02.05
[프로그래머를 위한 선형대수] Review (1) (34)	2022.01.30
금융데이터와 머신러닝의 결합 실패 이유 - Qraft Technoledge (34)	2022.01.08
Project : QQQ Price Predict (3)	2021.10.05

[프로그래머를 위한 선형대수] Review (3~4) (79)	2022.02.08
[프로그래머를 위한 선형대수] Review (2) (6)	2022.02.05
[프로그래머를 위한 선형대수] Review (1) (34)	2022.01.30
금융데이터와 머신러닝의 결합 실패 이유 - Qraft Technoledge (34)	2022.01.08
Project : QQQ Price Predict (3)	2021.10.05

[백준] 1427. 소트인사이트 (C++) (51)	2022.01.25
[백준] 11656. 접미사 배열 (C++) (12)	2022.01.25
[백준] 숫자놀이 C++ (19)	2022.01.25
[백준] 10814. 나이순 정렬 (C++) (5)	2022.01.24
[백준] 1431. 시리얼 번호 (C++) (4)	2022.01.23

leetcode 423. Reconstruct Original Digits from English (78)	2022.01.27
[백준] 11656. 접미사 배열 (C++) (12)	2022.01.25
[백준] 숫자놀이 C++ (19)	2022.01.25
[백준] 10814. 나이순 정렬 (C++) (5)	2022.01.24
[백준] 1431. 시리얼 번호 (C++) (4)	2022.01.23

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

분류 전체보기에 해당하는 글 174건

'Deep Breath' 카테고리의 다른 글

아래 두 영상을 참고해 작성했습니다.

'Quant' 카테고리의 다른 글

Project : 주식 매수를 몇시에 하는 것이 가장 좋을까?¶

개요¶

1. Nasdaq 100 시간 단위 데이터 크롤링¶

2. 크롤링 데이터 Dataframe 화¶

3. 필요 특성 추출¶

4. 데이터 시각화¶

프로젝트의 메인 목표인 "몇시에 사는 것이 가장 좋을지" 확인해보자¶

FeedBack¶

'Quant' 카테고리의 다른 글

1. 데이터 구하기

2. 데이터 전처리

3. 분포 확인

4. 히스토그램

메인 질문 "왜 떨어짐은 크고, 상승은 작은가?" 에 대한 답은 추후에 글을 쓰도록 하겠다.

'Quant' 카테고리의 다른 글

'Quant' 카테고리의 다른 글

성장주는 왜 성장주인가요??

그렇다면 EPS NTM을 어떻게 활용하면 되나요??

'US Stock' 카테고리의 다른 글

객관성과 사실

세 가지 가정을 해보자.

결론

'Deep Breath' 카테고리의 다른 글

'US Stock' 카테고리의 다른 글

3줄 요약

결론

'US Stock' 카테고리의 다른 글

'Quant' 카테고리의 다른 글

NCAV 전략이란 무엇인가?

'Quant' 카테고리의 다른 글

Question

Design

Develop

Evaluation

Feedback

'Quant' 카테고리의 다른 글

Pair Trading - Long-Short¶

가설 수립¶

데이터 준비 과정¶

시각화 결과¶

'Quant' 카테고리의 다른 글

3. 컴퓨터에서의 계산 (1) - LU분해

4. 고윳값, 대각화, 요르단 표준형 - 폭주의 위험이 있는지를 판단

'Machine Learning' 카테고리의 다른 글

'Machine Learning' 카테고리의 다른 글

2. 랭크, 역행렬, 일차방정식

2장에서는 결과 y로 원인을 추적하는 내용에 대해 다룬다.

y와 x 공간을 자유자재로 오갈 수 있는지, 정보가 온전히 보전되는지 살펴본다.

'Machine Learning' 카테고리의 다른 글

도입

1장 벡터, 행렬, 행렬식

[A] 벡터공간

[B] 행렬과 사상

[C] 행렬식과 확대율

마무리

'Machine Learning' 카테고리의 다른 글

'Algorithm' 카테고리의 다른 글

'Algorithm' 카테고리의 다른 글

'Algorithm' 카테고리의 다른 글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

지난달

2025.5

다음달

티스토리툴바