모델이위치한`/logs/your-experiment/3_feature256`에는 각 음성 데이터에서 HuBERT가 추출한 feature들이 있습니다. 여기에서 파일 이름별로 정렬된 npy 파일을 읽고, 벡터를 연결하여 big_npy ([N, 256] 모양의 벡터) 를 만듭니다. big_npy를 `/logs/your-experiment/total_fea.npy`로저장한후,Faiss로학습시킵니다.
2023/04/18기준으로,Faiss의IndexFactory기능을이용해,L2거리에근거하는IVF를이용하고있습니다.IVF의분할수(n_ivf)는N//39로, n_probe는 int(np.power(n_ivf, 0.3))가 사용되고 있습니다. (infer-web.py의 train_index 주위를 찾으십시오.)
퀴리확장이란탐색에서사용되는기술로,예를들어전문탐색시,입력된검색문에단어를몇개를추가함으로써검색정확도를올리는방법입니다.백터탐색을위해서도몇가지방법이제안되었는데,그중α-쿼리확장은추가학습이필요없는매우효과적인방법으로알려져있습니다.[Attention-BasedQueryExpansionLearning](https://arxiv.org/abs/2007.08019)와 [2nd place solution of kaggle shopee competition](https://www.kaggle.com/code/lyakaap/2nd-place-solution/notebook) 논문에서 소개된 바 있습니다..