第 3 章 資料說明

本研究以台北大學大學部通識課程的修課狀況為研究對象,并設定民國101年至106民國年為研究期間,共計五年。之所以選取這5年,是因為台北大學的通識課程的實施辦法經歷過數次比較大的變動。

這裡做個表格,說明為什麼選取101-106年 台北大學通識課程的學分大部分為2,學分,自99年起,台北大學的通識課程開始設立通識課程的向度,并規定99至100學年度入學學生必須選修通識教育核心課程至少8學分,五大向度中任選4向度,各向度至少選1門;進階課程至少4學分,不分向度至少2門。101至104學年度入學學生必須選修通識教育課程12學分,五大向度中任選4向度,各向度至少選1門。105學年度以後入學學生必須選修向度通識教育課程18學分,六大向度中任選5向度,各向度至少選1門。而且五大向度在101年經過重大調整,並且103年向度2經過比較大的改變,105年從5向度擴大為6向度,學分數要求也從12學分擴大至18學分##

因此,為了保證數據的一致性,本研究所選取的研究期間為101年至106年。

這裡在做個表格,顯示不同年份入學學生的通識課程修課數目的統計表

為了保證數據具有代表性,確保推薦系統能夠從课程的歷史樣本中學得隱藏的變數,本研究所篩選的數據為通識課程修課數目大於等於6小於等於10 經過這樣篩選過後,共留下4999名學生,共402門課的資料。本文研究變數資料取自台北大學。 本研究将学生所修的最后一门通识课程当做测试数据(test_data),剩下的n-1门当成训练数据。

變數定義,這裡列個表格,包含输入變數u(學生),i(課程),评价指标:hits(推荐命中率),ndcg(推荐评分),K(推荐列表长度)

输入变数u:为每个学生编号,采用one_hot encoding,范围从[0,4998] 输入变数i:为每个同事课程编号,采用one_hot encoding,范围从[0,401] 评价指标:本研究为每个学生提供了100门通识课程进行测试,每个学生的测试数据中只有我们之前所留下的那门课程为学生本人之前有修过的通识课程,剩下的99门均为未修过的课程。将每个学生的100个测试课程输入推荐系统,推荐系统将会对每门课程给出他预测学生修的概率。将这100门课按概率降序排序。 推荐成功率hits:根据我们所测定的推荐列表长度K,如果学生真正修过的那门通识课程位推荐列表的前K个,则那个学生的hit_ratio 为1,将公4999名学生的hit_ratio取平均后即为我们测试指标。它代表着我们对学生综合的推荐成功率。