[1] |
Learning to summarize from Human Feedback,https://arxiv.org/pdf/2009.01325.pdf.
|
[2] |
[美]史蒂芬·平克.心智探奇:人類心智的起源與進化[M].郝耀偉譯.杭州:浙江人民出版社,2016:303.
|
[3] |
Deep reinforcement learning from human preferences[EB/OL].https://arxiv.org/abs/1706.03741.2017-01-12/2023-02-17.
|
[4] |
Rich Sutton.The Bitter Lesson[EB/OL].http://www.incompleteideas.net/IncIdeas/BitterLesson.html.2019-03-13/2023-02-15.
|
[5] |
[美]威廉·吉布森.全息玫瑰碎片[M].李克勤等譯.北京:北京時代華文書局,2021:190.
|
[6] |
人力資源和社會保障部、市場監(jiān)管總局、國家統(tǒng)計局聯(lián)合發(fā)布智能制造工程技術(shù)人員等16個新職業(yè)[EB/OL].http://www.mohrss.gov.cn/wap/xw/rsxw/202003/t20200302_361093.html.2020-03-02/2023-02-17.
|
沈陽化工大學(xué)材料科學(xué)與工程學(xué)院 沈陽 110142