中文在线中文资源,色鲁97精品国产亚洲AV高,亚洲欧美日韩在线一区,国产精品福利午夜在线观看

你的位置:首頁 > 互連技術 > 正文

人工智能限制與否:‘堂吉訶德’系統通過講故事來教機器人價值觀

發布時間:2016-02-19 責任編輯:susan

【導讀】機器人是否存在不道德的行為或者是選擇傷害人類呢?人工智能(AI)的快速發展使我們越發擔憂。“堂吉訶德”系統通過訓練機器人閱讀故事的方法來教導它們“價值校準”,讓機器人讀故事來學習事件可以接受的后果,并理解要在人類社會中獲得成功應當怎樣表現。
 
一些人呼吁禁止機器人技術的研究;其他人則呼吁更多地研究理解怎樣對人工智能進行限制。 但是如果沒有成為人類的“用戶說明書”,機器人又怎樣來學習倫理行為呢?
  
美國佐治亞理工學院、交互計算分院的研究人員Mark Riedl 和 Brent Harrison 認為,答案在于“堂吉訶德”系統— — 在亞利桑那州鳳凰城(2016 年2 月 12-17日)的AAAI(美國人工智能學會)第16次會議上公布。“堂吉訶德”系統通過訓練機器人閱讀故事的方法來教導它們“價值校準”,讓機器人讀故事來學習事件可以接受的后果,并理解要在人類社會中獲得成功應當怎樣表現。
  
“不同文化背景里的故事集,用寓言、小說和其他文學形式的正確和不正確行為示例,來教導孩子做出社會認可的舉止行為。” Riedl說,他是副教授和娛樂智能實驗室主任。“我們認為機器人對故事的理解可以讓它們減少精神病患者出現的行為,并且強化它們“不要傷人”的選擇,同時達到期望的任務目標。
 
 
配圖說明:研究學者 Mark Riedl 和 Brent Harrison 的“堂吉訶德”系統教導機器人在與人互動時候表現為正派角色,并且這是把倫理價值觀系統構建進入到新型人工智能的巨大努力的一部分。
  
 
“堂吉訶德”系統是一種通過對社交中恰當行為給予獎勵,使得人工智能的目標與人類價值觀一致的一種校準方法。它是建立在Riedl教授之前的一個研究——“天方夜譚”系統,的基礎上的。“天方夜譚”系統展示了人工智能如何通過在互聯網上面的眾包模式故事情節,來匯集得出正確的行動后果。
 
“天方夜譚”系統可以學習什么是正常的或者正確的情節圖譜。然后它把數據結構傳遞給“堂吉訶德”,“堂吉訶德”再將其轉換成“獎勵信號”——在反復試錯學習過程中強化特定的行為并且懲罰其他的行為。大體上,“堂吉訶德”可以學習到,當它表現為故事里面的正派角色而不是任性而為或是表現為反派角色的時候,它將會獲得獎勵。
  
例如,某個機器人的任務是盡可能快地為某個人拿到一個藥方,機器人可以:a)搶劫藥房,奪取藥物,并跑走; b) 與藥劑師有禮貌地進行交互,或 c) 排隊等候。如果沒有“價值校準”和積極強化機制,這個機器人可能會認為搶劫是最快和最便宜的方式,來完成其任務。通過“堂吉訶德”系統的“價值校準”,這個機器人將因為耐心排隊等候并且付費買藥方而獲得獎勵。
  
 
Riedl 和 Harrison 在他們的研究中證明了,在某個給定的情境中, 價值校準獎勵信號怎樣可以產生并展開所有可能的步驟,引導機器人進入一個情節軌道樹,然后這將被機器人用來形成“情節選擇”(類似我們很多人可能參與過的一種可以自由選擇后續情節發展的小說),并且根據它的選擇,機器人將會受到獎勵或者懲罰。
  
如果機器人有一個限定性的、并且需要它和人類交流才能達成的任務目標,那么“堂吉訶德”方法是最佳的,并且它是人工智能朝向普遍性道德推理能力的最原始、初級的一步。Riedl 如此說。
  
“我們相信,人工智能必須植入特定的文化從而適應特定社會環境的價值觀念,并且通過這樣做,它將努力避免不當的行為舉止,”他補充說,“賦予機器人閱讀并理解故事的能力,可能是在缺乏成為人類的用戶說明書情況下,最好的權宜之計。”
特別推薦
技術文章更多>>
技術白皮書下載更多>>
熱門搜索
?

關閉

?

關閉

  • <center id="09kry"></center>

  • 主站蜘蛛池模板: 郯城县| 邹平县| 河池市| 巴塘县| 措美县| 略阳县| 濉溪县| 长沙市| 云浮市| 宣恩县| 稷山县| 镇雄县| 德州市| 康乐县| 洞口县| 宁蒗| 启东市| 山东省| 定日县| 巴马| 循化| 旬邑县| 乐亭县| 怀仁县| 河间市| 兴隆县| 香港| 玛曲县| 阿勒泰市| 宣威市| 新龙县| 象山县| 酒泉市| 鄢陵县| 九龙城区| 黄浦区| 安徽省| 三明市| 南陵县| 呼和浩特市| 临安市|