9.14.2009

[研討會]A Framework for Evaluating Interactive Information Retrieval


圖片來源:http://www.nh.com.tw/servlet/ProductPhoto?stk_c=9789868205802


各位應該有看過AI人工智慧這部電影吧~
當機器人擁有人類的思維也蠻可怕的
可能會成為人類的敵人
但當搜尋引擎擁有人的思維時
會不會成為人類的助手
這就要看搜尋引擎發展的地步了
但如何評估這搜尋引擎效益與價值,來近一步幫助人機的溝通,
也是增進檢索系統的所必經之步驟之一阿!


以下部分是摘錄Pertti Vakkari學者A Framework for Evaluating Interactive Information Retrieval的一文,裏頭有提到對人機互動資訊檢索評估架構的一些問題待解決:
1. What are the major elements of the process to be evaluated?
2. What are the goals & the criteria of success in the performance of elements?
3. How this criteria could be measured?



他也提出一個定義對輸出(outputs 、outcomes)的概念做評估,來區分彼此的不同:

  • outputs就是指系統針對個人的問題所產生的資訊,但這些相關的資訊未必是個人所需的。
  • outcomes就是指系統針對個人的問題所產生的資訊,但這些相關的資訊對使用者而言是有價值的。


這是他所提出用來評估人機互動資訊檢索架構的要素如下:
1. Stage of search process
2. Goals of these stages and means for attaining the goals
3. Criteria for assessing the goal attainment
4. measures of goal attainment

都只是在描述如何用哪些標準和工具,來評估和達到每個檢索階段的目標。


然後也有講到詞彙的選擇:
1. Two types of search goals

  • 回現導向(Recall oriented)
  • 精確導向(Precision oriented)

2. Goal: To express the concepts of imformation need as search terms
文中有提到徹底性(exhaustivity)延展性(extent),都會影響到檢索的結果。


關於知識結構的部份也提到了與人和文件的關係:
在文件上,
1. 認為內文可以在知識結構的組織上予以概念化(例: 概念與內文之間的關係)。
2. 檢索過程和內文的概念化連結都與index和query的重要性有關,彼此的關係都會影響到檢索效果。

在人類上,
1. 搜尋引擎所呈現的主題詞能否與他們的工作背景有關 -> 攸關於智能模組裡的概念與任務之間的組織關係。
2. 知識的不足將會影響到人們在搜尋上的困擾 -> 搜尋引擎無法在第一時間給予使用者滿意的答案。
3. 主題詞的資訊搜尋是一個取得概念與工作上之間關係的管道,透過主題詞可以輕易的找到彼此之間關係的辭彙及資訊,也可以彌補本身資訊背景的不足(bridge a gap in their knowledge)。
4. 透過這個bridge,可以讓他們先有piror knowledge的基礎,來檢索工作上的所需(representation of the work)。



這篇文章雖然是在講人機間的資訊檢索評估,但其實都環繞在資訊需求(Information Need)。資訊需求主要是由使用者來定義,這有可能與個人的興趣、背景及任務尚等特性有關,但對使用者而言是非常重要的。


有關知識異常態(ASK, Anomalous State of Knowledge)所造成資訊需求的行為:
TaylorBelkin 的模式中發現資訊需求者在一開始是處於混沌狀態,由混沌進入可陳述問題的歷程,需時多久因人而異,資訊的刺激及來源足夠即可減短探索的歷程。資訊檢索的目的就是要描述Anomalous State of Knowledge(ASK)這個過程。總而言之,資訊需求就是個知識異常狀態,處於此狀態的讀者如果在無人引導的狀況下,往往只能在問題的原點打轉,可利用 Taylor 的四個層次模式予以判斷其處於何種層級。
引用自:知識混沌說ASK


然而,以上承述了許多評估的觀點,是否確實增進了人機之間的互動呢?我想,就以我個人使用者的角度中,這是不明顯的,甚至是不夠的。畢竟機器只讀的懂人所賦予的語言,它沒有人類的思維脈絡,也沒有人的情境(不斷的經歷,從經驗轉變成知識,最後是智慧),它只有人的結果,所以機器所能給的幫助與人所經歷的過程中所需要的幫助,在某些時候是無助甚至是有落差的。因此,才會有下一代搜尋引擎 - 語義網的產生。

這裡有一篇值得參考的文章:下一代的搜尋引擎,摘錄部分文字:
由於人們的學習工作即生活都伴隨著網際網路,所以大部分上網的人都會使用搜索引擎,而圍繞搜索已經形成一個重要的產業鏈,有些媒體甚至造出了“搜索經濟”這個詞。

我們現在身處第二代搜尋引擎的發展下,改進第一代的弊端後(傳統圖書館文獻管理方法的弊端也是一樣的),創新性地提出了頁面重要性分析技術Page Ranking技術和超鏈分析技術等,將最重要的頁面優先呈現給用戶。代表產品就是Google,Google並不對文獻進行分類,而是從文獻中識別出“關鍵字”來,然後建立倒排索引。也就是說文獻是用一組關鍵字列表來表示的,這就是網路資源的資料模型。......對出現這些關鍵字的頁面按照確定的方法對其進行排序,並按照得分的高低順序呈現給用戶。

然而,在這裏“關鍵字”僅僅是出現在網頁中的符號而已,它所指代的語義並沒有被使用。頁面分析所依據的也是存在於頁面之間的鏈結關係,它不能表示這些頁面本身包含什麼資訊。因此目前搜尋引擎出現了一連串的困難,其中"重複資訊太多"及"得到的有用資訊太少"這兩項,主要根源都是搜索引擎不能理解存在於網頁中的資訊的語義。所以,我們相信,下一代搜索引擎的資料模型必須是語義資料模型。

語義網採用XML + RDF + Ontology三個層次描述資訊資源,構成了電腦理解內容的基礎。建立語義網的同時,也會發展一系列的技術,如:自動標注技術、資訊抽取技術等等。因此,下一代的語義網將會是智慧化的。


為了克服千人一面的不足,人們還引進了一些個性化的技術,包括對查詢輸入的修正,查詢結果的聚類等。筆者以為如何為用戶的學習和工作營造一個個性化的資訊空間,是未來搜索引擎應該追求的方向,這裏包括如何表達資訊需求,如何展示/流覽搜索結構,如何對個性化的資訊需求建立模型等等。從這種意義上講,下一代搜索引擎將是個性化的。


有一種觀點認為,下一代搜索引擎應能處理深層網頁(Deep web)。所謂深層搜索是指搜索那些放在資料庫中的資訊。目前的搜索引擎主要處理普通的網頁(稱為淺層網頁),對於深層網頁的資訊難以搜索,而據說這樣的資訊是普通網頁的500倍。顯然,如何能夠將搜索引擎的觸角深入到資料庫裏去,是下一代搜尋引擎所關心的。


不管下一代搜尋引擎會發展到什麼樣的境界,語義網是人工智慧的重要工具之ㄧ,畢竟對搜尋引擎來說人與機器之間需要一個完善的溝通管道,才能讓搜尋引擎了解到使用者的意涵進一步的去分析萃取,並確切快速的滿足使用者的資訊需求。


當然,這也是我們所期待與期望的。




參考文獻:
1. A Framework for Evaluating Interactive Information Retrieval - Pertti Vakkari
2. The IIR evaluation model: a framework for evaluation of interactive information retrieval systems - Pia Borlund

參考網址:
1. /Anomalous_State_of_Knowledge(ASK)_%E7%9F%A5%E8%AD%98%E7%95%B0%E5%B8%B8%E6%85%8B
2.
http://www.bm.nsysu.edu.tw/tutorial/htt/dkl/JerryWu-Search-041223.pdf
3. http://news.xinhuanet.com/newmedia/2006-07/07/content_4806351.htm
4. http://jacky.seezone.net/2006/07/12/1680/
5. http://tw.myblog.yahoo.com/ericmachang-isms/article?mid=6&prev=7&next=5
6. http://www.xxc.idv.tw/blog/xxc/km/from-memory-to-info-organization.html

沒有留言:

張貼留言

搜尋此網誌