隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速普及,人們已經(jīng)進(jìn)入了信息時(shí)代。在這個(gè)信息社會里,信息的重要性與日俱增,無論是個(gè)人,企業(yè),乃至**都需要獲取大量有用的信息。誰掌握了信息,誰就能在競爭中處于有利位置。在這種環(huán)境下,搜索引擎技術(shù)逐漸成為技術(shù)人員的開發(fā)熱點(diǎn),而其中較為重要的技術(shù)就是分詞技術(shù)。 中文分詞,顧名思義,就是借助計(jì)算機(jī)自動給中文斷句,使其能夠正確表達(dá)所要表達(dá)的意思。中文不同于西文,沒有空格這個(gè)分隔符,同時(shí)在中文中充滿了大量的同義詞,相近詞,如何給中文斷句是個(gè)非常復(fù)雜的問題,即使是手工操作也會出現(xiàn)問題。中文分詞是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動文摘、語音識別、文本語音轉(zhuǎn)換、自然語言理解等中文信息處理領(lǐng)域的基礎(chǔ)研究課題。對于中文分詞的研究對于這些方面的發(fā)展有著至關(guān)重要的作用。可以這樣說,只要是與中文理解相關(guān)的領(lǐng)域,都是需要用到中文分詞技術(shù)的。因此對于中文分詞技術(shù)的研究,對于我國計(jì)算機(jī)的發(fā)展有著至關(guān)重要的作用。 北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。 NLPIR大數(shù)據(jù)語義智能分析平臺十三大功能: 精準(zhǔn)采集:對境內(nèi)外互聯(lián)網(wǎng)海量信息實(shí)時(shí)精準(zhǔn)采集,有主題采集(按照信息需求的主題采集)與站點(diǎn)采集兩種模式(給定網(wǎng)址列表的站內(nèi)**采集功能)。 文檔轉(zhuǎn)化:對doc、excel、pdf與ppt等多種主流文檔格式,進(jìn)行文本信息轉(zhuǎn)化,效率達(dá)到大數(shù)據(jù)處理的要求。 新詞發(fā)現(xiàn):從文本中挖掘出新詞、新概念,用戶可以用于專業(yè)詞典的編撰,還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。 批量分詞:對原始語料進(jìn)行分詞,自動識別人名地名機(jī)構(gòu)名等未登錄詞,新詞標(biāo)注以及詞性標(biāo)注。并可在分析過程中,導(dǎo)入用戶定義的詞典。 語言統(tǒng)計(jì):針對切分標(biāo)注結(jié)果,系統(tǒng)可以自動地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì)。針對常用的術(shù)語,會自動給出相應(yīng)的英文解釋。 文本聚類:能夠從大規(guī)模數(shù)據(jù)中自動分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。同時(shí)適用于長文本和短信、微博等短文本的熱點(diǎn)分析。 文本分類:根據(jù)規(guī)則或訓(xùn)練的方法對大量文本進(jìn)行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。 摘要實(shí)體:對單篇或多篇文章,自動提煉出內(nèi)容摘要,抽取人名、地名、機(jī)構(gòu)名、時(shí)間及主題關(guān)鍵詞;方便用戶快速瀏覽文本內(nèi)容。 智能過濾:對文本內(nèi)容的語義智能過濾審查,內(nèi)置國內(nèi)較全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準(zhǔn)排歧。 情感分析:針對事先*的分析對象,系統(tǒng)自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負(fù)面的得分和句子樣例。 文檔去重:快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時(shí)找出所有的重復(fù)記錄。 全文檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索。 編碼轉(zhuǎn)換:自動識別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為其他編碼。 中文分詞技術(shù)應(yīng)時(shí)代的要求應(yīng)運(yùn)而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計(jì)算機(jī)交流中的一些障礙;但中文分詞技術(shù)也存在很多困難,我們相信在未來的幾年里,通過對中文分詞技術(shù)的深入研究,必將開發(fā)出高質(zhì)量、多功能的中文分詞算法并促進(jìn)自然語言理解系統(tǒng)的廣泛應(yīng)用。
詞條
詞條說明
靈玖LJParser中文分詞系統(tǒng)有什么特點(diǎn)?
詞法分析是自然語言處理的基礎(chǔ)與關(guān)鍵,是計(jì)算機(jī)科學(xué)中將字符序列轉(zhuǎn)換為單詞序列的過程。基本任務(wù)是從字符串表示的源程序中識別出具有獨(dú)立意義的單詞符號,其基本思想是根據(jù)掃描到單詞符號的**個(gè)字符的種類,拼出相應(yīng)的單詞符號。 靈玖LJParser中文分詞系統(tǒng)是靈玖軟件經(jīng)過多年研究工作積累的基礎(chǔ)上,研制出的分詞系統(tǒng),主要功能包括中文分詞;英文分詞;詞性標(biāo)注;命名實(shí)體識別;新詞識別;關(guān)鍵詞提取;支持用戶專業(yè)詞
自然語言理解是語言學(xué)、邏輯學(xué)、生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等相關(guān)學(xué)科發(fā)展和結(jié)合而形成的一門交叉學(xué)科;它能夠理解口頭語言或書面語言。 自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。NLU是自然語言理解(Natural Language Understanding)的縮寫。 隨著計(jì)算機(jī)技術(shù)和人工智能總體技術(shù)的發(fā)展,自然
靈玖軟件:NLPIR智能技術(shù)推動NLP語義挖掘快速發(fā)展
當(dāng)前,大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的節(jié)點(diǎn)。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會**。 大數(shù)據(jù)也是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面對大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)
Internet技術(shù)的發(fā)展與成熟,使得人們可獲得的信息越來越多。面對海量信息,人們已經(jīng)不能簡單地靠人工來處理所有的信息,需要輔助工具來幫助人們較好地發(fā)現(xiàn)、過濾和管理這些信息資源。 與拉丁語系的文本不同,中文并不使用空格作為詞語間的分隔符。比如當(dāng)我們說“We love coding.”,這句英文使用了兩個(gè)空格來分割三個(gè)英文詞匯;如果用中文做同樣的表述, 就是“我們愛寫代碼?!?,其中不包含任何空格。
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
NLPIR語義挖掘助各行業(yè)建數(shù)據(jù)內(nèi)容處理技術(shù)屏障
NLPIR大數(shù)據(jù)語義平臺為畢業(yè)論文增色
NLPIR漢語分詞為自然語言信息處理提供新方法
NLPIR大數(shù)據(jù)挖掘?yàn)橹形男畔⑻幚硖峁┙鉀Q方案
NLPIR大數(shù)據(jù)平臺實(shí)現(xiàn)中文自動語義挖掘
糾文網(wǎng)為畢業(yè)論文格式難題運(yùn)用人工智能技術(shù)解決
NLPIR語義平臺KGB知識圖譜搜索實(shí)現(xiàn)可視化挖掘
NLPIR大數(shù)據(jù)挖掘通過知識圖譜展現(xiàn)智能語義關(guān)系
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com