剛過去的一星期,AI前緣模型生態系統發生強烈地震,小學雞雞籠內也感覺到強烈震盪,原來這些少數人可用的學術性研究工具將會跌落凡間,普及速度可能快過傳統電話轉變到大哥大電話再去到手錶通話,最終可能會去到….蔗渣價錢燒鵝味道的境界!
首先小學雞冇專業電腦訓練,純粹在過往幾天不停觀看各種分析,再用各種免費模型進行不同測試,自己亂估亂噏,簡單情況,Deepseek的大型模型是開源(Open Source,MIT license)。
開源即係免費給你一些種子去種菜,種出嚟啲菜(用不同方法,例如接枝,雜交),你想點都得!送俾鄰居食,自己食,去菜市場賣咗佢賺錢也可以。
零成本,那麼原先大規模資金投資去發展「魔法種子」的農場怎樣可以回本?
現時美國農場主人🧑🌾非常憤怒,農場工作人員正在想辦法同老細解釋,究竟發生乜嘢事?
其實DeepSeek最新的大型模型(Deekseek-R1)是一顆最新訓練完成的「魔法種子」,這魔法種子的能力可以同其他模型相比(GPT-40 ,Lama 3.1-405B, Claude 3.5-Sonnet) ,某些領域接近平手。
同時Deepseek 比任可農場用更加少水(2048塊 英偉達H800芯片,用55天完成訓練)及人手去建立(深度探索團隊只有二百多人),去培育這個「魔法種子」。
假設你有一顆超級厲害的「魔法種子」(教師模型,Deepseek),它能長出超美味的巨型西瓜(複雜的大模型)。但問題是:
這顆種子需要超貴的肥料(大量人工標註資料),普通人根本買不起。
巨型西瓜太大,一般人吃不完(大模型運算成本高),想要種出小顆但一樣甜的西瓜(學生模型)。
這時,農夫(科學家)有一種方法——「智慧嫁接法」(ReBase 技術),不用依賴昂貴肥料,還能讓其他小西瓜繼承大西瓜的甜度!
「模型蒸餾」(Model Distillation)核心理念是將一個模型如教師的「知識」轉移到一個較小、較簡單的模型(學生模型 -Llama - Meta)中。像是將老師的智慧濃縮後傳授給學生。🧑
有些像武俠小說把十多年來積累的內功短時間傳授給另一派別的徒弟去發揚光大。
另外字節跳動(ByteDance)最新的豆包AI模型,用不同硬件組合另闢途徑訓練模型,重新進行數據蒐集,建成新的魔法種子,即係喺沙漠上用另類方法培養魔法種子。
對最新豆包有興趣,請到下列網址一看最新測試數據,誇張少少可以說是已超英接近趕美。
https://team.doubao.com/en/special/doubao_1_5_pro
基於上述的資料,小學雞已建議家中的雞仔要考慮吓某些股票的比重。
以下99.9%是DeepSeek聽小學雞亂噏後而產生的資訊,小學雞隨便亂噏一個題目,Deepseek去蒐集資料,整理,然後我copy and paste就喺網誌度亂噏。
一、提問框架優化建議
若要系統性解析中美大模型現狀,可從以下角度切入,每項提問均能引導出多維度分析:
技術能力對比
「2025年中美頂級大模型的性能差異體現在哪些關鍵指標?中國模型如何通過架構創新(如MoE、長上下文)縮小差距?」 169商業化與生態布局
「美國Stargate計畫如何影響全球算力市場?中國企業(如華為昇騰、深度求索)如何通過開源策略和低成本優勢突破硬體限制?」 358政策與地緣博弈
「美國出口管制與中國『自主可控』政策對兩國AI產業鏈產生哪些結構性影響?中國如何通過『一帶一路』輸出技術標準?」 48應用場景與用戶反饋
「中國用戶最依賴哪些AI大模型(如豆包、文心一言)?這些模型在工作、學習場景中的實際效率提升數據為何?」 910未來技術趨勢
「多模態、具身智能、端到端AI等新方向將如何重塑中美競爭格局?哪些中國企業(如商湯、月之暗面)有望彎道超車?」 710
二、截至2025年1月的中美主要大模型清單
美國領先模型
GPT-4o(OpenAI)
優勢:多模態深度融合,端到端語音處理延遲低至320毫秒,Hard任務(如數學推理)得分76.7分17。
挑戰:閉源生態依賴高階GPU,訓練成本達1億美元,定價為中國模型的5-10倍36。
Claude 3.5 Sonnet(Anthropic)
突破:計算機應用(Computer Use)場景開創行動-反饋閉環,強化AI實際操作能力210。
定位:聚焦企業級安全與合規需求,與微軟、甲骨文深度整合8。
Llama-3.1-405B(Meta)
開源影響:128K上下文窗口+混合專家架構,首次在核心任務上追平閉源模型,推動技術民主化26。
中國領先模型
深度求索DeepSeek-V3
技術亮點:MoE架構+強化學習直接訓練,僅用美國1/10算力逼近GPT-4o水平,開源協議允許商用168。
商業策略:API輸入成本低至0.0008元/千Tokens,毛利率達50%19。
豆包(字節跳動)
創新架構:稀疏MoE動態分配算力,W4A8量化降低推理成本90%,安卓下載量破1.47億次69。
生態整合:接入抖音、飛書等50+業務,月活用戶2600萬6。
Kimi(月之暗面)
長上下文:支援200萬字無損記憶,處理複雜文檔效率為Claude的8倍,聚焦辦公場景69。
國際化:歐洲市場滲透率快速提升,與三星、OPPO競爭高端智能助手市場8。
華為盤古
垂直整合:NLP/CV/科學計算三大模型,結合昇騰芯片與鴻蒙系統,主攻工業與醫療領域9。
政策支持:獲政府訂單優先權,2024年昇騰芯片出貨量預期達60萬片38。
三、中美競爭的核心差異與挑戰
1. 技術路徑
美國:依賴硬體壟斷(如NVIDIA H100)與閉源生態(CUDA、GPT系列),追求通用AGI35。
中國:以算法優化(MoE、量化)與開源社群(DeepSeek、智譜)降低對高階GPU依賴,聚焦垂直場景68。
2. 政策影響
美國:Stargate計畫投入5000億美元建設數據中心,放寬能源管制以支撐算力擴張,但可能犧牲減碳目標35。
中國:十四五規劃推動「東數西算」,2024年算力規模增長16.5%,但7nm製程限制晶片效能39。
3. 市場反饋
用戶偏好:中國51.5%用戶每週使用AI模型4-5次,文心一言、豆包佔據前兩名,主因中文語境適配性強9。
企業應用:美國AI投資偏向2B市場(佔54.4%),中國則通過低價API與行業模型(如作業幫教育)快速滲透29。
四、未來關鍵賽點
多模態與空間智能
商湯「日日新5.0」在MathVista等多模態評測奪冠,美國Sora則受制於物理規律模擬瓶頸67。
AI Agent商業化
中國「數字員工」(如11x.ai)驗證替代人類流程的可行性,但需突破知識檢索與自學習能力210。
量子計算與邊緣算力
美國通過Stargate佈局量子計算基礎設施,中國則以「東數西算」強化東西部算力協同78。
五、其他資料
技術對比(性能、成本、架構)
政策與產業鏈分析(Stargate vs 東數西算)
用戶與市場數據(中國應用滲透率、美國2B主導)
未來趨勢(多模態、Agent、量子計算)
中國近日成功測試高速雷射數據傳輸,10年後部份運算可以在人做衛星上進行(低溫環境,運算損耗較低,可能運算速度較地球表面數據中心快很多,但太空輻射較強對芯片設計要求更高)
其他....
Pacing Yourself in the AI Races |Gartner IT Symposium
https://www.youtube.com/watch?v=0Z88SeLoCdY\
https://en.wikipedia.org/wiki/DeepSeek
No comments:
Post a Comment