世界トップクラスの
AI学習用データサービス
プロバイダー

データリソース、技術力と豊富なデータ処理経験に基づき、2011年創業以来、
全世界1,000社以上の人工知能企業や研究機関にハイクオリティなデータサービスを提供。

News

  • 2021年
    2021/10/14

    Datatangは北京市科学技術進歩賞の優秀賞を受賞しました。
    https://prtimes.jp/main/html/rd/p/000000005.000079975.html

  • 2021/9/8

    DatatangはAI・人工知能の見本市「Ledge.ai EXPO 2021 秋」(2021年9月8日~9月24日)オンラインで出展しております。
    https://ledge-expo.com/2021-au/products/42

  • 2021/8/24

    Datatangは、100人歩き姿識別のデータをご提供いたします。
    ご興味のある方は、お気軽にお問い合わせください。
    ・データシーン:室内シーン(ショールーム、フロント)、室外シーン(広場、会社の入り口)
    ・データの多様性:多年齢層、多時間帯、5種類のシーン、3種類の服装状態、異なる採集角度
    ・アノテーション:抽出された画像を二値化処理
    ・データは監視シーンで歩き姿の識別などに応用可能

  • 2021/7/12

    Datatang北京が中国上海開催2021世界人工知能大会(WAIC2021)に出展しました。
    https://prtimes.jp/main/html/rd/p/000000003.000079975.html

  • 2021/5/19

    一般社団法人情報サービス産業協会(JISA)が運営しているサイトirodoruにて弊社メンバーのインタビュー記事が掲載されました。
    https://www.irodoru.net/work_style/marketing/S040.html

  • 2021/5/19

    【コーバスデータ特集】
    AI自動翻訳によく使われている弊社保有のコーバスデータをリストアップしました。
    詳細に興味がある方は、お気軽にお問い合わせください。
    ・200万組中日コーバスデータ
    ・38万組日英コーバスデータ
    ・278万組中英コーバスデータ
    ・41万組中韓コーバスデータ
    ・46万組韓英コーバスデータ
    ・100万組中仏コーバスデータ
    ・100万組中ロコーバスデータ
    ・38万組ウ(ウイグル語)中コーバスデータ
    ・10万組中ウ(ウイグル語)コーバスデータ

  • 2021/04/02

    AI Marketにて弊社インタビュー記事が掲載されました。
    https://ai-market.jp/interview/datatang_interview/

  • 2021/03/16

    【子供音声データ特集】
    昨今、ホームスマートスピーカーが普及している中、子供の使用頻度が多くなっています。
    その音声識別の精度を高くするため、下記の音声学習用データ製品をご提供しております。
    ・55時間イギリス子供マイク音声収集データ(英語)
    ・50時間アメリカ子供マイク音声収集データ(英語)
    ・203時間中国子供が話す英語スマートフォン収集音声データ(英語)
    ・41時間中国幼児マイク/スマートフォン音声データ
    ・3,255時間中国子供収集音声データ(中国語)
    ・183時間中国子供マイク音声収集データ(中国語)
    ・201人赤ちゃん泣き声スマートフォン収集音声データ

  • 2021/02/16

    DatatangはAI・人工知能の見本市「Ledge.ai EXPO 2021 春」(2021年3月から)オンラインで出展します。
    https://ledge-expo.com/

  • 2021/02/16

    【データ収集事例紹介特集】
    Datatangでは、様々なデータ収集のニーズに対応しております。各種収集事例を紹介いたします。
    ご興味のある方、ぜひお問い合わせください。
    ・500人飲酒後の顔の動画データおよび血圧変化データ収集
    ・30万個の製品画像収集&クレンジング
    ・500時間アメリカのレストラン環境においての騒音データ収集
    ・2,000世帯家庭環境においての会話音声データ収集
    ・家庭環境のパルスオーディオデータ収集
    ・赤ちゃんの動画データ収集
    ・サイン行為の動画データ収集
    ・オフィス環境の動画データ収集

  • 2021/01/15

    【多言語音声データ特集】
    日本はグローバル化が進んでいる中、多言語対応のAI音声認識・音声識別の応用が重要になってきます。
    Datatangでは多言語AI音声認識モデルを構築するための各国語の音声学習用データを揃っております。
    ・1,036時間日本語スマートフォン収集音声データ
    ・2,011時間ドイツ語スマートフォン収集音声データ
    ・2,002時間イタリア語スマートフォン収集音声データ
    ・1,000時間フランス語スマートフォン収集音声データ
    ・1,000時間スペイン語スマートフォン収集音声データ
    ・1,000時間ポルトガル語スマートフォン収集音声データ
    ・1,002時間ロシア語スマートフォン収集音声データ
    ・1,000時間ブラジルポルトガル語スマートフォン収集音声データ
    ・292時間タイ語スマートフォン収集音声データ
    ・1,000時間インドネシア語スマートフォン収集音声データ
    ・505時間マレーシア語スマートフォン収集音声データ
    ・1,064時間ヒンディー語スマートフォン収集音声データ
    ・760時間ベトナム語スマートフォン収集音声データ
    ・466時間韓国語スマートフォン収集音声データ
    ※勿論、その他言語も対応しています。ぜひお問い合わせください。

  • 2020年
    2020/12/16

    【人工知能学習データサービス情報】
    Datatangは、466人18,880枚3D人体インスタンスセグメンテーション及び人体22キーポイントデータを提供いたします。
    本データは3Dカメラで撮影を行い、depth情報、複数のシーン、複数の照明条件、複数の年齢層、多数の撮影角度、多姿勢のデータを含んでいます。 人体に対して、インスタンスセグメンテーション、22キーポイントのアノテーションを行っています。本データは人体のインスタンスセグメンテーション、人工行為識別等タスクに使われています。

  • 2020/12/16

    【人工知能学習データサービス情報】
    Datatangは、1,066人生体検出データをご提供いたします。
    本データは収集シーン別(室内/室外)、男女別、年齢別(少年からお年寄りまで、中青年がメイン)、多姿勢、多表情、多anti-spoofingサンプル(タブレットに映っている顔写真、紙に印刷された顔写真、目穴・鼻穴を開けた印刷された顔写真等)のデータを含んでいます。本データは顔認証決済、リモート身分認証、スマートフォンロック解除等の応用シーンに使われています。

  • 2020/11/13

    【人工知能学習データサービス情報】
    Datatangは、25,983人多人種証明写真付き顔データを提供いたします。
    本データは黄色人種、黒人、白人、褐色人種が含まれています。被収集者1人あたり5-10枚の日常写真と1枚の証明写真があり、顔識別などのAI開発に使われます。

  • 2020/11/13

    【非母語英語音声データ特集】
    英語音声認識において、非母語話者の英語を認識することが難しい課題と思われます。
    その学習用データをたくさん集めることが困難のため、なかなか認識率が高められないのは現状ではないでしょうか。
    ところで、Datatangは大量の多国籍話者を集め、それぞれの特徴が生かせた英語音声データを収集しました。
    Datatangデータをご活用し、皆様の音声認識開発に貢献できれば幸甚でございます。
    ・215時間アメリカ英語スマートフォン採集音声データ
    ・199時間イギリス英語スマートフォン採集音声データ
    ・200時間日本人話す英語スマートフォン採集音声データ
    ・535時間ドイツ人話す英語スマートフォン採集音声データ
    ・520時間フランス人話す英語スマートフォン採集音声データ
    ・230時間ロシア人話す英語スマートフォン採集音声データ
    ・207時間カナダ人話す英語スマートフォン採集音声データ
    ・593時間中国人話す英語スマートフォン採集音声データ

    尚、韓国、ブラジル、オーストラリア、ポルトガル、イタリア等々の国籍の人から英語音声データを収集実施中です。

  • 2020/10/13

    【人工知能学習データサービス情報】
    Datatangは、1,078人3D顔収集データを提供いたします。
    収集設備はRealsense SR300。被収集者ごと6週間(週に1回)を渡る多照明多姿勢の動画16本、RGB情報、Depth情報、赤外線情報(IR)の情報が含まれております。
    本データは3D顔識別シーン等に使われています。

  • 2020/10/13

    【人工知能学習データサービス情報】
    Datatangは、200時間日本人が話す英語スマートフォン採集音声データを提供致します。
    400名の日本人の音声を録音した(16KHz/16bit/未圧縮wav/モノラル)。性別の分布が均一。録音テキストは日常、交互、車載、住居等多種別のシーンを含め、内容豊富。

  • 2020/09/14

    Datatangはアノテーションプラットフォームサービス「Shujiajia」日本語版を日本国内のパブリッククラウドにリリース致しました。
    今後日本のお客様のアノテーションニーズに柔軟に対応してまいります。
    本サービスはDatatangこれまでの業務経験に基づき開発しました。音声、TTS、自然言語処理、画像、動画等々のAI学習用データに対するアノテーションツールを搭載しています。またその他アノテーション作業のPJ管理に伴う様々の機能を搭載しております。
    これにより作業の進捗や課題の可視化を実現し、大規模なアノテーションプロジェクトにも対応できます。

  • 2020/09/14

    【人工知能学習データサービス情報】
    Datatangは、
    ①『514時間日本語スマートフォン採集音声データ』
    ②『287時間日本語スマートフォン採集音声データ』
    ③『235時間日本語スマートフォン採集音声データ』
    を提供いたします。
    計1,036時間、内容は広範囲に渡り、日常、交互、車載指示、住居指示等の複数分野の音声データが含まれています。
    テキスト転写内容もDatatangの品質検査により高正解率を保つ

  • 2020/08/14

    弊社はグローバルコミュニケーション開発推進協議会(英語名称:Council for Global Communication Development and Promotion)に入会しました。
    本会は、国立研究開発法人情報通信研究機構を中心に産学官の力を結集して、多言語翻訳技術の精度を高めるとともに、その成果を様々なアプリケーションに適用して社会展開していくために必要な検討を行い、「グローバルコミュニケーション計画2025」の推進に資することを目的とする。
    本会のURLは下記となります。
    https://gcp.nict.go.jp/

  • 2020/08/14

    【人工知能学習データサービス情報】
    Datatangは、「53万枚ストリートビュー画像のバンディングボックスアノテーションデータ」を提供します。
    中国都市部、農村部の道路シーンを収集しております。晴れ、雨、雪の天気が含まれており、車両、信号機、交通標識のバンディングボックスアノテーションを行いました。
    自動運転関連の応用シーンに学習データとして使われます。

  • 2020/07/14

    【INTERSPEECH 2020 CONTEST】
    Interspeechは、ISCA(INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION)が主催する音声研究の分野におけるトップカンファレンスの1つです。
    2020年には、Interspeechは「Cognitive Intelligence for Speech Processing」をテーマにし、グローバルな音声分野の研究者、人工知能の専門家、業界でTop企業等を集めて、音声認識においてのNLPや翻訳などに関するコミュニケーションとディスカッションを行います。
    Datatangは共同主催するとともに、訛り英語音声認識コンテストを発起しました。

  • 2020/07/06

    【人工知能学習データサービス情報】
    Datatangは、『100万文字の日本語手書きデータ』を提供します。
    用紙1枚に約300文字が入っており、文字単位のバンディングボックスやテキスト転写のアノテーションが行われています。書類の手書き文字の自動認識に学習データとして使われています。

  • 2020/07/06

    【人工知能学習データサービス情報】
    Datatangは、「12か国語105,974枚自然シーンにおけるOCRアノテーション及びテキスト転写データ」を提供します。
    12か国語(アジア言語6つ、ヨーロッパ言語6つ)、複数自然シーン、複数撮影角度が含まれており、映されているテキストに対するバンディングボックス、テキスト転写のアノテーションが行われています。多言語のOCR文字認識に学習用データとして使われています。

  • 2020/05/15

    【人工知能学習データサービス情報】
    Datatangは, 『90,023枚車両画像及びアノテーションデータ』を提供します。
    車両の全体、ボディフロント又はボディ後方、ナンバープレート、 ブランド、モデル、車両の色、ナンバープレートの色、カーナンバーの転写、採集時間等のアノテーション済データです。車両の属性分析をするAIに活用されております。

  • 2020/05/15

    【人工知能学習データサービス情報】
    Datatangは、顔識別用人工知能学習データとして『23,349人多人種顔多姿勢データ』を提供します。
    データ量:23,349人(1人あたり29枚)、多姿勢、多人種、多年齢、複数照明条件、複数採集環境下の収集データです。
    黒人7,413人、白人3,871人、褐色人種 924人、インド人6,365人、黄色人種4,776人(すべて本人承諾済みのデータです)

  • 2020/04/02

    【人工知能 声紋認証学習用データ情報】
    Datatangは、声紋認証人工知能学習用データとして「500人中国語標準語声紋識別音声データ」を提供します。
    数字、Waking-Up words、日常生活、インタラクティブ関連用語が含まれる中国語標準語声紋認証用音声データです。
    時期により、同じ人でも声が異なる場合があるため、本データは1人当たり、2~3週間の間を置いて、3ヶ月かけて、計4回録音を実施しました。

  • 2020/04/01

    【人工知能 TTS音声合成学習用データ情報】
    Datatangは、TTS(Text to Speech)音声合成人工知能学習用データとして「20,000文TTSアメリカ人女性英語音声データ」を提供します。
    専用スタジオでプロ級マイク設備で収録したアメリカ人女性が話すネイティブな英語の音声データです。
    アノテーション内容は発音校正、音素転写、音素境界切り分け、韻律アノテーション、アクセントアノテーション、品詞アノテーション、発音辞書作成を行ったものです。

  • 2020/03/30

    【人工知能学習データサービス情報】
    Datatangは、顔識別用人工知能学習データとして『2,000人顔のマスク着用の多角度写真』を提供します。
    マスク着用状態を判別できるAIの開発用に、2,000人がマスクをしている写真を多角度から、撮影・収集したデータです。

  • 2020/03/28

    Datatangは、一般社団法人 情報サービス産業協会(JISA)に加盟しました。

  • 2020/03/27

    Datatangは、佐賀県産業スマート化センターのサポーティングカンパニーに登録されました。
    佐賀県産業スマート化センターはテクノロジーをキーワードにしたオープンイノベーションの「ハブ」として、県内企業に対するAIやIoTといった先進技術の導入支援や県内IT産業の成長支援を行い、企業の生産性向上や新たなビジネスの創出につなげていきます!

  • 2020/03/12

    DatatangはNPO法人ITジュニア育成交流協会に協賛しました。
    特定非営利活動法人(NPO)ITジュニア育成交流協会は、ITエンジニアを目指す児童・青少年が意欲をもって目標に向かって元気に活動できるよう、関連する専門家や各種教育機関、IT関連企業、研究機関と連携しながら、彼らに夢と希望を与える各種の支援活動を行っています。

  • 2020/02/20

    Datatang Inc.は日本市場において、AIデータサービスビジネスを開始しました。

  • 2020/02/05

    2020年2月5日~6日 Datatang(Beijing)TechnologyはResortTech Okinawa(おきなわ国際IT見本市)に出展しました。

  • 2020/01/27

    週間BCN VOL1810号に掲載されました。

  • 2019/12/08

    Datatang(Beijing)Technologyは『BCN Conference 2019 冬』において、基調講演を実施しました。

  • 2019/11/12

    2019年11月12日~14日 Datatang(Beijing)Technologyは『Gartner IT Symposium/Xpo』に出展しました。

学習データセット

下記掲載のデータは各分野ごとの代表的な事例です。
その他様々な利用シーンに応じたデータ提供が可能ですので、個別にお問い合わせください。

顔識別/物体検出

顔識別・物体検出は顔、手、ボディ、シーン識別などが含まれます。顔認証、顔ペイメント、自動メークアップ、自動撮影など様々なシーンに利用されます。

顔識別/物体検出

ジェスチャー認識

スマートドライブ

ストリートビューデータ、ドライバー行為データなど自動運転に適用した学習データを提供します。

自動運転

自動翻訳/OCR

各国語のOCR画像・手書きデータ、日英、中英、中韓、韓英などのコーパスデータを保有。主にAI-OCR、翻訳Webサイト、翻訳アプリ、翻訳機器に適用されます。

画像翻訳

音声翻訳

リアルタイムに音声をテキスト化し、自動翻訳します。
チャット、入力、検索、注文、指示などの利用をサポートします。

  • 101時間 – ノイズデータ
  • 156人 – マレー語音声データ
  • 203人 – 騒音環境下での中国語音声データ
  • 831時間 – イギリス英語音声データ
  • 535時間 – ドイツ人が話す英語音声データ
  • 520時間 – フランス人が話す英語音声データ

テキスト翻訳

NLPテクノロジーを使用して、写真上の文字を翻訳したり、音声を翻訳先の言語の変換をサポートします。

  • 5,140,000セット – 中国語と英語翻訳データ
  • 440,000セット – 中国と韓国翻訳データ
  • 100,000セット – 中国語 – ウイグル語翻訳データ
  • 380,000セット – 日英翻訳データ
  • 460,000セット – 韓国語 – 英語翻訳データ
  • 39,000セット – ウイグル語 – 中国語翻訳データ

自動音声読上

テキストを音声に変換し自動読上ソフトに適用されます。
読上言語を選択し、外国語の学習に役立てます。

  • 20時間 – TTS女性アメリカ英語音声(2万文)
  • 200,000単語 – 中国語テキストの韻律辞書

音声

スマートスピーカー、スマート家電、子供向けのストーリーマシン、コンパニオンロボットが普及しております。これらを実現させる各国語音声データを提供します。

母国語/非母語英語音声データ

  • 215時間 – アメリカ英語スマートフォン採集音声データ
  • 199時間 – イギリス英語スマートフォン採集音声データ
  • 200時間 – 日本人話す英語スマートフォン採集音声データ
  • 535時間 – ドイツ人話す英語スマートフォン採集音声データ
  • 520時間 – フランス人話す英語スマートフォン採集音声データ
  • 230時間 – ロシア人話す英語スマートフォン採集音声データ
  • 207時間 – カナダ人話す英語スマートフォン採集音声データ
  • 593時間 – 中国人話す英語スマートフォン採集音声データ

多言語音声データ

  • 1,036時間 – 日本語スマートフォン収集音声データ
  • 2,011時間 – ドイツ語スマートフォン収集音声データ
  • 2,002時間 – イタリア語スマートフォン収集音声データ
  • 1,000時間 – フランス語スマートフォン収集音声データ
  • 1,000時間 – スペイン語スマートフォン収集音声データ
  • 1,000時間 – ポルトガル語スマートフォン収集音声データ
  • 1,002時間 – ロシア語スマートフォン収集音声データ
  • 1,000時間 – ブラジルポルトガル語スマートフォン収集音声データ
  • 292時間 – タイ語スマートフォン収集音声データ
  • 1,000時間 – インドネシア語スマートフォン収集音声データ
  • 505時間 – マレーシア語スマートフォン収集音声データ
  • 1,064時間 – ヒンディー語スマートフォン収集音声データ
  • 760時間 – ベトナム語スマートフォン収集音声データ
  • 466時間 – 韓国語スマートフォン収集音声データ

その他音声データ

  • 120シーン – 火災ビデオデータ
  • 201人 – 幼児の泣き声データ
  • 245時間 – 車内の中国語音声データ
  • 200人 – 中国語waking-up words音声データ
  • 205人 – 騒音環境での中国語音声データ
  • 531時間 – 車内騒音データ

学習データサービス

カスタマイズデータ
収集

データ処理拠点、クラウドソーシング、オフラインアウトソーシング、外部調達を通じデータの収集を行います。
45カ国にリソースパートナーを持っております。

グローバルリソース
豊富な収集経験
被収集者授権獲得
リーズナブルな収集コスト

画像データ

音声データ

3Dデータ

ビデオ

アノテーション
受託サービス

 自動化アノテーション技術を搭載したプラットフォームを利用し、アノテーション加工、品質管理をします。

多種類・高性能
アノテーションツール
豊富なアノテーション経験
厳格なセキュリティ対策
多階層品質検査プロセス

物体検出

音声

オブジェクトセグメンテーション

キーポイント

アノテーション処理
プラットフォーム

日本国内のクラウドサービスを提供開始。必要なモジュールごとにサービスご提供します。
クラウドソーシング(CS)によるデータ収集、アノテーション技術、安全納品などの機能を搭載し、お客様にデータ処理一連のサービスを提供。

Why Us

  1. データサービス先駆者

    • 100人以上のデータ管理エキスパート
    • 1,000社以上の先進的な顧客との取引実績
    • 2,000人規模のデータ処理要員
  2. インテリジェンスなデータ処理技術

    • 「Human-in-the-loop」に基づくデータ認識処理の特許を保有
      【音声自動認識】
      【顔、ボディキーポイントアノテーション】
      【物体検出アノテーション】
  3. 厳格な品質検査管理

    • プロフェッショナルデータ品質検査チーム
    • ISO9001品質管理システム
    • データ正確率:95%~98%

会社情報

Datatangは、世界トップクラスのAI学習用データサービスプロバイダー。
データリソース、技術力と豊富なデータ処理経験に基づき、2011年創業以来、全世界1,000社以上の人工知能企業や研究機関にハイクオリティなデータサービスを提供してきました。

MORE

プライバシーポリシー

当社は、当社が取り扱う全ての個人情報の保護について、社会的使命を十分に認識し、本人の権利の保護、個人情報に関する法規制等を遵守します。また、以下に示す方針を具現化するための個人情報保護マネジメントシステムを構築し、最新のIT技術の動向、社会的要請の変化、経営環境の変動等を常に認識しながら、その継続的改善に、全社を挙げて取り組むことをここに宣言します。

MORE

Legal Statement and Privacy Policy

Contact Us

Datatang株式会社
(データ・タング株式会社)

本社
〒101-0063 東京都千代田区神田淡路町2-105 ワテラスアネックス6階
TEL
03-6256-8911
MAIL
sales@datatang.co.jp